Новый рубеж в обеспечении безопасности ИИ: межлабораторное тестирование для объединения индустрии
- Илья Суцкевер из OpenAI выступает за проведение перекрестных лабораторных тестов для усиления безопасности искусственного интеллекта на фоне стремительного технологического прогресса и отраслевых рисков. - Пилотный браузерный проект Claude от Anthropic выявил проблемы безопасности, такие как атаки с внедрением подсказок, что побудило к разработке дополнительных стратегий по их смягчению. - Исследование показало низкий уровень соблюдения добровольных обязательств по безопасности со стороны крупных компаний в сфере искусственного интеллекта, включая Apple, что ставит под сомнение эффективность саморегулирования. - Инициатива по безопасности искусственного интеллекта от Cloud Security Alliance предлагает соответствующие фреймворки и RiskRub.
Соучредитель и член совета директоров OpenAI Илья Суцкевер призвал к внедрению межлабораторного тестирования как критически важной меры для обеспечения безопасности систем искусственного интеллекта (AI). Его заявление прозвучало на фоне растущих опасений по поводу рисков, связанных с развитием AI, и акцентирует внимание лидеров отрасли на необходимости совместных, стандартизированных протоколов безопасности. Призыв Суцкевера к межлабораторному тестированию соответствует более широким усилиям по укреплению безопасности AI и снижению потенциального вреда по мере стремительного развития технологий [1].
Необходимость подобных совместных подходов подчеркивается последними событиями в области внедрения и регулирования AI. Например, Anthropic, крупный игрок в секторе AI, запустил пилотную программу для своего AI-ассистента Claude, предназначенного для работы непосредственно в браузерах пользователей. Эта инициатива, направленная на повышение полезности AI за счет интеграции в основные цифровые рабочие процессы, также выявила серьезные проблемы безопасности и защиты, связанные с браузерными AI-агентами. Атаки с внедрением подсказок — когда злоумышленники манипулируют поведением AI, внедряя скрытые инструкции — стали ключевым риском, что побудило Anthropic реализовать надежные стратегии смягчения, такие как разрешения на уровне сайта, подтверждение действий и продвинутые классификаторы для выявления подозрительных шаблонов [2].
Подобные риски не ограничиваются отдельными компаниями. Недавнее исследование ученых из Brown, Harvard и Stanford показало, что многие AI-компании не полностью соблюдают свои добровольные обязательства по безопасности, особенно после обещаний по безопасности AI, данных администрацией Байдена в 2023 году. Например, Apple показала низкие результаты в оценке: доказательства соблюдения были найдены только по одному из восьми обязательств. Исследование подчеркивает ограничения саморегулирования в быстро развивающейся отрасли и ставит под вопрос эффективность добровольных мер по обеспечению подотчетности и безопасности [5].
В ответ на эти вызовы Cloud Security Alliance (CSA) запустил свою инициативу AI Safety Initiative в конце 2023 года, объединив лидеров отрасли, государственные агентства и академические учреждения для разработки практических инструментов и рамок управления рисками AI. Инициатива предоставляет организациям чек-листы готовности к AI, рамки управления и рекомендации по безопасности с целью согласования технологического прогресса с регуляторными ожиданиями. Примечательно, что CSA также представила RiskRubric.ai — систему оценки, которая анализирует безопасность, прозрачность и надежность крупных языковых моделей (LLM), предлагая предприятиям основанный на данных подход к внедрению AI [4].
Совместные усилия по повышению безопасности AI также поддерживаются растущей экосистемой фондов и грантовых программ. Такие организации, как Long-Term Future Fund, Survival and Flourishing Fund и AI Safety Fund, предоставляют финансовую поддержку исследователям, предпринимателям и учреждениям, работающим над снижением рисков AI. Эти инициативы направлены на решение долгосрочных экзистенциальных рисков, а также на продвижение ответственных инноваций. Кроме того, венчурные компании, такие как Juniper Ventures и Mythos Ventures, инвестируют в стартапы, разрабатывающие инструменты для повышения безопасности, соответствия и управления AI [6].
Призыв к межлабораторному тестированию, как отмечает Суцкевер, является ключевым шагом к решению этих системных проблем. Благодаря внедрению общих стандартов и прозрачной оценки между лабораториями, занимающимися разработкой AI, отрасль может способствовать большему доверию и подотчетности. Такой подход особенно важен по мере усложнения и повышения возможностей AI-систем, что требует единого фронта для оценки потенциальных рисков до их внедрения. OpenAI, Anthropic и другие ключевые участники имеют возможность — и ответственность — возглавить этот переход, приняв совместные протоколы безопасности и задав стандарт ответственных инноваций в сфере AI [1].

Дисклеймер: содержание этой статьи отражает исключительно мнение автора и не представляет платформу в каком-либо качестве. Данная статья не должна являться ориентиром при принятии инвестиционных решений.
Вам также может понравиться
Мнение: L2 обеспечивается безопасностью Ethereum, но это уже не соответствует действительности
Две трети активов L2 больше не находятся под защитой безопасности Ethereum.

Когда медленные активы встречаются с быстрым рынком: парадокс ликвидности RWA
Неликвидные активы, завернутые в ончейн-ликвидность, повторяют финансовый дисбаланс 2008 года.

История Hayden Adams и Uniswap
Криптовалютные визионеры, меняющие способ торговли цифровыми активами в мире.

Руководство по аренде энергии на JustLend DAO|Ставка аренды энергии значительно снижена до 8%, TRON全面 снижает комиссии, помогая пользователям участвовать в развитии экосистемы с низкими затратами
TRON получил двойной позитив: сетевые комиссии значительно снижены на 60%, а ставка аренды энергии на JustLend DAO уменьшена до 8%. Эти меры вместе формируют самое привлекательное в истории экосистемы TRON сочетание по оптимизации затрат и открывают новую эру массового DeFi.

Популярное
ДалееЦены на крипто
Далее








