Прогресс

OpenAI представила набор инструментов для отслеживания угроз со стороны ИИ

Одним из ключевых компонентов новой системы безопасности является использование «оценочных карт» рисков для моделей ИИ, которые измеряют и отслеживают различные показатели потенциального вреда, такие как возможности модели, уязвимости и последствия. Оценочные карты регулярно обновляются, а меры вмешательства при достижении определенных пороговых значений риска пересматриваются.

Производством моделей управляет команда «систем безопасности». Эта команда занимается, например, систематическими злоупотреблениями ChatGPT, которое может смягчаться ограничениями или настройкой API. Модели на стадии разработки оценивает команда «готовности», которая стремится выявить риски до выпуска модели. Также есть команда «сверхвыравнивания», которая работает над теоретическими руководствами для «сверхинтеллектуальных» моделей.

Первые две категории имеют относительно понятную методику оценки. Команды оценивают каждую модель по четырем категориям риска: кибербезопасность, влияние (например, дезинформация), автономность модели, а также комплекс угроз: химические, биологические, радиологические и ядерные, например, способность создавать новые патогены.

Предполагаются различные меры смягчения последствий, например, сдержанность в описании процесса изготовления напалма или самодельных бомб. Если после принятия во внимание мер по снижению риска, модель по-прежнему оценивается как имеющая «высокий риск», ее нельзя развернуть, а если у модели есть какие-либо «критические риски», ее не будут развивать дальше.

OpenAI уделяет внимание строгой и основанной на данных оценки рисков искусственного интеллекта.

Отказ от гипотетических и спекулятивных сценариев, которые часто преобладают в публичном дискурсе, является приоритетом. OpenAI заявляет, что вкладывает ресурсы в разработку стратегий смягчения рисков и гарантий безопасности. Лаборатория будет постоянно совершенствовать и обновлять структуру на основе новых данных, отзывов и исследований, а также будет делиться своими выводами и передовым опытом с более широким сообществом ИИ.

Анонс OpenAI последовал за несколькими крупными релизами, посвященными безопасности ИИ, от ее главного конкурента, Anthropic. Компания, основанная бывшими исследователями OpenAI, недавно опубликовала свою «Политику ответственного масштабирования». Эта политика представляет структуру, определяющую конкретные уровни безопасности ИИ и соответствующие протоколы для разработки и внедрения моделей ИИ. Структуры OpenAI и Anthropic значительно отличаются. Политика Anthropic имеет более формальный и предписывающий характер, прямо связывая меры безопасности с возможностями моделирования. Если безопасность не демонстрируется, разработка прекращается. Структура OpenAI более гибкая и адаптивная. Устанавливаются общие пороговые значения риска, которые требуют проведения проверок, а не жестко заданные уровни.

Ссылка на первоисточник

Понравилась статья? Подпишитесь на канал, чтобы быть в курсе самых интересных материалов

Тренды

Хайтек+

Свежие комментарии

Прогресс

OpenAI представила набор инструментов для отслеживания угроз со стороны ИИ