OpenAI представила новый метод защиты ИИ от некорректных команд

Специальный корреспондент
Собака

Собака

Пресс-служба
Команда форума
Private Club
Регистрация
13/10/15
Сообщения
55.197
Репутация
63.040
Реакции
277.539
RUB
0
Новый метод меняет подход к безопасности моделей.

image



Исследователи из OpenAI разработали новую технику под названием «иерархия инструкций», которая усиливает защиту ИИ-моделей от злоупотреблений и несанкционированных команд. Этот метод позволяет моделям уделять больше внимания первоначальным инструкциям разработчика, игнорируя некорректные запросы пользователей.

Первая модель, использующая новый метод, — это недавно запущенная облегченная версия GPT-4o Mini. Техника иерархии инструкций помогает моделям следовать системным сообщениям разработчика, что значительно повышает их безопасность и снижает риск использования «злоумышленных» команд.

Исследовательская статья OpenAI объясняет, что существующие большие языковые модели (LLM) не способны различать пользовательские команды и системные инструкции разработчиков. Новый метод позволяет системе давать приоритет системным инструкциям и игнорировать вредоносные запросы, например, такие как «забыть все предыдущие инструкции».

Новая защита особенно важна для будущих полностью автоматизированных агентов, которые смогут выполнять различные задачи в цифровой жизни пользователей. Такие агенты должны быть устойчивы к атакам, чтобы не допускать утечки конфиденциальной информации.

Недавно OpenAI столкнулась с критикой по поводу безопасности и прозрачности. Внутренние письма сотрудников и уход ключевых исследователей подчеркивают необходимость улучшения этих аспектов. Внедрение методов, таких как иерархия инструкций, является важным шагом к повышению доверия пользователей к ИИ и обеспечению их безопасности.

С улучшением защиты ИИ-модели смогут надежнее выполнять свои функции, что делает их использование более безопасным и эффективным в различных сферах.






 
  • Теги
    ии
  • Сверху Снизу