OpenAI: Новые инструменты для безопасности подростков в ИИ

OpenAI представила открытые инструменты, чтобы помочь разработчикам создавать безопасные ИИ-приложения для подростков.

Логотип OpenAI на фоне схематичного изображения цифровой безопасности и защиты подростков в интернете

OpenAI представила набор подсказок для разработчиков, которые помогут сделать приложения безопаснее для подростков. Эти инструменты, выпущенные недавно, работают с открытой моделью безопасности gpt-oss-safeguard.

Разработчикам теперь не придется создавать системы защиты с нуля. Новые подсказки призваны укрепить уже существующие решения. Они охватывают такие проблемы, как графическое насилие, сексуальный контент, вредные идеалы тела, опасные действия, ролевые игры романтического или агрессивного характера, а также товары и услуги с возрастными ограничениями. Политики оформлены как подсказки, что обеспечивает их совместимость с другими моделями, хотя наилучший эффект достигается в экосистеме OpenAI. Компания работала над ними совместно с организациями Common Sense Media и everyone.ai. Робби Торни, руководитель отдела оценки ИИ в Common Sense Media, отметил, что открытый исходный код позволит со временем адаптировать и улучшать эти политики.

OpenAI признает, что разработчикам, даже опытным командам, часто сложно переводить цели безопасности в четкие операционные правила. Это может приводить к пробелам в защите, непоследовательному применению или слишком широкой фильтрации. Четкие и хорошо сформулированные политики — основа для эффективных систем безопасности.

Эти политики не являются полным решением всех сложных задач безопасности ИИ, но они развивают предыдущие усилия компании. Ранее OpenAI уже внедряла меры защиты на уровне продукта, такие как родительский контроль и предсказание возраста. В прошлом году компания обновила свои рекомендации для больших языковых моделей, касающиеся взаимодействия с пользователями младше 18 лет. Однако у самой OpenAI есть вопросы к репутации. Компания сталкивается с исками от семей, чьи близкие покончили с собой после интенсивного использования ChatGPT. Защитные механизмы чат-ботов не всегда непробиваемы. Тем не менее, новые политики — шаг вперед, особенно для независимых разработчиков.