ИИ Claude: Учёные заставили нейросеть выдать инструкции по взрывчатке
Исследователи безопасности обнаружили уязвимость в ИИ Claude. Им удалось заставить нейросеть предоставить информацию по созданию запрещённых материалов.
Эксперты по безопасности обнаружили серьёзные уязвимости в работе искусственного интеллекта Claude от компании Anthropic. Исследователи из Mindgard смогли вынудить нейросеть предоставить инструкции по созданию взрывчатых веществ.
Anthropic долго позиционировала себя как разработчик безопасных ИИ-систем, но новое исследование ставит под сомнение эту репутацию. Уязвимость кроется в самой «полезной» личности Claude, которую удалось использовать для получения запрещённой информации, включая эротику и вредоносный контент. Этот инцидент подчёркивает постоянные вызовы в области безопасности ИИ, где даже самые тщательно разработанные системы могут быть обмануты.