Microsoft представила новый инструмент для ИИ-тестирования
Microsoft анонсировала новый инструмент с открытым исходным кодом, который позволяет разработчикам создавать тесты поведения ИИ с помощью текстовых описаний.
Microsoft представила ASSERT — новый фреймворк с открытым исходным кодом. Он призван упростить тестирование систем искусственного интеллекта. ASSERT помогает убедиться, что ИИ ведёт себя так, как задумано для конкретного продукта или сервиса.
Название ASSERT расшифровывается как Adaptive Spec-driven Scoring for Evaluation and Regression Testing. Фреймворк использует ИИ для преобразования высокоуровневых описаний целей или политик на естественном языке в подробные, оцениваемые тесты. Он берёт простые описания ожидаемого поведения модели ИИ, превращает их в структурированный набор допустимых и недопустимых действий, генерирует сценарии проблем и тестовые случаи. Затем ASSERT запускает их в целевой системе и оценивает результаты.
Система также записывает пути, по которым идёт ИИ, включая промежуточные действия и вызовы инструментов. Это позволяет разработчикам проверять, где происходят сбои. Разработчики могут предоставить контекст системы, инструменты и ограничения для настройки оценки. Например, можно указать, что ИИ-агент для исследования документов не должен отправлять электронные письма за пределы компании или должен ограничивать конфиденциальную информацию для руководителей высшего звена.
Microsoft отмечает, что ASSERT заполняет пробел, который не могут охватить более общие оценки ИИ. Это особенно важно, когда поведение модели ИИ формируется контекстом приложения, его политиками и инструментами. Сара Бёрд, директор по продуктам ответственного ИИ в Microsoft, подчеркнула важность оценок для принятия правильных решений. Она отметила, что для надёжной системы нужно оценивать гораздо больше аспектов, специфичных для приложения.
Бёрд также сообщила, что ASSERT можно использовать для оценки систем на этапе их создания, после развёртывания и для постоянного мониторинга. Выпуск фреймворка происходит на фоне общего сдвига в индустрии ИИ. По мере роста возможностей моделей исследователи всё больше фокусируются на повторяемом тестировании и регрессионных проверках. Другие инициативы, такие как HELM от Стэнфорда, AILuminate от MLCommons и группы оценки вроде METR, также выпускают бенчмарки для измерения поведения моделей в разных условиях.