Модели ИИ переписывают документы с ошибками
Передовые модели искусственного интеллекта способны не просто удалять, а незаметно переписывать содержимое документов, создавая трудноуловимые ошибки.
Новое исследование Microsoft показало, что большие языковые модели (LLM) незаметно искажают документы, с которыми работают. Даже передовые ИИ-системы, которым поручают многоэтапные задачи, вносят ошибки, что ставит под сомнение их надёжность для автоматизации интеллектуальной работы.
Учёные разработали бенчмарк DELEGATE-52, имитирующий автономные рабочие процессы в 52 профессиональных областях. Он позволяет измерять, насколько сильно деградирует контент со временем. Результаты показали, что лучшие модели, такие как Gemini 3.1 Pro, Claude 4.6 Opus и GPT 5.4, искажают в среднем 25% содержимого документов к концу таких рабочих циклов. Использование агентских инструментов или отвлекающих документов лишь ухудшает их производительность.
Исследование Microsoft сосредоточено на «делегированной работе». Здесь пользователи поручают LLM выполнять задачи, связанные со знаниями, анализируя и изменяя документы. Примером служит «vibe coding», где пользователь делегирует разработку и редактирование кода ИИ. В бухгалтерии модель может разделить большой реестр на отдельные файлы по категориям расходов.
Пользователи часто доверяют моделям, так как у них нет времени или экспертизы для ручной проверки всех изменений. Они ожидают, что ИИ точно выполнит задачи, не допуская ошибок, несанкционированных удалений или галлюцинаций в документах.
Для оценки надёжности ИИ в длительных итеративных рабочих процессах исследователи создали бенчмарк DELEGATE-52. Он включает 310 рабочих сред в 52 различных профессиональных областях, включая финансовый учёт, разработку ПО, кристаллографию и нотную запись.
Каждая рабочая среда использует реальные исходные текстовые документы объёмом от 2000 до 5000 токенов. К ним прилагаются от пяти до десяти сложных задач редактирования.
Оценка многоэтапного процесса редактирования обычно требует дорогостоящей ручной проверки. DELEGATE-52 обходит это с помощью метода симуляции «кругового реле». Он оценивает ответы без необходимости в аннотированных человеком эталонных решениях. Этот подход вдохновлён техникой обратного перевода, используемой для оценки машинного перевода.
Каждая задача редактирования в DELEGATE-52 полностью обратима. Например, инструкция разделить реестр на файлы по категориям расходов сопровождается инструкцией объединить все файлы обратно в один реестр. Филипп Лабан, старший исследователь Microsoft Research и соавтор статьи, пояснил, что это не просто тест на отмену действия. Модели не знают, является ли задача прямым или обратным шагом, и не осведомлены об общем дизайне эксперимента.
Эти круговые задачи объединены в непрерывное реле, имитирующее длительные рабочие процессы из 20 последовательных взаимодействий. Для большей реалистичности бенчмарк добавляет отвлекающие файлы в контекст каждой задачи. Эти файлы содержат от 8000 до 12000 токенов тематически связанных, но совершенно нерелевантных документов. Они проверяют, может ли ИИ сохранять фокус или путается, используя неверные данные.
Исследователи протестировали 19 различных языковых моделей от OpenAI, Anthropic, Google, Mistral, xAI и Moonshot. В среднем документы деградировали на 50% к концу симуляции. Даже лучшие модели, такие как Gemini 3.1 Pro, Claude 4.6 Opus и GPT 5.4, испортили в среднем 25% содержимого документов.
Из 52 профессиональных областей только в Python большинство моделей достигли готовности с результатом 98% или выше. Модели хорошо справляются с программными задачами, но испытывают серьёзные трудности в обработке естественного языка и нишевых областях, таких как художественная литература, отчётность или рецепты. Общая лучшая модель, Gemini 3.1 Pro, была признана готовой к делегированной работе только в 11 из 52 областей.
Искажение не было результатом медленного накопления мелких ошибок. Около 80% общей деградации вызвано редкими, но массовыми критическими сбоями. Это когда модель внезапно теряет не менее 10% содержимого документа за одно взаимодействие. Передовые модели просто откладывают эти катастрофические сбои на более поздние этапы.
Когда более слабые модели терпят неудачу, их деградация происходит в основном из-за удаления контента. Однако, когда терпят неудачу передовые модели, они активно искажают существующий контент. Текст остаётся, но он тонко искажён или галлюцинирован, что значительно затрудняет обнаружение ошибки человеком.
Предоставление моделям агентской оболочки с общими инструментами для выполнения кода и доступа к файлам фактически ухудшило их производительность, добавляя в среднем 6% больше деградации. Лабан объяснил, что проблема в использовании общих инструментов вместо специфических для домена. Модели не могут эффективно писать программы на лету для манипулирования файлами в разных областях без ошибок. Если они не могут сделать что-то программно, они прибегают к чтению и перезаписи целых файлов, что менее эффективно и более подвержено ошибкам. Решение для разработчиков — создавать узкоспециализированные инструменты.
Деградация также нарастает по мере увеличения документов или добавления большего количества отвлекающих файлов в рабочее пространство. Для компаний, активно инвестирующих в генерацию с дополненным поиском (RAG), эти отвлекающие документы служат прямым предупреждением о возрастающей стоимости беспорядочного контекста. Шумное контекстное окно может вызвать минимальное падение производительности на 1% после двух взаимодействий, но эта деградация увеличивается до 2-8% за длительную симуляцию. Лабан подчеркнул, что пайплайны RAG следует оценивать в многоэтапных рабочих процессах, а не только в одноразовых тестах.
Выводы из бенчмарка DELEGATE-52 дают важную проверку реальности для текущего ажиотажа вокруг полностью автономных ИИ-агентов. Дизайн бенчмарка также подразумевает практическое ограничение: поскольку модели могут поддерживать чистую запись в течение нескольких шагов до внезапного катастрофического сбоя, необходим инкрементальный человеческий контроль, а не одна окончательная проверка. Лабан рекомендует строить ИИ-приложения вокруг коротких, прозрачных задач, а не сложных долгосрочных агентов.
Для организаций, желающих безопасно развернуть автономных агентов сейчас, методология DELEGATE-52 предоставляет практический план для тестирования внутренних конвейеров данных. Лабан объяснил, что команде предприятия, желающей принять эту структуру, необходимо создать три компонента: (а) набор обратимых задач редактирования, представляющих их рабочие процессы, (б) парсер, который преобразует их доменные документы в структурированное представление, и (в) функцию сходства, которая сравнивает два разобранных представления. Командам даже не нужно создавать парсеры с нуля. Исследовательская группа Microsoft успешно перепрофилировала существующие библиотеки парсинга для 30 из 52 протестированных доменов.
Лабан оптимистичен относительно темпов улучшений. Прогресс реален и быстр. Только в семействе GPT модели перешли от менее 20% до примерно 70% за 18 месяцев. Если эта траектория сохранится, модели скоро смогут достичь максимальных результатов в DELEGATE-52. Однако Лабан предостерёг, что DELEGATE-52 намеренно мал по сравнению с огромными корпоративными средами. Даже когда базовые модели неизбежно освоят этот бенчмарк, бесконечный «длинный хвост» уникальных корпоративных данных и рабочих процессов означает, что организациям всегда потребуется инвестировать в пользовательские, специфические для домена инструменты, чтобы поддерживать надёжность своих автономных агентов.