На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет", находящихся на территории Российской Федерации)

Хайтек+

24 подписчика

Свежие комментарии

  • Егор Горшков
    А почему бы и да, как говорится.Храните биткоины ...
  • Цуркан Арк
    Сказки, на три недели, а потом полгода жечь щепу?В Финляндии подкл...
  • Иван Вакула
    В России после распада СССР и стараниями либеральной власти образование перевели на западные методики, что из этого п...Различия в успева...

Новые модели OpenAI галлюцинируют чаще - каждый третий их ответ неверный

Галлюцинации остаются одной из сложнейших проблем в сфере искусственного интеллекта. Обычно каждая новая ИИ-модель справляется немного лучше — выдает меньше недостоверной информации, чем предыдущие версии. Но, похоже, это не относится к o3 и o4-mini. Внутренние тесты OpenAI показали, что они галлюцинируют чаще, чем предыдущие «рассуждающие» модели компании (o1, o1-mini и o3-mini), а также чем их традиционные инструменты, например, GPT-4o.

При этом разработчики ChatGPT сами не до конца понимают, в чем тут дело. В техническом отчете о моделях o3 и o4-mini OpenAI признает необходимость дальнейших исследований, чтобы понять, почему улучшение аналитических способностей нейросети приводит к учащению случаев галлюцинаций. Хотя новые модели показывают лучшие результаты в программировании и математике, их склонность делать больше утверждений в целом приводит к парадоксальному эффекту: наряду с увеличением числа точных ответов растёт и количество ошибочных выводов.

Модель o3 галлюцинировала в ответ на 33% вопросов теста PersonQA — внутреннего бенчмарка компании для оценки точности знаний модели о людях. Этот показатель примерно вдвое превышает уровень галлюцинаций предыдущих «рассуждающих» моделей o1 и o3-mini, где частота ошибок составила 16% и 14,8% соответственно. Модель o4-mini показала ещё более тревожные результаты на PersonQA — выдавала ошибочные ответы в 48% случаев.

Сторонние испытания некоммерческой исследовательской лаборатории Transluce также выявили склонность модели o3 выдумывать действия, якобы совершенные для получения ответов. В одном из случаев o3 утверждала, что запускала код на MacBook Pro 2021 года «вне платформы ChatGPT», а затем вставила результаты в ответ.

Хотя у o3 действительно есть доступ к некоторым инструментам, подобные действия она выполнить не способна. Кроме того, модель часто генерирует неработающие веб-ссылки, выдавая их за достоверные.

Галлюцинации могут способствовать генерации нестандартных идей и творческому «мышлению», однако они же делают модели малопригодными для сфер, где критически важна точность данных. Например, юридические фирмы вряд ли будут довольны ИИ, допускающим фактические ошибки в договорах. Один из перспективных методов повышения точности — интеграция веб-поиска. Например, GPT-4o с этой функцией достигает точности 90% в тесте SimpleQA.

В последний год отрасль переключилась на модели с развитым логическим мышлением, поскольку традиционные методы улучшения ИИ перестали давать значимый прогресс. Такие инструменты отлично справляются с разными задачами без необходимости в колоссальных вычислительных ресурсах и гигантских обучающих выборках. Однако проблему с галлюцинациями разработчикам еще предстоит решить.

 

Ссылка на первоисточник
наверх
Новости СМИ2