На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет", находящихся на территории Российской Федерации)

Хайтек+

20 подписчиков

Свежие комментарии

  • Aleksandr Antonov
    Мы 33 цивилизация на земле, так что не надо, люди вобще появились более 1000000 назад. Но не однократно уничтожали ь ...Заселение Северно...
  • ЧилиИвано
    Ничего не понятно, но приходит аналогия с древними технологиями - вычислитель хрустального черепа. Тут тоже когда осв...Китайский квантов...
  • AlisaKortneva
    Диета, физическая активность - это основа здоровья печени. Для профилактики еще неплохо овесол попить, а для лечения ...Представлена нова...

ChatGPT сдал экзамен по радиологии, правильно ответив на 81% вопросов

Чтобы оценить эффективность ChatGPT в ответах на экзаменационные вопросы совета рентгенологов и изучить сильные и слабые стороны, ученые сначала протестировали ChatGPT на основе GPT-3.5 — наиболее часто используемой версии. Исследователи использовали 150 вопросов с несколькими вариантами ответов, разработанных в соответствии со стилем, содержанием и сложностью экзаменов Канадского Королевского колледжа и Американского совета по радиологии.

Вопросы не включали изображения и были сгруппированы по типам, чтобы получить представление о производительности: мышление более низкого порядка (запоминание, базовое понимание) и более высокого порядка (применение, анализ, синтез). Вопросы мышления высокого порядка были дополнительно подклассифицированы по типу (описание результатов визуализации, клиническое ведение, расчет и классификация, ассоциации с заболеванием). Производительность ChatGPT оценивалась в целом, а также по типу вопроса и теме. Также оценивалась уверенность в ответах.

Исследователи обнаружили, что ChatGPT на основе GPT-3.5 правильно ответил на 69% вопросов (104 из 150), что близко к проходному баллу в 70%, используемому Королевским колледжем в Канаде. Модель относительно хорошо показала себя в вопросах, требующих мышления более низкого порядка (84%, 51 из 61), но испытывала затруднения с вопросами, требующими мышления более высокого порядка (60%, 53 из 89). Чат-боту было тяжело справиться с описанием результатов визуализации (61%, 28 из 46), расчетом и классификацией (25%, 2 из 8) и применением концепций (30%, 3 из 10). Такие результаты в сложных вопросах неудивительны, учитывая отсутствие предварительной подготовки по радиологии.

В последующем исследовании новая версия, GPT-4, правильно ответила на 81% (121 из 150) тех же вопросов, превзойдя GPT-3.5 и превысив проходной порог в 70%. GPT-4 показал себя намного лучше, чем GPT-3.5, в вопросах мышления более высокого порядка (81%). Чат-бот справился с описанием результатов визуализации (85%) и применением понятий (90%).

При этом GPT-4 не показал улучшения в вопросах мышления более низкого порядка (80% против 84%) и неправильно ответил на 12 вопросов, на которые GPT-3.5 ответил правильно, что вызывает сомнения в его надежности для сбора информации. Опасная тенденция ChatGPT давать неточные ответы, «галлюцинации», менее распространена в GPT-4, но все еще ограничивает его использование, например, в медицинском образовании.

Оба исследования показали, что ChatGPT всегда отвечает уверенно, даже если ответы неправильные. Это особенно опасно, если полагаться исключительно на информацию ChatGPT. Новички могут не распознать неправильные ответы, написанные уверенным языком.

 

Ссылка на первоисточник

Картина дня

наверх
Новости СМИ2