В отличие от других методов, также использующих обратную связь от неспециалистов, технология, созданная инженерами MIT, Гарвардского университета и Университета Вашингтона, позволяет ИИ учиться быстрее, несмотря на то, что данные, полученные от пользователей, полны ошибок. Вдобавок новый метод позволяет собирать фидбэк асинхронно, https://news.mit.edu/2023/method-uses-crowdsourced-feedback-... MIT News.
Один из способов получить обратную связь от обучения с подкреплением – показать пользователю две фотографии и попросить выбрать ту, которая больше соответствует цели задачи. Однако когда этим занимаются непрофессионалы, они чаще совершают ошибки, и в функции вознаграждения возникают многочисленные помехи.
В таком случае агент не может научиться.По словам ученых, проблема в том, что ИИ воспринимает функцию вознаграждения слишком серьезно и пытается идеально соответствовать требованиям. Поэтому, вместо прямой оптимизации функции, они использовали ее для того, чтобы говорить роботу, в каком направлении продолжать исследования. Процесс был разбит на две части, каждая из которых управляется собственным алгоритмом.
Алгоритм выбора цели постоянно обновляется с помощью обратной связи. Она используется не в качестве функции вознаграждения, но, скорее, для направления исследования. Второй алгоритм занимается исследованием самостоятельно, движимый только селектором цели. Он сохраняет видео- и фотоизображения своих действий и отсылает их людям, которые обновляют задачу.
Модель, получившая название HuGE (Human Guided Exploration), была испытана на данных, полученных от 109 неспециалистов из 13 стран и смогла добиться поставленной цели – написать от руки букву U и переложить предметы – быстрее, чем другие модели, обученные другими методами.
В будущем этот метод может помогать роботу учиться выполнять определенные задачи для пользователя, не требуя от него показать пример правильного выполнения этой задачи. Машина сможет самостоятельно понять, как добиться цели, получая в процессе данные от неспециалистов.
Команда из швейцарских исследователей недавно https://hightech.plus/2023/11/24/robot-ekskavator-sam-sproek... строительного робота HEAP. По сути, это модифицированный 12-тонный шагающий экскаватор Menzi Muck M545. Без участия человека он построил стену высотой 6 метров из валунов методом сухой кладки.
Свежие комментарии