На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет", находящихся на территории Российской Федерации)

Хайтек+

23 подписчика

Свежие комментарии

  • Иван Вакула
    В России после распада СССР и стараниями либеральной власти образование перевели на западные методики, что из этого п...Различия в успева...
  • Aleksandr Antonov
    Мы 33 цивилизация на земле, так что не надо, люди вобще появились более 1000000 назад. Но не однократно уничтожали ь ...Заселение Северно...

В Facebook обучили ИИ прямому переводу на 100 языков без посредников

Компания Facebook открыла доступ к новой языковой модели М2М-100, для обучения которой потребовалось 7,5 млрд пар предложений. Для того чтобы собрать такой объем данных, разработчики воспользовались инструментами автоматизации: собрали миллиарды предложений из сети и пропустили их через еще одну языковую модель FastText, которая определила язык.

Затем программа LASER 2.0 при помощи обучения без учителя – разновидности машинного обучения, не требующей разметки данных вручную, – сопоставила предложения по смыслу.

Разработчики отобрали комбинации языков, которые показались им наиболее востребованными. Они сгруппировали языки по их лингвистической, географической и культурной близости, предположив, что жители одного региона будут общаться между собой чаще – как, например, жители Индии, которые говорят на бенгали, хинди, тамильском и урду, https://www.technologyreview.com/2020/10/19/1010678/facebook... Technology Review.

Перевод на некоторые языки – в частности, те, на которых говорят в Африке или Юго-Восточной Азии – не всегда оказывается точным. Ведущий исследователь проекта Энджела Фань объясняет это тем, что в сети недостаточно данных для обучения модели.

Facebook попросил группу носителей языка оценить качество перевода между 20 языковыми парами, ни одна из которых не связана с английским. Эксперты оценили достоверность перевода относительно высоко, но отметили, что M2M-100 имеет тенденцию создавать дословные переводы со сленгом, при котором смысл текста теряется. Они также обнаружили, что модель подвержена грамматическим проблемам, таким как пропущенная запятая в предложении, что может привести к неправильной интерпретации.

«Для многих языков нам необходимы существенные улучшения, прежде чем можно будет надежно получить разумный перевод, - признали исследователи Facebook в статье, подробно описывающей M2M-100. - Примеры включают африканские языки, такие как коса и зулу, европейские языки, такие как каталанский и бретонский, и языки Юго-Восточной Азии, такие как илоко и кебуано. Для многих из них даже одноязычные ресурсы в интернете ограничены, что сильно влияет на количество и качество обучающих данных».

У Facebook пока нет планов по использованию этой модели в своих продуктах. М2М-100 предназначена исключительно для исследовательских целей, заявила Фань. Возможно, в будущем она поможет повысить качество коммуникации пользователей и модерацию контента соцсети.

Наушники китайской компании Timekettle https://hightech.plus/2020/01/16/naushniki-wt2-plus-perevody... на 36 языков. Один надо вставить себе в ухо, другой — в ухо собеседнику. Помимо функции синхронного перевода есть подавление фоновых шумов и микрофон, изолирующий речь владельца для лучшего распознавания звуков.

 

Ссылка на первоисточник
наверх
Новости СМИ2