Машинный перевод: история, перспективы и зачем он малым языкам | Александр Антонов, Яндекс
Description
С Александром мы обсудили механизмы автоматического перевода и специфику работы с малоресурсными языками. А еще поговорили:
📍 Об истории развития моделей машинного перевода: от словарей и статистических моделей до нейронок и LLM
📍 Об автоматической обработке малоресурсных языков: где берутся данные для обучения моделей и как создаются параллельные корпуса
📍 Как разработчики учат модели учитывать контекст, интерпретировать метафоры и идиомы
Ведущая, продюсер: Мария Бочарова
Монтажер: Андрей Чиркин
🎧 Подписывайтесь на нас в соц. сетях:
t.me/lingvo_podcast
vk.com/lingvopodcast
📩 Вопросы и предложения отправляйте на почту: lingvopodcast.hse@gmail.com
Таймкоды:
01:20 Как все начиналось: Манхэттанский проект и правиловые переводчики
04:05 Первые модели статистического перевода
07:50 Как нейросети поменяли правила игры
10:50 Как работает перевод для разных грамматических систем
12:40 Перспективы использования больших языковых моделей
15:50 Как собираются параллельные корпуса
20:10 Как оценивать модели перевода: бенчмарки, эталонные корпуса, нейросетевые метрики, люди
25:25 Путь Александра в Яндекс и автоматический перевод
27:40 Чувашско-русский переводчик, над которым работал Александр
33:25 Зачем большому бизнесу перевод для малых языков
35:00 Какие были сложности при сборе данных для чувашского языка
36:40 Лайфхаки по обучению моделей для малых языков
40:10 Перспективы корпуса чувашского языка: распознавание и генерация речи
43:05 Достигли ли своего предела технологии перевода? Технологии speech-to-speech, мультимодальные GPT, перевод по фото, локализация.