Секретный доклад YaC 2018: под капотом Алисы, новые Я.Диалоги и Яндекс.Станция

29 мая в Москве проходит конференция Yet another Conference 2018. В ходе мероприятия директор по технологиям Яндекса Михаил Парахин рассказал, как устроена Алиса – что находится у нее «под капотом» и как она функционирует.

За распознавание голоса в сервисе отвечает технология Speechkit. При этом зачастую задача по распознаванию бывает довольно сложной: Алисе приходится иметь дело с различными затруднениями.

Секретный доклад YaC 2018: под капотом Алисы, новые Я.Диалоги и Яндекс.Станция

Чтобы научить помощницу распознавать речь, специалисты Яндекса собрали около 1 млрд голосовых сообщений за 3 года.

За формирование ответов Алисы отвечает технология Turing. Вопросы пользователей проецируются в семантическое пространство высокой размерности. На скриншоте ниже показано, как это происходит: каждая точка – это высказывание, а разными цветами обозначены различные темы.

Секретный доклад YaC 2018: под капотом Алисы, новые Я.Диалоги и Яндекс.Станция

В процессе обучения точки из одной темы становятся ближе друг к другу:

Секретный доклад YaC 2018: под капотом Алисы, новые Я.Диалоги и Яндекс.Станция

При этом разные темы плавно перетекают друг в друга. Так, тема о погоде переходит в разговор об одежде.

Выбрав ответ, Алиса должна произнести его. За это отвечает технология Text-to-speech. Специалисты Яндекса записали с актерами 360 тысяч слов, предназначенных для ответов на пользовательские вопросы. Чтобы получить голос, приближенный к человеческому, потребовалось собрать также более 1 млн фонем, а затем «пройтись» по ним нейросетью, чтобы сгладить звучание. Таким образом удалось получить речь, приближенную к человеческой.

Теперь у Алисы появились компьютерное зрение и музыкальный слух. Если показать Алисе фотографию, она поймёт, что на ней изображено, а если включить музыку, то она подскажет песню и предложит послушать её в Я.Музыке. Кроме того, Алиса научилась распознавать по фото модель и марку машины, породу кошки или собаки, незнакомое здание или памятник, знаменитость или произведение искусства. Если на фотографии есть текст, Алиса предложит распознать его и перевести на русский или другой язык с помощью Яндекс.Переводчика. А увидев смартфон, пару туфель или другой товар – найдёт похожие варианты в поиске Яндекса или в Я.Маркете.

Выступление Парахина продолжил руководитель управления машинного интеллекта Яндекса Михаил Биленко. Он сообщил о запуске платформы здесь.

Источник: www.seonews.ru