IT

IBM рапортует о новых успехах ИИ в распознавании речи

На днях IBM объявила о новом достижении искусственного интеллекта в распознавании речи. В далеком 1995 году уровень ошибок в популярном бенчмарке (в данном случае наборе аудиофайлов с записью телефонных разговоров на английском языке) SWITCHBOARD составлял 43%, в 2004 — уже 15.2%, а в сентябре 2016 — 6.6%. И вот теперь IBM поставила очередной рекорд, добившись 5.5%. Успех обеспечила комбинация долгой краткосрочной памяти с языковыми моделями WaveNet и тремя т.н. сильными акустическими моделями.

Для сравнения человек в среднем неправильно распознает каждое двадцатое слово. Расчетно это составляет 5%, но IBM в качестве среднестатистической ошибки у человека приводит разные цифры — в одном источнике 4%, в другом — 5.1%. В свою очередь Microsoft, чей собственный рекорд в октябре 2016 составил 5.9%, именно эту цифру расценивает в качестве уровня человеческой погрешности.

В другом бенчмарке, CallHome, уровень ошибки разработанной командой IBM Watson системы составляет 10.3%, тогда как человеческий уровень оценивается в 6.8%. Если эта тенденция сохранится, то превосходство искусственных систем распознавания речи над человеком — вопрос времени. Подчеркиваю, что речь идет именно о распознавании устной речи (по сути — представления в письменном виде), а не её осмысления. Последнее является чрезвычайно сложной задачей, решение которой в обозримом будущем пока ничто не предвещает.

Развиваются и встречные технологии, по искусственному синтезированию человеческой речи. На днях китайский поисковый гигант Baidu объявил, что его система преобразования текста в голос Deep Voice обучается за считанные часы с минимальным вмешательством человека. А недавно появились сведения, что интеллектуальный помощник Alexa, созданный в Amazon, в ближайшем будущем будет не только отвечать за запросы своего хозяина, но и вступать в диалог первым, озвучивая важные уведомления, напоминания и т.д. Способность голосовых ассистентов к взаимодействию с людьми на естественном языке в смартфонах (или скажем очках дополненной реальности) со временем может стать главным критерием качества мобильного устройства, вытеснив на задний план такие характеристики как процессор, дисплей или камера.

Ссылка на первоисточник

Понравилась статья? Подпишитесь на канал, чтобы быть в курсе самых интересных материалов