Системы распознавания речи - настоящее и будущее.

Андрей Головных, опубликовано на сайте www.chip.ua

Речевой ввод и голосовое управление - давно не новость. Но станет ли распознавание речи электронными устройствами привычным элементом нашего быта?


Компьютер! - говорит капитан Кирк, и звездолет Enterprise сразу оживает: включаются защитные экраны и космический корабль устремляется вперед с трехкратной световой скоростью.

Для создателей научно-фантастических фильмов 70-х и 80-х годов говорящие и понимающие человеческую речь компьютеры были такой же мечтой далекого будущего, как искривляющие пространство звездолеты. Но космические корабли, летящие со скоростью выше скорости света, даже в будущем останутся лишь прекрасной мечтой сценаристов, а вот процесс распознавания речи в последние годы сделал гигантский скачок вперед: в ближайшем будущем речевой ввод информации сделает устаревшей клавиатуру и значительно упростит взаимодействие человека с компьютерами и бытовой электроникой.

Уже сейчас существуют многочисленные системы, умеющие воспринимать человеческие слова: компьютеры, медицинское электронное оборудование, автомобили и мобильные телефоны.

Компьютерное распознавание речи существует с 1993 года. Однако, если еще три года назад "программные диктофоны" использовались в основном для развлечения коллег по работе, то современные программы показывают вполне приемлемые результаты, - правда, после интенсивной "тренировки".

Прежде всего, современные программы распознавания речи для ПК позволяют диктовать в обычной разговорной манере. Так называемая дискретная надиктовка с частыми остановками и паузами между словами осталась в прошлом. Однако непрерывный процесс распознавания речи, дающий точность до 95 процентов в оптимальных условиях, все-таки дает пять неправильных букв на 100 знаков. Около 200 ошибок на странице формата A4 - слишком много для профессиональной работы.

Компьютер учится понимать речь
1962: Первое коммерческое устройство речевого вывода: модель 7772 от IBM.
1984: Первая система распознавания речи на базе ЭВМ. На распознавание слова уходили минуты. Система различала примерно 5000 слов.
1986: Опытный образец системы речевого ввода Tangora 4. Благодаря специальному микропроцессору впервые стала возможна обработка речи на рабочем месте в реальном времени. В системе уже появилась функция контроля контекста.
1990: Dragon System представила первую американскую версию программы речевого ввода Dragon Dictate System.
1992: Технология Tangora в модели клиент-сервер. Используется RISC-система IBM RS/6000. Речевой ввод с ПК под OS/2.
1993: Появилась первая система речевого ввода для ПК - Personal Dictation от IBM; стоимость $1000. Одновременно выходит Philips Dictation System - первая система непрерывного распознавания речи.
1995: IBM представила на CeBIT систему диктовки VoiceType со специализированными словарями для медиков и адвокатов.
1997: Появилась система клиент-сервер Speech Magic от Philips. Lernout & Hauspie представила первую англоязычную систему распознавания речи.
1998: IBM, Dragon, Lernout & Hauspie и Philips предлагают потребительские версии своих продуктов.
2001: Microsoft выпускает комплект офисных приложений Office XP с поддержкой речевого ввода и управления.



Так работает система распознавания речи
Компьютеры не думают, они лишь исполняют программы. При речевом вводе компьютер выполняет сложный анализ оцифрованной речи. На основе вероятностного расчета он определяет, что именно мог произнести пользователь.

На первом этапе компьютер записывает звук речи в виде цифровой аудиопоследовательности и делит ее на фрагменты длительностью несколько миллисекунд. Программа сравнивает эти аудиофрагменты с записанными в память речевыми образцами. Качество базы данных образцов является наиболее важным условием для безошибочного распознавания речи. Она содержит фрагменты речи различных людей с разными особенностями произношения, такими как снижение звука, диалект, выделение слогов и произношение. Эта часть системы распознавания речи называется системой, не зависящей от говорящего.

Систему, не зависящую от говорящего, дополняет система распознавания говорящего. В основе последней лежит понятие фонемы - наименьшей акустической единицы языка. В процессе тренировки программное обеспечение распознает наиболее важные признаки произношения пользователем фонем и записывает полученные данные в виде профиля говорящего. Очень важно, чтобы в дальнейшем во время диктовки пользователь по возможности точно выдерживал мелодию речи и произношение.

В системе распознавания говорящего при определении "сомнительных слов" используется тот факт, что после определенного слова могут следовать (и имеют при этом смысл) лишь немногие конкретные слова. Владельцам мобильных телефонов этот способ знаком по SMS-сообщениям, при наборе которых нужное слово предлагается автоматически.



В помощь медикам
Специальные решения для определенных областей применения с узко ограниченным словарным запасом не в пример надежнее. Например, программы для рентгенологов преобразуют в текст произнесенные вслух результаты анализа снимков. Однако до эффективного распознавания речи еще очень далеко. Даже при использовании дорогостоящих словарей для медиков и юристов точность распознавания все еще оставляет желать лучшего, и надиктованные документы нельзя пускать в работу без ручной обработки.

На работу с диктовочными программами накладываются и дополнительные ограничения. В большинстве случаев трудно обойтись без гарнитуры с микрофоном. Правда, радиомикрофоны допускают больший радиус действия, однако для контроля результатов пользователь должен видеть экран ПК.

Microsoft и распознавание речи
Аналогичное развитие следует ожидать и в процессе распознавания речи. После того как Lotus, дочерняя фирма IBM, встроила программу распознавания речи ViaVoice уже в версию 9.0 офисного пакета SmartSuite, Microsoft также сделала это своей основной задачей. В состав Office XP уже вошла система распознавания речи, а задолго до этого разработчикам ПО впервые был бесплатно предложен API-интерфейс SAPI 5.0, реализующий речевые функции. Пакет объемом 125 МБ помимо программы распознавания речи включает в себя и программное обеспечение, которое может вслух читать тексты.

Носимые ПК используют речевой ввод, но без клавиатуры в них не обойтись.

Правда, Office XP понимает лишь английский, китайский и японский языки, да и требования к системе серьезные. Только для программы распознавания речи необходимо дополнительно 128 МБ ОЗУ и еще 64 МБ для синтезатора речи. Планировалось, что новая Windows XP (Whistler) также будет поддерживать распознавание речи. Интеграция этих функций в ОС обеспечит поддержку диктовки во всех программах и позволит полностью перейти на управление операционной системой голосом.

Запланировав внедрение речевых функций в свое ПО, Microsoft заключила контракт на $45 млн с фирмой Lernout & Hauspie, которая сейчас лидирует на рынке речевого ПО. Кстати, незадолго до этого Lernout & Hauspie приобрела фирму Dragon Systems, известную своей программой речевого ввода Dragon Dictate.