Мультимедиа для Windows
5b239685

Системы распознавания речи


Несмотря на сложность задачи распознавания речи, в этом направлении есть определенные достижения. Все существующие системы можно разделить на две группы. К первой группе относятся системы распознавания, которые обучаются пользователем. Пользователь сам формирует словарь, причем система настраивается на произношение конкретного человека. Вторая группа систем содержит фиксированный словарь и не нуждается в предварительном обучении или настройке на конкретного пользователя.

Примером системы, относящейся к первой группе, может послужить приложение Voice Mouse, созданное фирмой IPI (рис. 1.25).

Рис. 1.25. Приложение Voice Mouse

Это приложение добавляет в Windows голосовое управление, что позволяет выполнять некоторые функции, не прикасаясь к мыши или клавиатуре. Во время своей работы Voice Mouse анализирует структуру меню активного приложения, формируя в своем окне список команд, входящих в меню. Этот список можно расширить произвольным образом. Для каждой команды можно определить звуковую последовательность, при распознавании которой данная команда будет запущена на выполнение, а также действия, которые нужно выполнить.

Для редактирования команд используется диалоговая панель "Command Editor" (рис.1.26).

Рис. 1.26. Редактор команд

С помощью кнопки "Train..." можно обучить Voice Mouse распознавать команду, повторив в микрофон соответствующее этой команде слово два раза.

С помощью кнопки "Edit..." можно назначить действие, которое должно быть выполнено при распознавании команды. В качестве действия можно задать либо запуск произвольного приложения, либо имитацию ввода с клавиатуры произвольной последовательности символов. Например, исходный текст приложения, показанный на рис. 1.25, был "набран" без использования клавиатуры, мы просто надиктовали его в микрофон, предварительно обучив систему Voice Mouse таким словам, как WinMain и HINSTANCE.

Аналогичная система создана фирмой Cylogic Software и называется Voice User. Среди возможных областей ее применения - помощь пользователям-инвалидам.

К системам распознавания речи второй группы можно отнести IBM Personal Dictation System, разработанную фирмой IBM Personal Software Products. Эта система имеет словарь размером 32 тыс. слов и способна работать с английским, немецким, французским, итальянским и испанскими языками. Аналогичные системы создаются и в России.



Содержание раздела