Referat.me

Название: Программы распознавания речи

Вид работы: реферат

Рубрика: Информатика и программирование

Размер файла: 16.74 Kb

Скачать файл: referat.me-140377.docx

Краткое описание работы: Не думайте, что если вы поставите программу распознавания речи, то вам больше не понадобятся клавиатура и мышь, однако работа на ПК существенно облегчится.

Программы распознавания речи

Существуют два типа программ распознавания речи:

1. привязанные к говорящему – эти программы постоянно обучаются и со временем начинают понимать голос «своего хозяина» все лучше и лучше. Чем чаще пользователь работает в программе, тем лучше она понимает его. К счастью, обучение происходит довольно быстро – примерно через 20 минут программа научится неплохо понимать вас.

2. независимые от говорящего – вы можете начинать говорить сразу – программа будет реагировать на голосовые команды. В отличие от первого типа, этим программам не нужно учиться понимать вас. Наоборот, вам надо научиться говорить так, чтобы программа вас понимала.

Для чего на ПК используют программу распознавания речи?

Не думайте, что если вы поставите программу распознавания речи, то вам больше не понадобятся клавиатура и мышь, однако работа на ПК существенно облегчится.

1. Диктовка – с помощью программ распознавания речи многие пользователи надиктовывают тексты документов. Такая возможность актуальна, например, для медиков, проводящих обследование (в ходе которого руки обычно заняты) и одновременно протоколирующих его результаты. Для обычного пользователя, которому набивать текст по какой-либо причине сложно (или просто лень) она также может оказаться полезной.

2. Ввод команд – пользователи ПК могут использовать «распознавалку» для ввода команд, то есть проговариваемое слово будет восприниматься системой как щелчок клавиши мыши. Пользователь командует: «Открыть файл», «Отправить почту» или «Новое окно», а компьютер выполняет соответствующие действия. Это особенно актуально для людей с ограниченными физическими возможностями – вместо мыши и клавиатуры они смогут управлять компьютером при помощи голоса.

Что потребуется для распознавания речи?

1. Программа распознавания речи – англоязычные пользователи Windows могут воспользоваться, например, Dragon Naturally Speaking или IBM Via Voice. Русский язык понимают программы «Горыныч» и «Диктограф». В операционную систему Windows Vista программа распознавания речи уже встроена.

2. Микрофон или гарнитура (гибрид наушника и микрофона) – для «попадания» слов в компьютер.

3. Достаточно производительный компьютер – для работы функции распознавания речи компьютер не должен быть сверхбыстрым. Вполне достаточно 1 Гб оперативной памяти (для работы Windows Vista лучше иметь 2 Гб) и тактовой частоты процессора не менее 1 ГГц.

В каких устройствах используется функция распознавания речи?

Функция распознавания речи может использоваться не только в ПК, но и во многих других устройствах. Это особенно актуально, если у «гаджета» компактная клавиатура с малюсенькими клавишами (или вовсе ее нет).

1. Мобильные телефоны – уже несколько лет существуют модели с возможностью голосового управления. Но к распознаванию голоса это отношения не имеет – аппарат не переводит голос в текст, а сравнивает произнесенную фразу с заранее записанной (последняя является «эталонной» и обычно называется «голосовой меткой»). Голосовая метка может соответствовать записи в адресной книге (голосовой набор) или пункту меню (голосовое управление). Если телефон изначально не имеет соответствующих функций, «обучить» его будет невозможно.

2. Мобильные навигаторы – в новых навигационных устройствах, например, Tom Tom Go 720T водитель может голосом ввести пункт назначения. Если произносить слова отчетливо и, по возможности, в тишине, то эта функция работает очень хорошо. Хотя данная операция занимает столько же времени, сколько и клавиатурный ввод, но во время движения в любом случае более безопасно и удобно использовать голосовое управление. Правда, совсем без рук здесь не обойтись – для запуска голосовой команды нужно нажать на экранную кнопку.

3. Автомобили – некоторыми новыми марками автомобилей, например, Mercedes, Audi, Toyota, Ford или BMW, можно управлять при помощи голоса (правда, набор команд ограничен). Например, в некоторых моделях BMW после нажатия кнопки, расположенной на руле (см. рисунок), активируются функции голосового управления стереосистемой или системой навигации.

4. Мультимедийные диски для изучения иностранных языков – некоторые обучающие программы проверяют правильность произношения. Программа просит вас прочитать определенное предложение и, обработав с помощью функции распознавания речи результат, сообщает, все ли у вас в порядке с произношением.

Какие проблемы возникают при работе с программами-«распознавалками»?

Управление устройствами или диктовка текстов выполняются достаточно хорошо, но, к сожалению, не идеально. И вызвано это рядом причин:

1. Слова не всегда звучат одинаково – самая большая трудность при распознавании речи заключается в том, что ни один человек не произнесет одно и то же слово одинаково, даже если очень постарается.

2. Все люди говорят по-разному – поэтому программа распознавания речи будет функционировать более четко, если новый пользователь сначала немного «потренирует» ее. Правда, это не всегда возможно, а иногда даже и не нужно, например, при использовании программ, не привязанных к собеседнику. Многие программы распознавания речи умеют настраиваться на нового пользователя автоматически.

3. Фоновые шумы могут существенно искажать звучание произносимого слова. Это в значительной степени ограничивает функции распознавания речи, а в многолюдных или зашумленных местах и вовсе делает его невозможным.

4. Быстрая речь – некоторые пользователи говорят очень быстро – слова практически сливаются. Собеседник легко поймет такую речь, однако программе такая задача окажется «не по зубам».

5. Слова с одинаковым (или очень похожим) звучанием – особенно тяжело приходится программам распознавания речи с так называемыми омофонами – словами, которые произносятся практически одинаково, а пишутся по-разному («лез» и «лес», «рот» и «род»). Значение таких слов программа должна определять по контексту предложения.

Каковы перспективы функции распознавания речи?

В мобильных телефонах роль функции распознавания речи существенно возрастет, ведь набивать текст на маленьких клавиатурах мобильных телефонов весьма утомительно.

1. Диктовка SMS-сообщений – скоро вам не понадобится набирать текст сообщений на телефоне – можно будет просто диктовать. Эту функцию обещает внедрить в некоторые модели своих телефонов фирма Samsung (в ближайшее время они должны появиться на рынке).

2. Перевод – ко времени проведения Олимпийских игр–2008 в Пекине ожидается появление мобильного телефона со встроенным переводчиком. Если вы, находясь в Поднебесной, захотите, к примеру, отобедать в ресторане, то вам достаточно будет по-русски наговорить свой заказ в мобильный телефон – все будет переведено на китайский язык, а электронный голос из динамика передаст заказ официанту.

Можно предположить, что со временем все большее количество устройств будет понимать человеческий голос. Поэтому не удивляйтесь, если однажды утром ваша кофе-машина не только спросит вас, что приготовить – капуччино или эспрессо – но и поймет ваш ответ.

Распознавание речи в Windows Vista

В Windows Vista имеется программа распознавания речи. К сожалению, этот компонент понимает только английскую, немецкую, французскую, испанскую, японскую и китайскую речь. При первом запуске компонента (в Control Panel нужно выбрать пункты Ease of Access и Speech Recognition) открывается окно мастера обучения, который целых полчаса будет знакомить вас с принципами работы голосового управления Windows. Выполнив несколько упражнений, вы научитесь диктовать и управлять Windows с помощью голосовых команд. Поскольку программа распознавания речи является зависимой от говорящего, она будет одновременно изучать ваш голос. После успешного освоения вводной части Windows отреагирует на ваш призыв: «Слушать!» и начнет принимать голосовые команды. Недостаток: голосовой ввод функционирует только для программ Microsoft (например, для самой Windows, Word или Internet Explorer). При использовании других программ (например, Open Office или Firefox) компьютер будет «глух».

Похожие работы

  • Биометрическая аутентификация: проблемы будущего

    В наше время одним из самых перспективных направлений в системах контроля доступа становится использование биометрических данных человека. Такой способ аутентификации очень удобен.

  • Системы IVR: проблемы и решения

    IVR - это интерактивная информационно-справочная система,необходимая для автоматизации обработки запросов клиентов.

  • Новые подходы к проблемам конца речевого сигнала

    Сформулирована одна из актуальных проблем, связанная с сегментацией речевого сигнала на отдельные звуки в компьютерных системах распознавания речи. Рассмотрены основные алгоритмы сегментирования речевого сигнала.

  • Современные технологии распознавания речи

    Рассмотрены основные направления в области распознавания речи и перспективы разработки систем распознавания речи.

  • Распознавание ключевых слов в потоке речи при помощи фонетического стенографа

    В статье рассматривается использование фонетического стенографа для распознавания ключевых слов в потоке речи. Для моделирования фонем используются скрытые Марковские модели. Ключевое слово задается последовательностью фонем в виде транскрипции слова.

  • Распознавание речи в Office XP

    В версию Microsoft Office XP корпорация впервые включила модуль под названием “Альтернативный ввод”, предусматривающий ввод речевой информации и рукописных текстов.

  • Если разобрать компьютер (Доклад)

    3 Сентября 1996 г. Доклад по информатике ученика 10 класса школы “Планета” Жураковского Вадима по теме: “ Если разобрать компьютер…”

  • Вокодеры и их применение

    Введение Вокодер (английские voice+coder –буквально кодировщик голоса) это устройство,позволяющее синтезировать речь на основе минимальной информации, некоторого кода. Так же под Вокодером подразумевается устройство,преобразующее живую речь в такой код-сжимающее ее. Вокодер позволяет существенно (примерно в 10 раз) уплотнить линию связи при незначительном ухудшении качества передачи.

  • Программы переводчики

    Мировая история технологии машинного перевода как класса систем искусственного интеллекта. Классификация программ онлайн-переводчиков, поддержка функции контролируемого входного языка. Многоязычные браузеры в Интернете и перечень электронных словарей.

  • Анализ существующих подходов к системам локализации области губ человека на изображении

    Понятие визуальной системы ввода информации, ее сущность и особенности, место и роль в современном развитии интерфейсов между человеком и компьютером. Развитие технологии автоматического обнаружения и распознавания лица, контуров губ в видеопотоке.