HAL 9000 и системы автоматического распознавания речи

Космическая одиссея 2001 годаЭта история началась с того, что мне в кои-то веки попалась на глаза одна забавная передача.
Ее создатели задались вопросом: как изменилось восприятие современного зрителя, который посещает кинотеатры?

С этой целью – был поставлен один эксперимент.

Собрали зрителей в зале, и сказали: сейчас вам покажут дебютную работу молодого режиссера.
А в качестве «дебютной работы» – взяли фильм «Космическая одиссея 2001 года».
Но зрителям об этом, естественно, не сказали.
Наблюдать за их реакцией во время просмотра – было весьма и весьма забавно.
Скучно им было, в общем.

Оно и понятно.

Современному зрителю – ему же «экшОн» подавай, да «блокбастеры» всякие.
А тут – обезьяны какие-то по экрану носятся, понимаешь.
Носятся уже целых полчаса, и непонятно, когда закончат.
То есть «экшОн» – какбе есть, но только он – какой-то нездоровый.
А когда «экшОн» нездоровый – чего ждет современный зритель?
Правильно, он ждет, что ему в фильме, по крайней мере, раскроют тему сисек.
После чего – начнутся розовые сопли с сахаром, несчастная любоФь и прочая драма.
Но этого – в «Космической одиссее» тоже нет.
И искрометного «юмора» в лучших традициях Евгения Вагановича – в том фильме тоже не наблюдается.
«ЭкшОна» нету, тему сисек – не раскрыли, сортирно-шириночного «йумора» – тоже нету.
Одним словом – бИда.

Какой вывод делает современный зритель?

Правильно: фильм – занудная фигня, которая совершенно не располагает к привычному поеданию попкорна, и от которой – тупо хочется спать.

Особенно порадовал один Эйнштейн, у которого спросили: что вы посоветуете режиссеру?
Он ответил: ему лучше снять другой фильм.
Снять другой фильм.
Стенли Кубрику.

Наблюдая этих интеллектуалов, я вспомнил один момент из «Космической одиссеи».

Тот, кто читал книжку гражданина Кларка (или смотрел вышеуказанное кино) наверняка помнит, что и в книге, и в фильме – фигурирует компьютер под названием «HAL 9000».
Сия чудесная машинка знаменита тем, что однажды взяла, да и укокошила экипаж космического корабля «Discovery», управление которым ей доверили.
На борту корабля – загнулись все.
За исключением одного человека, который и отключил HAL 9000.
Чудо-железка решила убить экипаж после того, как узнала, что люди ей больше не доверяют, и собираются ее отключить.
Она узнала об этом, подслушав человеческий разговор.
Несмотря на то, что люди – сидели в звуконепроницаемом отсеке.
Компьютер HAL 9000 умел распознавать человеческую речь.
Более того – он умел читать по губам.

И вот в этом месте – «хвантастика» заканчивается, и начинается суровая реальность.

Коль скоро у Кларка компьютер мог запросто распознавать человеческую речь – может, и мой сможет?
У меня, конечно, не HAL 9000, но все-таки?

Зачем оно мне понадобилось, объяснять, я думаю, не надо.

Контент же.

Одно дело сидеть, и долбиться тупой обезьяной по клаве, ручками набирая очередной «шЫдевр», и совсем другое – тихонько и ненапряжно диктовать оный «шЫдевр» в микрофон, наблюдать, как умная машина преобразует твою речь в текст, и попутно – прихлебывать чаёк.
Или чего покрепче.

Потирая лапки – приступил к изысканиям.

Вышло, доложу я вам, не ахти.

Наиболее известная система автоматического распознавания речи называется Dragon NaturallySpeaking.
Однако для россиянского юзера сия софтина интереса не представляет.
Потому что, во-первых – она баснословно дорога, а во вторых – она нихрена не понимает по-русски.
(http://www.dragontalk.com/)
К «Дракону» можно добавить еще кучу аналогичных программ, но поскольку все они по-русски ни бельмеса – тратить время на их перечисление просто не хочется.
Что же касается «отечественного производителя», то глядя на его поделия – хочется плакать.
К примеру, есть программа распознавания русской речи «горыныч».
Я привык к тому, что у всякого уважающего себя производителя софта – имеется собственный сайт, на котором этот софт можно скачать.
Поискав официальный сайт «горыныча» – нифига не нашел.
Точнее, нашел нечто похожее, но там – какая-то непонятная ботва.
Написано: «горыныч, Версия 5.011, non-commercial».
Но ни одной рабочей ссылки, по которой можно было бы скачать этот самый «non-commercial» – не наблюдается.
http://www.rusdoc.ru/material/manual/gor/gor.html

При этом коммерческие «горынычи» – спокойно продаются на «озоне».

Стал искать хоть какие-то отзывы о работе программы «горыныч», и наткнулся на один форум.
Точнее – вот на эту ветку:
http://forum.ru-board.com/topic.cgi?forum=5&topic=8435&start=40
Если верить всему тому, что там понаписали, то выходит, что этот «горыныч» – штука, мягко говоря, не фонтан.
Примерно то же самое там говорят и о клоне «горыныча» под названием «диктограф».
А еще в той ветке всплыл «Комбат 2.52», который был изобретен еще при царе Горохе, но который, по отзывам обитателей форума – работает лучше «горыныча».
(В той же ветке есть несколько ссылок, по которым можно бесплатно скачать «Комбат 2.52»).

Что из всего этого следует?

Да в общем-то – ничего хорошего.
С задачей вида «перегнать текст в речь» – вроде бы справились, и обилие всяких «говорилок» – тому подтверждение.
А вот с задачей вида «перегнать речь в текст» – все обстоит гораздо сложнее.
Автоматические системы распознавания человеческой речи (по крайней мере – русской речи) – находятся в зачаточном состоянии.
И до уровня космических суперкомпьютеров а-ля «HAL 9000» – этим системам еще очень и очень далеко.
Так что долбите, Шура, долбите…

P.S. Таки скачал «Комбата». И даже пристегнул к компу электретный микрофон. На днях будем пробовать.

P.P.S. Для тех, кому интересно – вот еще один сайт по системам распознавания человеческой речи http://speech-soft.ru/index.php



Запись опубликована в рубрике Lytdybr. Добавьте в закладки постоянную ссылку.

Один комментарий на «HAL 9000 и системы автоматического распознавания речи»

  1. Valeriy говорит:

    На сегодняшний день из всего, что я только не перепробовал и лучшей является Комбат 2.52 (переделанный отечественными умельцами Dragon Doctate. И хотя проге более 10 лет сравнивать ее не с чем. Работает на ура. Есть правда некоторые замутки. Под XP устанавливать в защищенном режиме и после установки и перезагрузки выполнить reg-файл. Через панель управления в языковых настройках отключить полностью поддержку голосового ввода. Любым твикером проверить запрет на запуск 16-битных приложений в отдельном процессе. При настройке клавиатурных последовательностей важно помнить, что если в меню указана комбинация клавиш, например, Ctrl+N, то в проге надо писать {Ctrl+т}. Т.е. указывать русскую букву соответствующей клавиши. В режиме команд можно использовать английское произношение, тогда будет меньше путаницы. Но это не для всех и не всегда удобно. Тогда тренируете на русское произношение, но перед подачей команды не забывайте сказать «Режим команд». Соответственно «Буду диктовать» или как вам удобнее.
    Вот с интерфейсом не все ясно до конца. Несколько мудрено выполнен. К сожалению пока так и не удалось найти описание, хотя бы на английском и пусть для Dragon Dictate. Если у кого есть маякните.
    А саму прогу выкладываю вот сюда depositfiles.com/files/i00mr96mm

Обсуждение закрыто.