Машины, которые говорят и слушают
TOPIG S, 6 : CACTIOH : PASS,
LEVEL : 40)
и определяет класс возможных предметов разговора (.Topice) в терминах их
семантических подклассов.
Как уже упоминалось, sass имеет набор сильных и слабых средств,
представляющих различные виды обработки информации на синтаксическом и
семантическом уровнях.
1.Правило распознавания порождает гипотезу о фразе по достаточно
надежным гипотезам о составляющих фразы. sass рассматривает слова
распознанными, если их оценки (в очках), определенные другими источниками
знанчй, превышают некий порог. Составляющие фразы должны также
удовлетворять некоторым структурным требованиям - например, таким, как
временная смежность между составляющими. Правила распознавания ведут
обработку снизу вверх, двигаясь от частичного грамматического разбора к
полному. Они представляют собой сильные средства обработки (сила
оценивается вероятностью того, что последовательность распознанных
составгчющих может как-то осмысленно интерпретироваться) .
2. Правила предсказания гипотезируют сио-во или фразу в зависимости от
вероятности контекста, определенного на предыдущих этапах распознавания
высказывания. Правила предсказания выполняют обработку, перекрывая
временной ин-Тврвая "островками надежности". Эти правила необходимы
потому, что не все слова в произнесенном высказывании могут быть рас-
чознаны снизу вверх, т.е. источниками знаний нижних уровней. ^ияа правила
предсказания определяется условной вероятностью того, что предсказанные
составляющие могут быть в высказывании при
Денном (распознанном ранее) контексте, ата сила обратно пропор-'тонаяьна
числу составляющих,которые могут появиться в этом контексте.
Зак.480
3. Правила повторного разбора ( res-pelling rules ) производят
обработка7 сверху вниз и численно оценивают составляющие предскапанной
фразы, разбивая гипотезируемое предложение на гипотезы для последовательных
составляющих или же "расщепляя" гипотезируемый класс на альтернативные
гипотезы для различных составляющих высказывания. Правила повторного
разбора (прочтения) проводят обработку, возвращаясь к словесному уров. ню,
так что предсказание (о фразе) верхнего уровня может быть подвергнуто
испытанию (слово за словом) источниками знаний нижнего уровня, если на
верхнем уровне что-то не сходится.
4. Правила постдикции несЭходимы для того, чтобы уже после сформирования
понятия подтвердить его большим числом "очков доверия", дать ему более
высокую оценку, подтвердив существующую гипотезу о фразе другими
гипотезами. Правила постдикции как более сильные включают правила
предсказания и повторного прочтения, которуе слишком слабы, чтобы
подтвердить создание гипотезы, но могут внести полезный вклад, когда
гипотеза уже существует. Правила постдикц^и выполняют три функции:
а) позволяют объединять выводы, поддерживающие оцениваемую гипотезу на
основе различных источников знаний;
б) дают воамсвность гилотеэирсвать слова и фразы с низкими
первоначальными оценками за счет их распознавания на основе контекста»
в) способствуют фокусированию внимания на главных направлениях,
определяемых возрастанием очков гипотез тех слов, которые контекстуально
возможны (и таким ооразом могут считаться правильными), так что
обработка высказывания в этих направлениях происходит по списку
приоритетов в первую очередь.
Автоматическое превращение описательной информации о грамматике языка
-Hearsay- П , заданной параметрическими структурными представлениями (
psr), в процедурную форму осуществляет ком-пиллятор суытет , который
транслирует эти представления в правила распознавания, предсказания,
повторного прочтения и постдикции. cvshet разбивает последовательности
слов, составляющих высказывания и представленных PSR, на пары
последовательных эталонов, формируя новые подпоследовательности и порождая
для них соответствующие правила [ 13Й 3 .
Одна из самых интересных систем автоматического распознавания слитной
речи - система harfy, разработанная по проекту arpa (США, Питсбург). Эта
система по сравнению с другими разработками, проводившимися по этому
проекту [l5lj,наиболее близка к практическому использованию. Словарь
harpy составляет ЮН словоформ - слов телефонной информацион-
34
но-справочной службы о новостях. При испытаниях harpy была получена
точность распознавания фраз, равная 95% на обучающей выборке и 92^ на
контрольной. Система воспринимает слитную речь, не содержащую
стилистических ошибок. В harpy информация о языке представлена фонетическим
графом - интегральной сетью переходов с конечным числом состояний, не
учитывающей априорные вероятности переходов. Распознавание
осуществляется сравнением входной реализации, представленной маркированными
сегментами, с этой сетью.
Система содержит несколько эвристических процедур для улучшения ее
характеристик: выделение подсетей и сжатие их для уменьшения общего
объема сети, автоматическое составление описания коартикуляционных явлений
на стыках слов и т.д. Время распознавания системы в период испытания
составляло 2D с на 1 с речи (есть сведения, что в настоящее время оно
снижено до Зс на I с речи).
Синтаксические значения в hahpy однозначно определяются независимым от
контекста рядом выработанных правил, формализующих проолемно-
ориентированный язык. Лексические знания представлены словарем, который
содержит символическую фонемную транскрипцию всех альтернативных
произнесений. Правила стыков, как и в системах IBM, учитывают
фонетические явления при соединении слов в слитно произносимое
словосочетание. В качестве первичных параметров используются коэффициенты
автокорреляции и линейного предсказания. У системе Нлару в процессе работы
осуществляется адаптивная подстройка под диктора с помощью десяти
обобщенных эталонов, характеризующих усредненный вокальный тракт группы
дикторов. На базе harp? был разработан голосовой ввод в картографическую
систему ( vigs), позволяющий дублировать клавиатуру при вводе
картографической информации [l3l].B настоящее время система harpy
переводится на мультимикропроцессорную базу [36].
перейдем к краткому описанию систем "понимания" речи. Их разработка
началась после появления отчета [161] , в котором известные американские
специалисты в области искусственного интеллекта, распознавания речи,
системного программирования, математической лингвистики изложили взгляды на
проблему построения систем, воспринимающих слитную речь, произносимую на
естественном языке. Основные положения отчета [161] легли в основу
пятилетней программы arpa.
Достаточно подробные обзоры по начальному этапу работ над системами
понимания речи содержатся в [79,85] . Поэтому здесь рассмотрим лишь итоги
проекта arpa в области построения
35
конкретных СПР. Можно считать законченными (в большей или меньшей степени)
системы понимания речи трех американских организаций -ОЫП, 3RI и ввн [179,
162, 187, 189].
Основные усилия c:,?J были направлены на построение системы понимания
речи Неагаау-1 "^основанной на принципе: "Выдвижение гипотезы и ее
подтверждение различными независимыми источниками знаний о языке".
Отдельные элементы этой системы подробно освещены в [79, 85, 8b, I2U,
179].
Система Псагвву-п была испытана на IOU предложениях, составленных из
IUH словоформ, аналогичных словарю системы harpy, описанной ранее (система
HARPY имела грамматику с гораздо более простым синтаксисом). Ошибки при
распознавании фраз в Неагаау-п составляди 16%, а время распознавания
превышало время распознавания системы harfx в 2 - 33 раз.
В фирме вен на I этапе разрабатывалась система понимания речи
Speeohlis, в качестве языка которой использовался упрощенный вариант
языка ИПС lunar; система Ь^-паг давала возможность анализировать образцы
лунных пород[?9,Уб1В дальнейшем была усовершенствована этой же фирмой новая
система понимания речи нули (Hear what I mean ) С учетом недостатков
Speechlia.
.Язык системь. hwim относится ^ области бухгалтерских расчетов. Вместо
раздельных синтаксического и семантического блоков системы Speechlis ,
нздш имеет единый, семантико-синтакси-ческий модуль, реализующий так
называемый блок "прагматической грамматики". Эта грамматика представлена
здесь в виде сети и основывается не на таких синтаксических категориях,
как подлежащее, сказуемое, определение,а на семантических - "поездка","ли
ад", "расстояние". Словарь itvim включает 1100 словоформ [185, I8yJ
Прагматическая грамматика, хотя и жестко связана с проблемно-
ориентированным языком, очень удобна длк обеспеченля простых принципов
использования синтаксических, семантических и прагматических ограничений
языка, которые необходимо делать для повышения точности интерпретации
высказывания. По-видимому,на перво» этапе построения автоматических систем
понимания речи целесообразно так и поступать, т.е. разделить задачи
использования словарями (например, при автоматическом машинном переводе
текстов) и использованием синтаксиса и семантики для построения СПР. dc
ьтором случае задача несколько иная - и более сложная, и боле( простая.
С одной стороны, нет уверенности в правильном распоэ навании всех
составляющих высказывания; неясно, существуют я'
36
вообще пробелы (паузы, междометия и т.д.) на временной оси,где искать
ключевые слова и пр. Но с другой стороны, мы ограничиваемся достаточно
простым проблемно-ориентированным языком с относительно небольшим словарем
и упрощенными грамматическими конструкциями.
В системе нто,1 акустическая информация используется блоками акустико-
фонетического распознавания ( apr) и периметри-чеокой верификации слов (
?та ). Результатом работы APR является фонетическая транскрипция "снизу-
вверх".
Блок pvw осуществляет верификацию "сверху-вниз", води словесная гипотеза
поддерживается акустическим уровнем. Основной программный модуль
верификатора - программа синтеза слов по правилам.
Отдичие системы h.'.'im от Speechlia заключается также и в характере
акустико-фонетического распознавания - в наличии у системы HWIM блока
селективной модификации ( зМ), дающего возможность реализовать
двухступенчатую сегментацию и маркировку. Программа SM на выходе
порождает решетку сегментов, представляющую возможные альтернативы фонам.
Каждый из сегментов первоначально маркируется одной меткой. Затем в
зависимости от этой предварительной классификации вычисляются некоторые
величины аку-отичаских параметров и модифицируются оценки данных фонем.
Функции пяотности вероятностей, используемые блоком сеяективной
модификации sM, поступают в бяок агер ( Acoustic Rionetic Experiments
Facility ), который содержит модули, позволяющие моделировать звуки речи
и проверять параметрические многомерные распределения вероятностей для
ряда фонетических классов, что дает возможность полнее использовать многие
независимые параметры одновременно.
Программа ан? выделяет не только грубые классы фонем, но и
производит идентификацию внутри классов. Характеристики фонам в слитной
речи сильно зависят от контекста, т.е. наблюдается наличие нескольких
аллофонов, для которых оценки сильно перекрываются. Поэтому в hv/im для
каждого класса фонем устанавливается ряд фонетических признаков и
используется таблица, в которой показано ранжирование этих признаков для
аллофонов каждого класса.
После сегментации высказывания и построения сегментной решетки,
перекрывающей высказывайте отрезками, соответствующими фонемам, блок
управления вызывает процедуру лексического поиска для сканирования вдоль
всей сегментной решетки и поиска Ib наиболее подходящих слов. Из-за
большой неопределенности на стыках
37
слов эту процедуру проделывают слева направо и справа налево. Сяова,
отобранные процедурой лексического поиска, образуют словесную решетку,
где они используются при последующей обработке. Блок управления, выбрав
из УО отобранных при сканировании слов одно с наибольшим весом
(получившее наибольшую оценку).пытается, основываясь на прагматической
грамматике, строить гипотезу о большем отрезке сигнала. Если расширение
гипотезы не получается, блок управления берет следующее (по вес^) слово
словесной решетки; если это слово подходит, то расширяют двухсловную
гипотезу, если же нет, то подбирают новое ключевое слово.так продолжают
до тех пор, пока не будет построена гипотеза обо всем высказывании.
Если система не в состоянии сформировать правильную гипотезу о
фразе или если исчерпаны ресурсы, то считается,что система не смогла
интерпретировать высказывание. При расширении гипотезы блок управления
вызывает синтаксическую компоненту, которая дает возможность оценить
гипотезу и предсказать новые слова. Синтаксическая компонента помечает
каждое слово словесной решетки, которое можно использовать для
расширения гипотезь', и устанавливает, какие еще слова требуются для
подтверждения этой гипотезы ("подсказка" сверху). В связи с последним
могут быть произведены дополнительные сравнения с эталонами для
проверки, нет ли в текущей реализации высказывания необходимых слов.
После того, как синтаксическая компонента ("прагматическая грамматика")
сделала свои предположения слов слева направо, она вызывает процедуру
лексического поиска для проверки новых гипотез о словах. Оценки слов,
оценки гипотез об отрезках фразы и оценки фраз ("событий", как их
называют разработчики Wi'iu ) влияют на общую стратегию интерпретации
высказывания. Событиям присваиваются очки, приблизительно равные сумме
очков слов подтвержденной гипотезы и слов, требуемых для расширения этой
гипотезы,
Попробуем рассмотреть пример, из которого станет ясно, как
работает механизм анализа предположения, основанный на так называемой
"островковой стратегии". Пусть на вход системы поступила фраза:
"What Is the total budget figure ?"(Какова общая сумма бюджета?). При
просмотре фразы справа налево процедура лексического поиска формирует
таблицу:
17 17
24
22 11
182
178 174
-38
-10
-R
-d
-R
1. FIGURE
2. FIGURE
3. TOTAL
38
4. FIGURE1723169-535. YEAR2023107-23б. УСУ2022100-317. IS3596-318.
ABOVE10149409. BUDGET111781-1610. IT6880-1611. IS2576-3112, ТО7973-4613^
WOULD0372-3114. -34572015, FIGURE172169-38Слева направо16. TOTAL -
ED71?1971017. FIGURE1724182018. WHAT03178019. PIOURE1722178-3820.
TOTAL711174-1021, FIGURE1723169-5322. HJDGET1117154-1623. VKAH2023107-2324.
YOU2022100-3125. IS3596-3126. FIGURE - ED172389-3827. FIGURE172883028.
BUDGET111781-1629. IT6880-1630. HIS2576-31
Список представляет 30 возможных слов при сканировании справа и
слева, позиции правой и левой конечных сегментов слова, очков, которые
получило данное слово при сравнении эталонов с участками входной
реализации на местах между начальной и конечной точками гипотезируемого
слова, логарифма вероятности произнесения данного слова. Список может
описывать некие специфические свойства, связанные с произношением (здесь
всюду пропуски - -), а также показывать, справа или слева производилось
сравнение с эталоном (здесь показатели R и L).
Анализ списка гипотезируемых слов показывает, что больше всего
очков набрало слово totaled (при сканировании слева направо). Бто
слово занимает в словесной решетке позицию от сегмента 7 до сегмента 12
и имеет вес 197. Для этого слова соа-
39
дается однословная гипотеза, которую должна расширить синтаксическая
процедура. Но прагматическая грамматика не позволяет формировать
фразу с этим словом в прошедшем времени. Следовательно, никакого
предсказания о возможном контексте с этим словом сделано Сыть не может.
Следует перейти к следующему (по оцен. не в очках) слову figure .
Отметим, что существует семь различных сравнений с этим словом
примерно в гом же месте высказывания, немного отличающихся очками.(Это
объясняется различными фонологическими эффектами на концах слова,
возможностями различной сегментации в сегментной решетке и различными
возможными произнесениями этого слова, отраженными в эталонном фонетическом
графе; в кашем случае все связано с неопределенностями сегментации этого
слова в конце.) Вообще говоря, то, что одно слово встречается в списке
вероятных кандидатов несколько раз, является хорошим признаком того,
что это слово действительно присутствует в высказывании,
Чтобы избежать избыточной обработки, авторы вводят понятие "нечеткого
словесного сравнения", которое обобщает сравнение с эталоном одного и
того же слова, появившегося примерно в том же месте. Всегда, когда слово-
кандидат подобно figure встречалось несколько раз, при расширении гипотезы
используются нечеткие границы. Итак, для слова figure предлагается
расширить гипотезу.
При обработке предложенного слова (с примерно известными
границами) процедура Syntax подбирает слово виос-зт, заканчивающееся
позицией 17. В прагматической грамматике hwim слово budget может
использоваться лишь в словосочетании budget figure и, так как это
словосочетание находится в конце предложения, никаких слов справа больше
не будет. Блок управления использует далее найденное словосочетание в
качестве расширенного "островка надежности" для поиска слов от позиции
II до начала высказывания.
Обращаясь к синтаксической процедуре, блок управления обнаруживает,
что прагматическая грамматика допускает еще несколько слов, кроме слов из
списка, рассмотренного ранее, для расширения этой гипотезы. 9то связано
с тем, что служебные слова,которые могут стоять перед словосочетанием
budget. figure , имеют слишком небольшой вес (очки). В результате
сравнения сегментов, расположенных слева от слова budget , и эталонов
слов, допускаемых прагматической грамматикой, получают новый список,
расширяющий предыдущий (в списке остаются лишь слова, оценки которых
превышают вктоочающий модель пользова-теяя и семантическую память.
Эксперименты с vdms показали, что речевой сигнал ограничивается
по полосе на частоте 9 кГц и поступает на 12-разрядный аналого-цифровой
преобразователь, где квантуется с частотой 30 кГц. Затеи оцифрованная
речь проходит через ЦАП и результирую щая аналоговая речь поступает на
три полосовых фильтра, имеющих полосы пропускания I&0 - 190, 990 - 2200 и
8000 - 5000 Гц. Через интервалы в 10 мс с фильтров снимались два
параметра - максимальная амплитуда и число нулевых пересечений.
Полученные шесть параметров использовались для грубой акустической
маркировки каждого десятимиллисекувдного отрезка.
Как только слово поступает в систему, формируется и хранится в
памяти информахцж о нем, в частности, отмечается, сколько высказываний тому
назад это слово было произнесено и былс ли оно использовано, насколько
вероятно, что это слово повторится еще раз. В системе учтено, что
различные контекстные слова предсказанные тематической памятью, "стареют"
от высказывания ч высказывании и вероятности их использования
уменьшаются. Вел* вероятность предсказанного слова Падает ниже заданного
нaпepe^ порога, то это слово какое-то время не рассматривается.Все
эт' в vdms выполняет блок диалогового уровня Discourse , являющийся
наиболее оригинальным блоком системы. Процедуры, которые
42
реализует Discourse, основаны на изучении,диаюга между двумя людьми,
совместно выполняющими некоторую работу. Ьыло найдено и Досмаяизовано
влияние контекста на характер диалога,причем рассматриваются два вида
контекстного влияния. Глобальный контекст обеспечивает один вид ограничений
при интерпретации высказывания. Эти ограничения используются при
идентификации группы существительных. Второй вид ограничений связан с
текущим контекстом соседних высказываний. Они используются при
интерпретации сокращенных, эллиптических выражений и, в частности,
добавляют дополнительные фрагменты к сокращенному высказыванию. В качестве
примера высказывания, которое может воспринять система VDl'iS , ыож" но
привести такое: "Напечатайте типы подводных лодок, на которых больше семи
ракет".
СПР vdms - spi построена на базе проблемно-ориентированного
языка,доступного информационно-поисковой системе данных о подводном флоте
США, Великобритании и СССР. Общий словарь системы составляет 450 слов [
182] , Система использует синтаксис спонтанного английского диалога, что
позволяет запоминать информацию о ранее произнесенных фразах и декодировать
текущие, используя предыдущие высказывания. Система vdms-sri наиболее
полно использует идеологию искусственного интеллекта при интерпретации
устных высказываний, которые могут быть сильно "усеченными".
Для испытания системы была проделана серия опытов, которые должны были
определять наилучшую структуру СПР подобного типа. Было испытано 16
экспериментальных систем, которые дали точность интерпретации высказываний
от 46,7 до 73,3%, причем если итерировать несущественные оаибки
распознавания, то точность (для наилучшей конфигурации системы) возрастает
до 81,7%. В [1в2~\ отмечается, что наиболее эффективной помощью при
реализации речевого диалога оказались использование и проверка контекста.
Начиная с 1976 г. начали появляться работы о построении СПР в
Западной Европе (Франция, Италия, ФРГ), Японии и СССР.Уровень исследований
по СПР в этих странах (объем словаря,сложность языка) пока ниже, чем работ,
выполненных в США по проекту arpa. Сяедует, впрочем, отметить, что
разработка "малых" СПР производится в соответствии с тенденцией [145] ,
которая заклта-в»оя в том, чтобы "заполнить пропасть" между практическими
сис-^мами распознавания слов и относительно громоздкими СПР, выполнившимися
по проекту arpa.
В С142]приведена таблица, которая, по мнению автора, характеризует
действительное состояние и будущее развитие коммерческих систем
распознавания/ понимания речи до 3000 г.:
431982 - БИС для системы распознавания речи.
1985 - Высокоточные системы распознавания изолированных слов с большими
словарями.
1990 - Системы автоматической диктовки с ограниченным словарем,
управляемые синтаксисом языка.
I&95 - Системы понимания речи с неограниченным словарем, но с
ограничениями на синтаксис.
2000 - Системы распознавания слитной речи с неограниченным словарем и
без ограничений на синтаксис.
§ 1.4. Системы автоматического речевого ответа
1.4.1. Коммерческие системы автоматического синтеза речи. В системах
автоматического речевого общения "человек-ЭВМ" важную роль играет
автоматический речевой вывод, позволяющий человеку получать необходимую
ему информацию в привычной форме речевого сигнала. Проблема
автоматического речевого вывода считается более простой, чем автоматическое
распознавание речи (в первом случае речь воспринимает человеческий мозг,
-; а во втором - автомат). Поэтому работы по построению систем
автоматического речевого ответа (САРО) промышленность получила раньше, чем
работы по автоматическому распознаванию/ пониманию речи. Синтезаторы
речи,являющиеся главными узлами таких систем, уже изготовляются
промышленностью США, Японии и некоторых других стран [30, 46, 51, 52,
100, 142] . В саязи с появлением микропроцессоров и специализированных БИС,
а также в связи с тем, что пользователи потребовали, чтобы информационные,
управляющие и другие подобные системы, основанные .на использовании ЭВМ,
"говорили", фирмы, выпускающие ЭВМ или отдельные узлы ЭВМ, начали выпуск
оборудования дея систем речевого ответа. Построены первые промышленные
системы, который обеспечивают одновременное автоматическое распознавание
(автоматический речеэой запрос" с использованием ограниченного лексикона) и
речевой ответ. Первое применение такие системы нашли в "интеллектуальных"
терминалах больших ЭВМ (или сетей ЭВМ), в некоторых системах военного
назначения, в приборах бытовой электроники [52, 60, I40t .
Следует отметить также, что продолжают развиваться научные исследования
в области создания систем автоматического синтеза. Эти работы,
направленные в основном на повышение качества (разборчивости и
естественности) синтезируемой речи (без существенного повышения объема
информации, требуемой для управления син-
44
двзатором), проводятся в США [103, 112, 129, 133, I??] , СССР f48, 63, 54]
, Японии [l3b,I62] , Великобритании [l64] , Канаде [167] , Франции [146
171] , Италии [l60,JSl] , Мексике [ill],Западной Германии [122, 184] ,
Норвегии [137] и других странах.
В [142] отмечается, что ЭВМ пятого поколения (мультиыикро-процессорные
машины) будут гораздо шире, чем современные ЭЗУ, использовать ввод и вывод
информации в речевой форме. Предполагается, что уже в ближайшее время ЭВМ,
оборудованные системами речевого вывода, настолько проникнут в нашу жизнь,
что совершенно изменят взаимоотношения человека и техники.
В основе систем автоматического речевого ответа, поступающих в настоящее
время на рынок, лежат три основных способа синтеза рэчи - непосредственное
кодирование речевой волны (дискрети-аация и сжатие), форматный синтез и
синтез, основанный на линейном предиктивном кодировании (линейном
предсказании). В [б] приводятся системы автоматического речевого вывода -
наиболее распространенные в настоящее время в США системы такого рода. Так,
в сис-томч Votrax процесс формирования устного высказывания по тексту,
поступившему из ЭВМ или с клавиатуры в закодированном виде,начинается о
разбивки текста на основные звуковые влементы - фонемы. Так как фонемная
цепочка, соответствующая тексту, не обеспечивает высокочастотной речи, то
эта цепочка программно преобразуется в цепочку аллофонных кодов (аллофоны -
это варианты произнесения фонем в зависимости от контекста; разные
исследователи называют различное число аллофонов для каждого языка;в
системе Votrax используется 12Ь аллофонов, что позволяет получать более
естественную речь). Для порождения слитной речи аллофоны Должны плавно
переходить друг в друга.
Каждому аллофону соответствует управляющее слово, воздействующее на
аппаратный синтезатор звуков, который в два этапа перерабатывает цепочку 12-
разрядных управляющих слов. На первом этапе Управляющее слово декодируется
и перерабатывается в аналоговые управляющие сигналы, задающие частоту
основного тона, длительность изменения во времени амплитуды и гармоник,
связанных с каждым ал-Яофоном. На втором этапе реализуется собственно
синтез. При этом параметрические сигналы, воздействуя на генераторы звука и
прог-Рачмируемые фильтры, преобразуются в звуки речи. Звонкие звуки
°оздаются с помощью генератора регулируемой высоты тона, а глухие - с
помощью генератора бел го шума.
В приборах Texas Instruments три большие интегральные сис-^ы (БИС)
моделируют голосовой тракт человека. В основе модели •вяит метод
линейного предсказания (или линейного предиктивного ко-
45
дирования - ЛПК). При ЛПК на кристалл синтезатора подаются значения
коэффициентов для цифрового фильтра второго порядка,который моделирует
динамику форматных частот. Вычисление коэффициентов фильтра производит
другая БИС - микропроцессор тыз -1000. Третья БИС хранит отдельные части
слов в параметрическом виде. Воссоздание речи по этим параметрам
осуществляет сложный программный алгоритм.
Преимущество метода ЛПК заключается в тс-л, что он позволяет
воспользоваться тем фактом, что голосовой тракт человека относительно
медленно меняет свои параметры при речеобразовании.Это свойство
ограничивает диапазон изменения форматных параметров, которые могут
следовать за форматами уже с генерированных отрезков звуков речи. Такое
прогнозирование уменьшает требования к объему памяти системы, а также к
скорости обмена данными; с описываемой системой она равна 1200 бит/с.
Синтезатор National Semiconduoton Inc. способен осуществлять анаяого-
цифровое преобразование речевых сигналов и сохранять их в памяти для
дальнейшего восстановления. Такой метод предполагает огромный объем
информации, которая должна храниться в памяти, что делает его
малопривлекательным. Однако в рассматриваемой системе эта трудность
обходится за счет использования различных методов сжатия данных. Это
позволило реализовать качественный синтез речи во временной области на
уровне &1С.
Дискретизацию и сжатие исходной речи, записанной на магнитной ленте,
осуществляет мини-ЭВМ. Результирующие данные сохраняются в постоянном
запоминающем устройстве (ПЗУ) для последующего восстановления,
осуществляемого БИС процессора речи. Благодаря применению Трех методов
сжатия (подстройки фазового угла, дельта-модуляции и полупериодного
обнуления) скорость поступления данных, по которым восстанавливается
нормальная речь, снижается примерно до 1000 бит/с речи, так что по ПЗУ
емкостью 10 кбит можно хранить примерно 10 слов.
Процесс сяатия начинается с дискретизации аналогового речевого Сигнала и
разделения цифрового массива на участки, в каждом из которых 128 оГсчетов;
эти участки в какой-то степени характеризуют периоды основного тона. Для
получения набора цифровых выборок, аналогичных формируемому предложению,
подстраиваются фазовые углы этих отрезков. Дальнейшее сжатие
осуществляется с помощью дельта-модуляции, в результате чего вместо
хранения абсолютной амплитуды каждой выборки в память записываются только
знаки приращения амплитуд относительно предшествующего значения.
46
рассмотрим далее более подробно несколько современных систем
параметрического синтеза.
В ГЮО] описана разработанная фирмой Texas Instrument a программа,
позволяющая преобразовывать произвольный текст в речь. Программа совместно
с интегральным синтезатором речи типа tms-5й00 позволяет читать вслух
информацию, отражаемую на экране дисплея домашнего компьютера 9S14. В
отличив от Speak and Spell система не иоподозувт записанные ранее в ПЗУ
слова и фразы, а синтезирует слова из 128 аллофонов (аналогично системе
Votrax описанной ранее), которые объединяются системой для образования
слитной речи. Программа преобразования текста в цепочку аллофонов выбирает
аллофоны из библиотеки и определяет их ударение и интонацию. Затем эта
информация поступает в блок синтеза речи, который формирует звуки,
используя кодирование, основанное на линейном предсказании.
Блок-схема преобразования текста в речь, реализованного Texas
Instruments, представлена на рис.I.I.
Аллофоны имеют переменную длительность от 50 до 200 мс и кодируются в
соответствии с параметрами, необходимыми для организации синтеза,
основанного на линейном предсказании. Библиотека аллофонов, включающая
длинные и короткие паузы, кодируется по энергиям и коэффициентам,
необходимым для установки характеристик фильтра ЛПК-синтезатора.
Библиотека аллофонных кодов занимает 3 кбайта памяти.
Для преобразования текста, поступающего на вход в пооледова-тедьность
аллофонов, используется набор из 650 правил, который в процессе испытаний
обеспечивал правильный выбор 97^ фонем и 92% аллофонов. Правила занимают 7
кбайт памяти. Программа конструиро-
Синтез речи
Конструирование речи (программное формирование кодовой аллофонной цепочки)
|Вход|Правил| |Преобразо|1|Центр|
|ное |а | |вание |+|альны|
| |преобр| |аллофонов|1|й |
| |азован| |в данные | |Проце|
| |ия | |для | |ссор |
| |текста| |синтезато| | |
| |в | |ра | | |
| |аллофо| | | | |
| |ны | | | | |
|текс| | | | | |
|т | | | | | |
[pic]
|Упра| |Син|Ре|
|влен| |тез|чь|
|ие | |ато| |
|Памя| |р | |
|ть | |реч| |
| | |и | |
| | |тае| |
| | |- | |
| | |520| |
| | |0 | |
| | | | |
| |. 1 | |
| | е^
Правила модификации признаков
3. [\tfns\—-[-tens'] /_ [+ ret]
Применение ТМ-оравмя к сяоэу carlna дает:
< с а г е + i n (f буква буква
букм буква буква буква буква соги. глас. согя. гяас.
пас. согя. согд.
Таким обозом, эти аравияа вводят новую букву е , а также опредедяшт
границу модемы "+" и суффикса " •". (Введенные си»»-воям служ*»т важной
частью иравия контекста, которые исоояьауются С- и / М-правияами.)
Модифицированный текст и связанные с ним признаки далее обрабатываются
С-оравмяаыи, которые формируют фонетическую цепочку из последовательности
буке, полученных на предыдущем ваге. С-иравияо (рис. 1.Ь ), например,
показывает, что буква "а" произносится, как "е", когда она предшествует
одиночной согяас-ной, за которой сявдует эаканчиваиаая морфему буква "е".
(Это
70
Оравию применяется к "а" в w»e Bathing,гд,» звуки " th " проиэ. косятся
как один согяасный, но не к "а" в слове taxina , где •х'1 произносится как
два согласных.) Результат применения всех оравил конверсии к сдову carinq
позвояяет пожучить ояедующгю вались:
9
согл. взрывной,
подъема, альвеолярный велярный, передний звонкий
+ А- е г -+. I n согл. гдас. согя.
глас. con. взрывной, среднего ретро- верхнего назальный,
велярный, пид-ьеыа, Фявчсный подъема, гяухой передний
Если правила модификации текста изменяют текстовую цепочку непосредственно,
то С-правила формируют ноаую цепочку (фонем) на основе tm{iupuaiyiH.
заключенной в текстовой цепочке, F/И-пра-
•ила модифицируют фонетическую цепочку, применяя прарила контекстной
зависимости х матрице признаков и включая или устраняя соот катет йущяв
сегменты. Так. ГМ -правило устанавливает, что напряженный гласный
становится напряженным перед ретрофлексными звуками. Другии /^"дравидом
яуяяетая правило объединения п и д , когда произносится п . Все эти правила
использовались совместно с английскими правилами порождения параметров,
соответствующих фонемам, для похучения речевой волны.
В [%] рассматривается математическое обеспечение однокристальной
микроЭВМ модели <»20, преднааначенной для обработки сигналов. Благодаря
наличию аналоговых входных и выходных схем М высокому быстродействию она
легко может быть перестроена для синтеза речи. На атой микроЭВМ можно
реализовывать различий способы синтеза речи. Описаны программы,
моделирующие работу генератора голосовых импульсов (программа формирует ряд
асимметричных треугольных импульсов), а также генератор шумового сигнала,
который моделируется при помощи генератора псевдослучайных чи~ Св*. Для
моделирования передаточных функций речеобразумаего тра-«»а разработаны
программы модификации выходных значений сигна-
*ов, поступающих с выхода генератора голосовых импульсов и гене-Р»тора
шумовых сигналов. Для втого применяют моделирование рекурсивных фильтров с
переменными временными параметрами и ыиогоавен-чах. В [96] приведена
типичная программа для одного звена ччогозввнного фнютра, управляемого
параметром, который иивет раз-чые значения для различных звеньев.
Отмечается, что для пос-•Ровния типичного синтезатора речи требуется два
микропроцессора ®20; первый обеспечивает работу генератора воабуадаицих
сигна-
71
лов и моделирование нескольких первых звеньев многозвенного фидьтра,
а второй - для остальных звеньев этого фильтра. Для построения
форматного синтезатор»» достаточно воспользоваться одним микропроцессором
2920. Речевой тракт моделируется здесь последовательностью рекурсивных
фильтров второго порядка (в [96] при» водится программа такого фильтра).
Для удовлетворительного синтеза последовательно включают не менее трех
звеньев,моделирующих три форманта.
1.4.6. Отечественные системы автоматического речевого вывода. Основные
работы по автоматическому синтезу речи связаны с построением
параметрических синтезаторов [6,43, 48-50, 53, 70, 75]. Некоторые из
систем речевого вывода информации из ЭВМ внедрены в опытную эксплуатацию
[43,48] , другие - близки к внедрению [6, 70,78] , третьи - используются
в экспериментальных установках [50, 56] .
Развитие работ по построению систем автоматического речевого вывода
ведется в нашей стране в широком диапазоне - от фо" немных синтезаторов
до словесных и даже фразовых временных компиляторов.
Если в работах первого направления, при которых фонема
рассматривается как набор заданной последовательности движения
артикулятороа в артикулчторной программе, стремятся к компактности
представления генерируемого речевого сообщения и универсальности,
обеспечивающей речевое отображение произвольной текстовой информации, то
в компилятивных временных синтезаторах второго направления делается упор
на разборчивость и естественность скомпилированных высказываний (в
ущерб универсальности и компактности представления сигнала).
Одним из наиболее типичных синтезаторов параметрического типа
является ортогональный синтезатор речи [48] . Синтезатор предназначен для
выцачи голосом из ЭВЫ в телефонный канал счетов-справок о стоимости
состоявшихся междугородных переговоров городской телефонной сети. Речевой
сигнал (слово ограниченного по объему словаря) представлен временными
изменениями параметров сигнала - логарифмов огибающей амплитудных
спектров. Речевые ответы (фразы) вначале формируются в виде списков
номеров слоя, речевые эквиваленты которых затем посегментно объединяются
и выводятся на синтезатор. Отмечается, что разборчивость синтезируемых
фраз близка к 100%, скорость вывода речевого сигнала на синтезатор равна
12 бит/с.
При артикуяяторно-форматном синтезе речи по печатному тексту L6.^] в
качестве минимального артикуяяторного компдйкса
72
используется элементарный слог, представленный набором артикуля-торных
команд способа и места образования входящих в него фонем. Процесс
реализации слога делится на три основные фазы: переходная фаза от
предыдущего слога к данному, фаза реализации согласной фонемы и фаза
реализации гласной. Синтезатор учитывает просодические характеристики
естественной речи, а также то обстоятельство. что в ней могут встретиться
сочетания согласных и гласных фон-эы. Система синтеза в последнем случае
вводит фиктивные согласные и гласные, разбивая речевой поток не
слоги,причем фиктивным звукам приписывается длительность, равная нулю. Для
автоматического задания интонационных характеристик фраз в синтезируемой
текстовой информации выделяются ранжированные единицы:
фраза, синтагма, фонетическое слово, слог. При автоматической обработке
синтезируемого текста определяется число единиц ранга К в единице ранга K-
I, номер логически выцеденной единицы ранга К, а также тип интонации.
Для моделирования алгоритмов синтеза использовалась универсальная мини-
ЭВМ, обдацаищая быстродействием 200 тыс. операций в I с и оперативной
памятью 16 кбайт. Объем программ нодедм синтеза речи составляет 1200 32-
разрядных команд. В настоящее время принципы технической реализации
артикуляционного синтезатора легли в основу разработки стандартного
устройства речевого вывода с микропроцессорным управлением для ЕС ЭВМ [б] .
Появились первые синтезаторы, основанные на параметрах линейного
предсказания [55,78].
В нашей стране и за рубежом появляется также интерес к устройствам речевого
вывода, основанным на компиляции речевого сигнала, соответствующего фразам,
из более мелких отрезков речевой волны: слов, слогов, аллофонов
['44,96]. Подобные синтеза-Юры предназначены для информирования
пользователей ограниченным количеством типов фраз, часто вполне
достаточным. Большие же затраты памяти для хранения в цифровом виде
элементов, из которых формируются фразы, не так страшны, потому что новые
виды запоминающих устройств (например, на цилиндрических магнитных до-
хенах) позволят хранить в малых объемах десятки мегабайт. В СССР работы
по компиаятивному выводу ориентированы на использование в качестве
основного элемента синтеза как слов, так и схо-^в. Предполагается, что
такой синтезатор компилятивного типа ^УДет изготовлен серийно.
Зак.480
Страницы: 1, 2
|