ОЦЕНИВАНИЕ ПЕРИОДА ОСНОВНОГО ТОНА ЗВУКОВ РУССКОЙ РЕЧИ

Главная » Информатика » ОЦЕНИВАНИЕ ПЕРИОДА ОСНОВНОГО ТОНА ЗВУКОВ РУССКОЙ РЕЧИ
Информатика Комментариев нет

Развитие информационных технологий направлено на обеспечение взаимодействия человека с техникой в наиболее удобной для человека форме. Наиболее популярными в этой области являются такие технологии как: распознавание речевых команд, преобразо — вание речи в текст, распознавание и верификация дикторов. Реализация данных систем основана на анализе речевых данных с позиции выявления характеристик, позволяющих определить тип звука или же выделить особенности голоса диктора. Одной из таких харак — теристик является период основного тона. Период основного тона – величина обратная ча — стоте основного тона, которая в свою очередь определяется частотой повторения возбуж — дающих воздействий гортани [1, 2]. Колебания связок является одним из основных пара — метров источника голосового возбуждения речевого тракта. Они придают голосу звучание и характеризуют его высоту [1, 2]. Значения частоты основного тона для разных дикторов находятся в диапазоне от 80 до 400 Гц. Значения частоты основного тона могут изменяться во времени, что определяет проблему выделения частоты основного тона.

 

Периодом основного тона принято считать интервал времени между двумя воз — буждающими воздействиями. При этом речевой сигнал, взятый через период основного тона, почти повторяет свою форму. На рис. 1 представлен фрагмент речевого сигнала, со — ответствующего звуку «А», с указанием периодов основного тона.

Рис. 1. Фрагмент сигнала, соответствующего звуку «А»

В настоящее время существует два основных подхода к определению частоты ос —

новного тона: на основе анализа спектров и корреляционном анализе.

Суть метода оценивания частоты основного тона заключается в определении зна — чения частоты с максимальным значением энергии в диапазоне возможных значений ча — стоты основного тона.

Основной недостаток спектрального оценивания заключается в следующем. Пусть последовательность отсчетов сигнала (x1,x2,…) имеет периодический характер, так что

xi+kM=xi, k=0,1,… (1)

Однако влияние |Xp(ω)|2 может проявляться в том, что максимум правой части бу — дет соответствовать другому значению m. Именно это не позволяет методически надежно определять период основного тона по спектру анализируемого отрезка сигнала.

В основе корреляционного метода определения периода основного тона использу —

ется характеристика:

которая является оценкой нормированного коэффициента корреляции.

В качестве значения периода принимается:

где K определяется отношением частоты дискретизации к минимально возможной часто —

те основного тона.

Дополняющим к (6) условием является неравенство:

То есть максимальное значение характеристики (5) должно превышать некоторый порог, что отвечает условию почти периодического поведения отрезков сигнала на периоде.

Одним из недостатков такого подхода является присутствие искажающих шумов,

что маскирует наличие периодичности в сигнале.

Кроме того, концентрация спектра |X(ω)|2 вблизи частоты, не совпадающей с

2π/M, приводит к тому, что максимальное значение (5) будет достигаться при меньшем,

чем длина интервала между возбуждающими гортань воздействиями.

Таким образом, необходимо использовать иные методы определения частоты ос — новного тона, устойчивые как к воздействию шумов, так и к влиянию периодичности сиг — нала между двумя последовательными возбуждающими гортань воздействиями.

Представляется естественным ориентироваться на поиск наименьшей частоты из набора (4).

Для этого введем понятие субполосной корреляции:

Основной интерес представляет оценка при наименьшей возможной частоте ωr.

Для анализа было использовано следующее разбиение частотной оси на интерва —

лы: первый интервал шириной 62,5Гц имеет начало в точке 0, все последующие имеют ширину 125Гц, причем, центры этих интервалов отстоят друг от друга на 2π/N. На рис. 2 представлено распределение энергии по частотным интервалам при использовании тако — го разбиения оси частот для фрагмента сигнала, соответствующего звуку «а».

а) б)

Рис. 2. Звук «А»:

а) фрагмент сигнала (fd=16кГц);

б) распределение энергии по частотным интервалам (N=256 отс, fd=16кГц)

Для исследования использовался центрированный фрагмент сигнала. Распределе — ние энергии было оценено для отрезка, соответствующего первым 256 отсчетам. Анализ распределения энергии по частотным интервалам, представленный на рисунке 2б, пока — зывает, что основная энергия данного сигнала сосредоточена в диапазоне до 1,5кГц. Наибольшая часть энергии сосредоточена в частотном интервале с центральной частотой равной 625Гц. В свою очередь, частота основного тона анализируемого фрагмента сигна- ла составляет 124Гц. Таким образом, для данного отрезка сигнала проявляется ситуация, когда максимум правой части выражения (3) наблюдается при значении m в выражении (4) равном 5.

На рис. 3 представлены результаты оценки нормированной корреляции вида (15)

 

для диапазона от 0 до 500 Гц, в который может попасть значение частоты основного тона речевого сигнала.

 

а) б)

 

в) г)

д) е)

 

2013. №1 (144). Выпуск 25/1

ж) з)

Рис.3. Нормированные значения корреляции для фрагмента сигнала, соответствующего звуку «А»

в частотном интервале: а) (0:62,5)Гц; б) (0:125)Гц; в) (62,5:187,5)Гц; г) (125:250)Гц;

д) (187,5:312,5)Гц; е) (250:375)Гц; ж) (312,5:437,5)Гц; з) (375:500)Гц

Анализ результатов экспериментов показывает, что наличие максимума корреля — ции наблюдается примерно при одном и том же значении смещения окна анализа прак- тически для всех представленных частотных интервалов. Исключение составляют диапа — зон (0:62,5) Гц и (187,5:312,5) Гц. Причем, поведение функции корреляции в интервале (187,5:312,5) Гц соответствует проявлению частоты 625Гц.

Изменение энергии в частотных интервалах вызвано работой речевого аппарата человека, а также окружающими шумами. Проявление шумов наиболее сильно проявля — ется в мало энергетических частотных интервалах. Таким образом, для оценивания пери — ода основного тона необходимо учитывать только те частотные интервалы, которые несут основную информацию о речевом аппарате человека. Такие интервалы называются ин — формационными [4, 5]. Для определения информационных частотных интервалов может быть использована частотная концентрация, характеризующая наименьшее количество диапазонов, в которых сосредоточена заданная доля энергии m:

f

 

NR

 

NR

 

m = min d m. (24)

Здесь для правых частей выполняется неравенство:

где m – задаваемая доля общей энергии, которая должна быть сосредоточена в указанном минимальном количестве частотных интервалов;

x

 

N

 

 – отрезок сигнала, длительностью N отсчетов;

P(k)N – значения энергий в заданных интервалах, после упорядочивания их по убыванию.

Индекс в скобках у слагаемых суммы слева соотношения (25) означает, что части

энергий PkN упорядочиваются по убыванию, то есть имеет место

Для принятия решения о значении частоты основного тона предлагается исполь — зовать характеристику, представляющую собой зависимость среднего значения коэффи — циента корреляции среди информационных частотных компонент от соответствующего значения смещения:

Использование усредненной характеристики позволит учесть поведение сигнала во всех информационных частотных характеристиках. В том случае, если для большин — ства частотных интервалов максимальное значение корреляции наблюдается для одного и того же значения смещения, то и для усредненной характеристики максимум будет наблюдаться в той же точке.

На рис. 4-7 представлены результаты оценки характеристики вида (27) для фраг —

 

ментов сигналов, соответствующих некоторым звукам русской речи.

а) б)

Рис. 7. Звук «Ч»: а) фрагмент сигнала (N=256, fd=16кГц);

б) оценка корреляции по информационным частотным интервалам (N=256, m=0,9)

Анализ результатов показывает, что максимальное значение для звука «А» наблю — дается при смещении равном 131 отсчет и достигает 0,97. Эта величина смещения соот- ветствует периоду основного тона анализируемого фрагмента сигнала. Для звука «И» максимальное значение равное 0,96 наблюдается при смещении в 125 отсчетов, что также соответствует периоду основного тона анализируемого отрезка сигнала. Для звуков «Ж» и

«Ч» максимальные значения не превышают 0,32, что позволяет определить данные фрагменты как невокализованные участки речевых сигналов. Анализ рисунков также по — казывает, что для звука «Ж» можно обнаружить наличие ярко выраженного выброса в характеристике при смещении в 130 отсчетов. Одной из особенностей звука «Ж» является участие голосовых связок при его произношении, что проявляется как наличие периоди — ческой составляющей на фоне шума.

На рис. 8-11 представлены фрагменты сигналов, соответствующих некоторым зву —

кам русской речи, и результаты оценки периода основного тона на основе правила:

m

r

 

M = arg max ϕ M, N (k ) ,

1 ≤ τ ≤ K. (28)

а) б)

Рис. 8. Звук «А»: а) фрагмент сигнала (N=256, fd=16кГц);

б) результат оценки периода основного тона (N=256, m=0,9)

2013. № 1 (144). Выпуск 25/1

а) б)

Рис. 9. Звук «И»: а) фрагмент сигнала (N=256, fd=16кГц);

б) результат оценки периода основного тона (N=256, m=0,9)

а) б)

Рис. 10. Звук «Ж»: а) фрагмент сигнала (N=256, fd=16кГц);

 

б) результат оценки периода основного тона (N=256, m=0,9)

а) б)

Рис. 11. Звук «Ч»: а) фрагмент сигнала (N=256, fd=16кГц);

б) результат оценки периода основного тона (N=256, m=0,9)

Анализ представленных результатов показывает, что для гласных звуков разброс принятых значений периода основного тона не превышает 7%. Для звука «Ж» без учета значения 78 отсчетов на 342 окне анализа разброс составляет порядка 20%. Для звука

«Ч» разброс значений существенно больше, что свойственно шумным звукам речи.

Таким образом, использование метода, основанного на учете корреляции компо —

нент, соответствующих информационным частотным интервалам, позволяет достаточно

2013. №1 (144). Выпуск 25/1

точно определять период основного тона речевых сигналов. Данный метод может быть также использован для определения вокализованных и невокализованных фрагментов речевого сигнала на основе анализа максимальных значений коэффициентов корреляции и стабильности поведения значений периода основного тона.

Исследования выполнены при поддержке проекта № 8.2251.2011.

Материал взят из: Научные ведомости Белгородского государственного университета (История Политология Экономика Информатика) — № 1 (144) 2013

(Visited 100 times, 1 visits today)