БИОМЕТРИЧЕСКИЕ СИСТЕМЫ В РЕЧЕВЫХ ТЕХНОЛОГИЯХ
Мухтарова Г.Х., Маликова Н.Т.
(ТУИТ)
Интерес в современном мире к речевым технологиям растет из года в год. Этот интерес вызвал появление высокопроизводительных вычислительных систем обладающих аппаратными средствами и коммуникационным каналом связи. К системам такого типа можно отнести стационарные и карманные персональные компьютеры, мобильные телефоны и коммуникаторы.
Речевые системы управления доступом привлекательны тем, что удобны в применении. Проверка голоса обладает двумя положительными отличиями, которые не имеют другие биометрические методы. Первое отличие – голос идеален для передачи уже существующими телекоммуникационными системами. Второе – большинство компьютеров уже имеют необходимое аппаратное обеспечение. На рынке вы можете встретить программные продукты более 25 компаний [2].
На данный момент, технология распознавания голоса является наиболее практичным решением для большинства сетевых приложений. Системы распознают голос за счет анализа характеристик оцифрованной речи, в том числе ее тона, ритма и высоты.
Речевой сигнал это звуковые волны в упругой воздушной среде, которые возбуждаются в речеобразующем тракте. Сформированный речевой сигнал передается в пространстве в виде звуковых волн. Аппаратным средством приема звуковых волн является микрофон.
Звуковые колебания преобразуются микрофоном в электрический сигнал, с выхода которого подается на вход звуковой карты компьютера. Сама звуковая карта при этом, представляет собой аналого-цифровой преобразователь с широкими настройками параметров оцифровки. Основными параметрами оцифровки являются частота дискретизации и раздельность кодирования. От этих параметров зависит качество и размер выборки, полученной в результате записи.
Горизонтальная ось – время в секундах. Вертикальная ось – частота сигнала в Герцах.
Для извлечения необходимых параметров из выбранных фрагментов фонограммы существует несколько подходов. На рис.1 показано один из них — когда используется весь речевой сигнал за исключением пауз. Есть также метод выбора опорных сегментов, наиболее информативных участков речевого сигнала. Как правило, при этом выбирают наиболее энергетически мощные звуки, поскольку меньше поддаются искажению.
а) Фонограмма первого диктора.
б) Произношение второго диктора.
б) Произношение одной фразы двумя разными людьми.
Рис.1.а,б.
К энергетически мощным звукам в основном относят гласные и звонкие согласные, произношение которых хорошо отражает работу голосовых связок и речевого тракта. Индивидуальная особенность мышечной активности речевого тракта личности, выражается в яркой неравномерности спектральной характеристики именно этих звуков.
Существует два класса голосовой идентификации:
-аналоговая фильтрация
-метод линейных предсказаний.
Первые системы идентификации по голосовой биометрии строились на частотных представлениях и возможностях средств аналоговой фильтрации. В их основу была положена неравномерность распределения мощности по частотному спектру, а так же тембральная окраска голосов. Как правило, этот класс устройств основан на процедурах фильтрации сигнала и восстановление его огибающей.
Основные параметры речевого сигнала обладают свойствами: отражения индивидуальности диктора; легкости и надежности выделения из сигнала; малой зависимостью от мешающих факторов; инвариантностью к физическому и эмоциональному состоянию диктора.
Скорость произношения речи постоянно варьируется. Две одинаковые фразы человек произносит, как правило, с разной скоростью. При этом длительность пауз между звуками может отличаться порядка 12 — 47%. Для компенсации этих пауз применяют два метода. Первый метод это когда производится подгонка к эталону путем сжатия и растяжения отдельных ее участков. Второй — за счет алгоритмов динамического программирования.
Когда необходимо найти похожий голос из фонотеки к рассматриваемой фонограмме, возникает необходимость в идентификации. При идентификации необходимо классифицировать неизвестного диктора в некотором эталонном множестве голосов, а при верификации требуется принять решение, принадлежит ли спорная фонограмма одному конкретному эталонному диктору из справочной базы голосов. Верификация значительно проще идентификации, поскольку тут принимается альтернативное решение — «да» или «нет», а диктор произносит одну и ту же парольную фразу. То есть верификация – это процесс подтверждения или опровержения принадлежности фонограммы конкретному голосу.
Технология аналоговой фильтрации достаточно проста. Её можно было реализовать еще лет 40 назад, когда был всплеск интереса к этому классу голосовой идентификации. Но, из-за развития вычислительной техники и методов цифровой фильтрации, интерес к частотным методам идентификации пропал. Его место занял метод, применяющий линейные предсказатели речевого сигнала. Этот метод использует описание сигнала во временной области.
Основой кодирования речи методом линейного предсказания является волновая структура речевого сигнала, особенно хорошо наблюдаемая при произношении гласных. При произношении диктором, соседние волны волновой пачки достаточно похожи друг на друга. И метод линейных предсказаний построен на аппроксимации соседних волн в звуковой пачке переходным процессом некоторого линейного цифрового фильтра.
Описание звукового сигнала методом линейного предсказания происходит разбиением исходного сигнала на отдельные интервалы анализа фиксированной длины, которая обычно составляет порядка 20 мс. После описания определяют тип звука внутри интервала [3].
В среде, где используется система, может присутствовать шум или тональный звук. Поэтому если внутри интервала находится шумовой участок, определяются только его энергетические параметры. B том случае, если присутствует тональный фрагмент, то сигнал дополнительно описывают путем задания коэффициентов линейного цифрового фильтра и заданием периода импульсов основного тона.
Для прояснения ситуации рассмотрим алгоритм идентификации и верификации. Предположив, что у нас уже собрана значительная база речевых данных определенной группы лиц, опустим моменты сбора тех самых данных. Саму программу при этом можно разделить на 4 модуля, то есть четыре последовательных этапа.
1) Первый модуль – модуль шумоочистки. Идеальных условий не бывает. Как правило, шум является блоками повторяющихся низких частот. Поскольку тембр голоса намного выше, его легко можно программно выделить.
2) Второй – модуль оценки параметров речевого сигнала. На этом этапе программа дает качественную характеристику звукового сигнала, которую, как правило, выражают в виде коэффициента. В случае если коэффициент удовлетворяет требованиям, программа переходит на следующий этап.
3) Прежде чем проводить анализ, необходимо для начала убедиться о наличии речи в звуковом сигнале. В случае выявления отсутствия речи программа должна оповестить диктора и вернуться к началу. Вследствие чего третий модуль можно назвать детектором наличия речи.
4) И наконец, последний – модуль распознавания диктора. Именно на этом этапе и проходит Верификация и Идентификация.
Модуль распознавания речи производит преобразование параметров речевого сигнала в последовательность слов словаря системы. Поскольку речевой сигнал это последовательность звуков, каждый звук можно смоделировать. Для русского языка существует 986 моделей речи. Группа этих моделей является универсальной в том смысле, что позволяет смоделировать акустические параметры произвольного речевого материала.
Распознавание речи реализовано за счет поиска в сети моделей на основе алгоритма Виттерби [4].
Основной задачей верификации при этом является получить массив, в котором будет храниться мера схождения наблюдаемого сигнала и шаблона из базы данных. Предположим что R-мера схождение, X и T – соответственно параметризованный звуковой сигнал и шаблон голоса. Тогда зависимость R(X,T) Можно выразить следующей формулой:
Где N – количество слов в шаблоне, Ni – количество состояний i-го слова. xjiи xji– усредненное значение для i-го состояния. ρ- метрика в пространстве параметров [3].
Если существует необходимость реализовать доступ с использованием биометрических параметров к ресурсам интернета или к удаленному серверу через коммуникационные каналы, наиболее удобный способ – это голосовая биометрия [1]. Наиболее удобный он потому что, во-первых, нет необходимости в специальном оборудовании для удаленных пользователей. Во-вторых, при реализации доступа другим методом, биометрическая информация пойдет в оцифрованном виде, что не безопасно.
Технология автоматического распознавания диктора делает возможным применение голоса в самых различных приложениях ограниченного использования, в системы речевого ввода информации, в интерфейсы, например, доступ к персональным данным в мобильных устройствах связи, к банковским вкладам или совершение покупки по телефону и т.д. Именно поэтому, эта технология остается в конкурентной борьбе с дактилоскопической идентификацией и идентификацией по радужной оболочке глаза.
Литература
Jain A., Ross A. Multibiometric Systems // Communications of the ACM. 2004. V. 47. ‹1. P. 34–40