Р.А. Васильев, (Аспирант, Нижегородский государственный лингвистический университет им. Н. А. Добролюбова) |
|
||||||||
В работе предлагается метод фонетического анализа речи – выделение списка элементарных речевых единиц типа отдельных фонем из непрерывного потока разговорной речи конкретного диктора. В статье описан практический алгоритм идентификации диктора — процесс определения говорящего из заданного набора дикторов. В связи с возросшей информатизацией современного общества, увеличением числа объектов и потоков информации, которые необходимо защищать от несанкционированного доступа, а также необходимостью интеллектуализации всех форм взаимодействия пользователей автоматизированных систем управления с техническими средствами, все более актуальными становятся проблемы использования механизмов речевых технологий для разграничения доступа к информационно-вычислительным системам, в частности метод идентификации пользователей системы по голосу. Привлекательность данного метода — удобство в применении. Исследования осуществлены в терминах универсального теоретико-информационного подхода и информационной теории восприятия речи [1, с. 3-9]. Их главная цель – создание необходимой методологической и программной базы для дальнейшей конструкторской разработки системы идентификации диктора по голосу. Идентификация дикторов осуществлялась по требованиям в соответствии с ГОСТ 16600-72 «Передача речи по трактам радиотелефонной связи. Требования к разборчивости речи и методы артикуляционных измерений». В соответствии с ГОСТ 16600-72 были выбраны тексты фраз и команд последовательно во времени, многократно (в разных реализациях) проговаривались в микрофон группой из десяти дикторов, все разного возраста, мужчины и женщины, в режиме продолжительного (до 1мин), достаточно информативного звучания. Полученные сигналы через АЦП (частота дискретизации 8 кГц) были записаны в память ПК в виде соответствующих звуковых файлов. Для реализации предложенных экспериментальных исследований, сотрудниками кафедры математики и информатики НГЛУ им. Н. А. Добролюбова во главе с профессором Савченко В. В. был разработан лабораторный образец информационной системы фонетического анализа слитной речи (ИС ФАР) (Патент на полезную модель № 90251. Устройство для фонетического анализа и обучения речи. / Роспатент: по заявке № 2009122158/22 от 09.06.2009). Данная система представляет собой фонетический анализатор. Варианты применения такого анализатора можно привести из самых различных областей. Это может быть, например, задача анализа качества речи по ее фонетическому составу, как для отдельного диктора, так и для идентификации диктора по голосу. В качестве прикладной задачи можно привести текстонезависимую идентификацию разных дикторов по голосу [2, c. 3-5]. Интерфейс ИС ФАР изображен на рисунке 1, состоит из главной формы, на этой форме отображаются дикторы, внесенные в БД и главное меню программы. При выборе любого диктора из списка в правой части окна отображается краткая информация о нем. Кроме того, при помощи имеющегося меню, можно выбирать различные режимы работы, загрузки, сохранения и отображения данных. |
||||||||
|
||||||||
В процессе эксперимента на сегментирование подавались фразы отдельных дикторов и производилась идентификация конкретного диктора посредством подсчета распознанных фонем. Решение о принадлежности произнесенной фразы конкретному диктору принимается автоматически после подсчета всех распознанных фонем и вычисления доминирующих фонем среди всех остальных, что представлено на рисунке 2. На рисунке 2 видно, что в произнесенной фразе всего выделено 759 фонем, из них 609 фонем принадлежат диктору «роман», а 150 фонем распознаны как «ложные» фонемы, похожие на фонемы других дикторов. Таким образом, по большему количеству принадлежащих определенному диктору фонем, можно идентифицировать кто произнес фразу. При этом в системе «ИСФАР» нет привязки к произнесенным командам и фразам и осуществляется автоматическая текстонезависимая идентификация диктора. |
||||||||
|
||||||||
В ходе решения поставленной задачи были получены следующие результаты:
|
||||||||
СПИСОК ЛИТЕРАТУРЫ: 1. Савченко В. В. Информационная теория восприятия речи // Известия высших учебных заведений России. Радиоэлектроника. - 2007. - № 6. - С. 3–9. 2. Савченко В. В., Акатьев Д.Ю., Карпов Н.В. Автоматическое распознавание элементарных речевых единиц методом обеляющего фильтра // Известия высших учебных заведений России. Радиоэлектроника. - 2007. - № 4. - С. 3–5. |
||||||||
© Р.А. Васильев, Изд-во "Научные технологии", 2012. |