Издательство «НАУЧНЫЕ ТЕХНОЛОГИИ»

МОСКВА, тел. +7(495)-142-86-81

Исследование особенностей фонетического строя речи и идентификация дикторов по голосу

E-mail Печать

Р.А. Васильев,  (Аспирант, Нижегородский государственный лингвистический университет  им. Н. А. Добролюбова)

alt

Конференция 01
Секция - ПРИКЛАДНЫЕ ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ

 

«ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В НАУКЕ, БИЗНЕСЕ И ОБРАЗОВАНИИ»:

Сборник статей V Международной научно-практической конференции студентов, аспирантов и молодых ученых.

В  работе предлагается метод фонетического анализа речи – выделение списка элементарных речевых единиц типа отдельных фонем из непрерывного потока разговорной речи конкретного диктора. В статье описан практический алгоритм идентификации диктора — процесс определения говорящего из заданного набора дикторов.

В связи с возросшей информатизацией современного общества, увеличением числа объектов и потоков информации, которые необходимо защищать от несанкционированного доступа, а также необходимостью интеллектуализации всех форм взаимодействия пользователей автоматизированных систем управления с техническими средствами, все более актуальными становятся проблемы использования механизмов речевых технологий для разграничения доступа к информационно-вычислительным системам, в частности метод идентификации пользователей системы по голосу. Привлекательность данного метода — удобство в применении.

Исследования осуществлены в терминах универсального теоретико-информационного подхода и  информационной теории восприятия речи [1, с. 3-9]. Их главная цель – создание необходимой методологической и программной базы для дальнейшей конструкторской разработки системы идентификации диктора по голосу.

Идентификация дикторов осуществлялась по требованиям в соответствии с ГОСТ 16600-72 «Передача речи по трактам радиотелефонной связи. Требования к разборчивости речи и методы артикуляционных измерений». В соответствии с ГОСТ 16600-72 были выбраны тексты фраз и команд последовательно во времени, многократно (в разных реализациях) проговаривались в микрофон группой из десяти дикторов, все разного возраста, мужчины и женщины, в режиме продолжительного (до 1мин), достаточно информативного звучания. Полученные сигналы через АЦП (частота дискретизации 8 кГц) были записаны в память ПК в виде соответствующих звуковых файлов.

Для реализации предложенных экспериментальных исследований, сотрудниками кафедры математики и информатики НГЛУ им. Н. А. Добролюбова во главе с профессором Савченко В. В. был разработан лабораторный образец информационной системы  фонетического анализа слитной речи (ИС ФАР) (Патент на полезную модель  № 90251. Устройство для фонетического анализа и обучения речи. / Роспатент: по заявке № 2009122158/22 от 09.06.2009). Данная система представляет собой фонетический анализатор. Варианты применения такого анализатора можно привести из самых различных областей. Это может быть, например, задача анализа качества речи по ее фонетическому составу, как для отдельного диктора, так и для идентификации диктора по голосу. В качестве прикладной задачи можно привести текстонезависимую идентификацию разных дикторов по голосу [2, c. 3-5].

Интерфейс ИС ФАР изображен на рисунке 1, состоит из главной формы, на этой форме отображаются дикторы, внесенные в БД и главное меню программы. При выборе любого диктора из списка в правой части окна отображается краткая информация о нем. Кроме того, при помощи имеющегося меню, можно выбирать различные режимы работы, загрузки, сохранения и отображения данных.

alt

Рисунок 1. Общий вид интерфейса ИС ФАР

В процессе эксперимента на сегментирование подавались фразы отдельных дикторов и производилась идентификация конкретного диктора посредством подсчета распознанных фонем. Решение о принадлежности произнесенной фразы конкретному диктору принимается автоматически после подсчета всех распознанных фонем и вычисления доминирующих фонем среди всех остальных, что представлено на рисунке 2.

На рисунке 2 видно, что в произнесенной фразе всего выделено 759 фонем, из них 609 фонем принадлежат диктору «роман», а 150 фонем распознаны как «ложные» фонемы, похожие на фонемы других дикторов. Таким образом, по большему количеству принадлежащих определенному диктору фонем, можно идентифицировать кто произнес фразу. При этом в системе «ИСФАР» нет привязки к произнесенным командам и фразам и осуществляется автоматическая текстонезависимая идентификация диктора.

alt

Рисунок 2. Окно выполнения идентификации диктора по количеству фонем

В ходе решения поставленной задачи были получены следующие результаты:

  • Проанализирован процесс речеобразования и исследована работа артикуляторного аппарата человека, в результате чего выработаны пути построения модели идентификации голосового сообщения;
  • Произведён обзор и анализ методов, которые могут использоваться при идентификации голосового сообщения – нейросети, частотные цифровые фильтры, Фурье-анализ, кепстральный анализ, методы машинного обучения, векторное квантование, гауссовы смеси и вейвлет-анализ.;
  • Построена структурная схема модели идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса.

 


СПИСОК ЛИТЕРАТУРЫ:

1. Савченко В. В. Информационная теория восприятия речи // Известия высших учебных заведений России. Радиоэлектроника. - 2007. - № 6. - С. 3–9.

2. Савченко В. В., Акатьев Д.Ю., Карпов Н.В. Автоматическое распознавание элементарных речевых единиц методом обеляющего фильтра // Известия высших учебных заведений России. Радиоэлектроника. - 2007. - № 4. - С. 3–5.


© Р.А. Васильев,  Изд-во "Научные технологии", 2012.
 

Книжные Изданияbadge

badge
  • Совершенствование методики технико-тактических действий хоккеистов 11-12 лет: методические рекомендации
  • Цифровизация и интеграция технологий и управления – механизм повышения эффективности
  • Повышение эффективности производства на основе оптимизации планирования и внедрения новых технологий оценки качества продукции
  • Методические основы предпринимательства