Особенности речи: 7.1. Виды и особенности речи

Учить упорно, терпеливо…Особенности речи детей с ОВЗ

Нарушения речи и особенности их коррекции

 

Речь играет огромную роль в психическом развитии ребенка. Включение речи в познавательную деятельность перестраивает основные психические процессы ребенка. Нарушения речи отрицательно влияют на развитие познавательной деятельности, социальную адаптацию ребенка с интеллектуальной недостаточностью.

Нарушения речи у детей с интеллектуальными отклонениями являются широко распространенными, характеризуются сложностью патогенеза и симптоматики. Дефекты речи у таких детей могут быть обусловлены недоразвитием познавательной деятельности, могут быть связаны другими факторами.

Специфика нарушений речи и их коррекция у детей с интеллектуальным недоразвитием определяется особенностями их высшей нервной деятельности и психического развития. Основными особенностями

высшей нервной деятельности умственно отсталых детей является слабость замыкательной функции коры головного мозга, слабость процессов активного внутреннего торможения, инертность нервных процессов, склонность к охранительному торможению; нарушение взаимодействия первой и второй сигнальной системы, что объясняется недоразвитием второй сигнальной системы. В процессе овладения навыками  и умениями умственно отсталые дети опираются больше на наглядный показ, наглядное восприятие, чем на словесную инструкцию. У таких детей снижена регулирующая функция речи, которая в норме очень рано начинает играть важную роль в поведении ребенка.

Развитие речевой моторики у детей с интеллектуальным недоразвитием осуществляется замедленно, недифференцированно; затруднена координация дыхательных, фонаторных и артикуляционных движений в процессе речи. Несформированным оказывается у детей как слуховой, так и кинестетический контроль за правильностью речевых движений.

В возникновении нарушений речи у умственно отсталых детей существенную роль играют следующие биологические факторы: локальное повреждение мозговых структур, аномалии в строение артикуляционного аппарата (зубочелюстной системы, языка, мягкого и твердого неба), снижение слуха.

Среди психологических факторов, обусловливающих особенности речевого развития и нарушения речи у детей с олигофренией, ведущая роль отводится недоразвитию познавательной деятельности и психической деятельности в целом. У детей отмечается недоразвитие высших форм познавательной деятельности (анализ, синтез, обобщение, абстракция), конкретность и поверхность мышления, нарушение словестной регуляции поведении, незрелость эмоционально – волевой сферы.

У умственно отсталых детей отмечается резкое снижение потребности в речевом общении

, что приводит к ограниченности речевых контактов и отрицательно сказывается на процессе овладения речью.

Общая характеристика нарушений речи у детей с интеллектуальным недоразвитием

У части умственно отсталых детей отмечается недоразвитие речи, целиком обусловленное уровнем интеллектуального недоразвития, у большинства, особенно у детей дошкольного и младшего школьного возраста, отмечается тяжелое нарушение речевого развития, включающее разнообразные речевые расстройства. У детей с диагнозом умственная отсталость встречаются все формы нарушений речи, как и у нормальных детей. Расстройства речи у детей с олигофренией проявляются на фоне грубого нарушения познавательной деятельности, аномального психического развития в целом. Нарушения речи носят системный характер, т.е. отмечается недоразвитие речи как целостной функциональной системы. При умственной отсталости нарушаются все компоненты речи: фонетико – фонематическая сторона, лексика, грамматический строй речи. Отмечаются нарушения как импрессивной, так и экспрессивной речи; устной и письменной речи.

У детей с интеллектуальными нарушениями в той или иной степени оказываются несформированными все операции речевой деятельности: имеет место слабость мотивации, снижение потребности в речевом общении, грубо нарушено программирование речи, создание, реализация речевой программы и контроль за речью, соответствие результата мотиву и цели речевой деятельности.

Нарушения речи у таких детей имеют сложную структуру дефекта, разнообразны по своим проявлениям, механизмам, уровню нарушения, требуют дифференцированного подхода при их анализе, характеризуются стойкостью,

устраняются с большим трудом, сохраняясь вплоть до старших классов специальной (коррекционной) школы 8 вида.

Характерной особенностью речевого развития детей с интеллектуальной недостаточностью является позднее развитие речи. Резкое отставание наблюдается уже в период доречевых вокализаций (лепет появляется в период от 12 до 24 месяцев). Первые слова появляются позднее трех лет, отстает и появление фразовой речи.

Нарушения фонетической стороны речи и особенности логопедической работы по их преодолению

Если в младших классах общеобразовательной школы нарушение звукопроизношения наблюдаются у 4% детей, то среди младших школьников  с интеллектуальными отклонениями с такими нарушениями – от 40 до 60%. Причины этого различны: недоразвитие познавательной деятельности, несформированность речеслуховой дифференциации, нарушения речевой моторики, аномалии в строении артикуляторного аппарата.

Чаще всего нарушаются артикуляторно сложные звуки: свистящие, шипящие, л –ль, р – рь. Наряду с искажениями звуков отмечается больное количество замен, трудности использования в самостоятельной речи имеющихся правильных звуков. Один и тот же звук умственно отсталый ребенок в одних случаях произносит правильно, в других – пропускает или искажает в зависимости от звуко-слоговой структуры слова.

Искажения звуко – слоговой структуры слова проявляются как в нарушениях количества, последовательности слогов, так и в нарушении структуры отдельного слога, особенно со стечением согласных. Искажения структуры слова разнообразны по своему характеру.

Речь детей с интеллектуальными нарушениями часто монотонная, маловыразительная, лишена сложных  и тонких эмоциональных оттенков, в одних случаях замедленная, в других – ускоренная, что во многом определяется преобладанием процесса возбуждения или торможения. У заторможенных детей голос слабый, немодулированный, у возбудимых – крикливый, резкий.

Коррекция нарушений звукопроизношения у детей с интеллектуальной недостаточностью – процесс длительный и сложный. Инертность нервных процессов, резкое нарушение подвижности процессов возбуждения и торможения проявляются в упорном, стереотипном воспроизведении наиболее усвоенных старых связей, в трудностях переключения на новые. Наиболее длительным является этап введения звука в речь, т.е. этап автоматизации, который может растянутся на 1 – 1.5 года.

Большое внимание уделяется развитию общей и речевой моторики, воспитанию слухового восприятия, внимания, памяти. Коррекцию нарушений звукопроизношения связывают с развитием речевой функции в целом, т.е. с развитием фонематической стороны речи, словаря, грамматического строя речи. Уделяется внимание развитию четких представлений о звуковом составе слова, выделению звука из слова, определению места звуков в словах, уточнению смыслоразличительной функции звуков речи.

Особенностью логопедической работы в специальной (коррекционной)  общеобразовательной школе 8-го вида является ее индивидуализация. Каждая задача коррекции должна состоять из максимально возможного количества простейших задач. Подготовительный этап работы предусматривает развитие общей, ручной, речевой моторики, развитие слухового восприятия, внимания, памяти, работу над правильным речевым дыханием, формированием длительного плавного выдоха в игровых упражнениях, голосовых упражнениях.

Развитие артикуляторной моторики умственно отсталых детей осуществляется в двух направлениях: развитие кинетической основы движения и кинестетической основы артикуляторных движений (без зеркала). На

этапе постановки звука используются: зрительный образ артикуляции, слуховой образ звука, кинестетические, тактильные и тактильно – вибрационные ощущения. На наиболее длительном во вспомогательной школе этапе автоматизации звуков проводится работа над сложными формами звукового анализа и синтеза, умение выделять звук в слове и т.д. Обязательным этапом работы является  дифференциация звуков: уточнение произносительной дифференциации звуков, развитие слухового различения.

Нарушения лексико – грамматического стороны речи и пути их коррекции

У детей с интеллектуальными нарушениями наблюдается бедность

словарного запаса, неточность употребления слов, трудности актуализации словаря, преобладание пассивного словаря над активным, нарушение процесса организации семантических полей. Они не знают названий многих предметов, частей предметов, в их словаре преобладают существительные с конкретным значением, отсутствуют слова обобщающего характера, мало прилагательных и наречий. Пассивный словарь шире активного , но он с трудом актуализируется.

 У таких детей отмечается несформированность грамматической стороны речи, которая проявляется в аграмматизме, выявляются искажения в употреблении падежей, смешения   предлогов неправильные согласования существительного и числительного, существительного и прилагательного. Функция словообразования менее сформирована, чем словоизменение. Для высказываний детей характерны простые предложения, с пропусками главных членов.

Формирование связной речи детей с интеллектуальным недоразвитием осуществляется замедленными темпами и характеризуется качественными особенностями. В процессе порождения связных высказываний они нуждаются в постоянной стимуляции со стороны взрослого, в систематической помощи в виде вопросов и подсказок. Недостаточно сформирована диалогическая  и монологическая речь. Связные высказывания мало развёрнуты, фрагментарны. В рассказе нарушена логическая последовательность, связь между отдельными частями. Более легко даётся пересказ, но с ошибками: пропускаются важные части текста, упрощённо передаётся содержание,  дети не понимают причинно – следственные, временные и пространственные представления.  

В процессе коррекционно – логопедического воздействия ведется работа по обогащению словарного запаса, уточнению значения слов. Особого внимания требует развитие глагольного и прилагательного словаря. Работа над уточнением значения слова тесно связывается с уточнением представлений детей об окружающих предметах и явлениях, с классификацией предметов на речевом и неречевом уровнях.

Процесс овладения прилагательными начинается со слов, обозначающих основные цвета, форму, величину, затем высоту, длину, вкусовые качества и т.д. Важным направлением логопедического воздействия является усвоение детьми слов обобщающего характера, местоимений, числительных, наречий. Обогащение словарного запаса предполагает работу над антонимами (существительные, прилагательные, глаголы, наречия), уточнением значений слов – синонимов. Проводится работа над падежными окончаниями, развитием функции словоизменения, словообразования, над распространением предложений.

Формирования грамматического строя речи в младших классах специальной (коррекционной) школы 8-го вида осуществляется в следующих направлениях:

  1. Формирование глубинно – семантической и поверхностной структуры предложения.
  2. Формирование словоизменения и словообразования.
  3. Развитие связной речи.

В процессе формирования словоизменения обращается внимание на изменение существительного по числам, падежные окончания существительных, употребление предлогов, согласование существительных с глаголами и прилагательными, изменение глагола по лицам, числам, родам и т.д.

Начинать работу по формированию словообразования следует с уменьшительно – ласкательных форм существительных. Далее используются упражнения по образованию прилагательных от существительных, глаголов с приставками, родственных слов.

Работа над связной речью сначала проводится на материале диалогической, ситуативной речи, а позднее – контекстной, монологической.

Рекомендуется следующая последовательность в работе над связным текстом: пересказ с опорой на серию сюжетных картинок, пересказ по сюжетной картинке, пересказ без опоры на наглядность, пересказ на основе деформированного текста, рассказ по серии сюжетных картинок, рассказ по сюжетной картинке, самостоятельный рассказ.

Особенности нарушений письменной речи и их коррекции у школьников с интеллектуальным недоразвитием

Процесс овладения чтением детьми с интеллектуальными нарушениями протекает замедленно и характеризуется качественным своеобразие. Большую трудность представляет для умственно отсталых школьников поэтапное овладение процесса чтения : усвоение букв, слияние звуков в слоги, слогов в слова, чтение слов, предложений и текста.

У первоклассников с интеллектуальным недоразвитием обнаруживается дислексия в 70% случаях. Для нарушений чтения этих детей типичны следующие проявления:

1. неусвоение букв;

2. побуквенное чтение;

3. искажения звуковой и слоговой структуры слова;

4. нарушение понимания прочитанного;

5. аграмматизмы в процессе чтения.

У детей выявляется обычно сочетание различных форм дислексии, что связано с глобальным недоразвитием многих функциональных систем, с недоразвитием познавательной деятельности, с нарушениями устной речи.

Дисграфия сопровождается  у этих детей распространенными орфографическими ошибками, проявляется в комплексе, в сочетании различных форм. Нечеткость представлений о звуко – слоговой структуре слова приводит к большому количеству пропусков, перестановок, замен букв. Смутные представления о морфологической структуре слова на письме обусловливают множество аграмматизмов, искажений префиксов, суффиксов, окончаний, особенно в самостоятельном письме. Нарушение анализа структуры предложения обнаруживается в пропуске слов, их слитном написании, раздельном написании слова.

Коррекция нарушений чтения и письма детей с интеллектуальными нарушениями должна быть тесно связана с развитием у них познавательной деятельности, анализа, синтеза, сравнения, обобщения, абстрагирования. Устранение нарушений чтения и письма проводится в тесной связи с коррекцией нарушений устной речи как системы, с коррекцией дефектов звукопроизношения, фонематической стороны речи, ее лексико- грамматического строя.

Таким образом, логопедическая работа в специальной (коррекционной) школе 8-го вида имеет свою специфику, которая обусловлена особенностями высшей нервной деятельности, психологическими особенностями детей с интеллектуальными отклонениями, а так же характером симптоматики, механизмов, структуры речевого дефекта у этих детей.

Особенности речи при расстройствах аутистического спектра // Аутизм и нарушения развития — 2017. Том 15. № 3

Аутизм и нарушения развития
2017. Том 15. № 3. С. 24–33
doi:10.17759/autdd.2017150304
ISSN: 1994-1617 / 2413-4317 (online)

‘; for (var i = 0; i

21130

Аннотация

В представленном обзоре описываются особенности речевого развития и функционирования людей с расстройствами аутистического спектра на основании зарубежных и отечественных исследований в этой области. Рассматриваются характерные черты экспрессивной речи при аутизме, своеобразие ком¬муникативного использования, а также восприятия речи в связи с особенностями восприятия сенсор¬ных стимулов.

Ключевые слова: аутизм, расстройства аутистического спектра, речевое развитие, экспрессивная речь, импрессивная речь, вербальная коммуникация

Рубрика издания: Исследования в области РАС

Тип материала: обзорная статья

DOI: https://doi.org/10.17759/autdd.2017150304

Тематический сетевой сборник: Технологии сопровождения детей с расстройствами аутистического спектра

Для цитаты: Мамохина У. А. Особенности речи при расстройствах аутистического спектра // Аутизм и нарушения развития. 2017. Том 15. № 3. С. 24–33. DOI: 10.17759/autdd.2017150304

Литература

  1. Аппе Ф. Введение в психологическую теорию аутизма. М.: Теревинф, 2006.

  2. Башина В.М., Симашкова Н.В. К особенностям коррекции речевых расстройств у больных с синдромом детского аутизма // Исцеление: Альманах. М., 1993. Вып. 1. С. 154—160.

  3. Гаврилушкина О.П., Малова А.А., Панкратова М.В. Проблемы социальной и коммуникативной компетентности дошкольников и младших школьников с трудностями в общении [Электронный ресурс] // Современная зарубежная психология. 2012. Т. 1. № 2. С. 5—16. URL: https://psyjournals.ru/jmfp/2012/n2/52248.shtml (дата обращения: 07.11.2016)

  4. Манелис Н.Г. Ранний детский аутизм: психологические и нейропсихологические механизмы // Школа здоровья.1999. № 2. С. 6—22.

  5. Baranek G.T., Watson L.R., Boyd B.A., Poe M.D., David F.J., McGuire L. Hyporesponsiveness to social and nonsocial sensory stimuli in children with autism, children with developmental delays, and typically developing children // Dev Psychopathol. 2013. May; 25 (2): 307—20.

  6. Charman T., Drew A., Baird C., Baird G. Measuring early language development in preschool children with autism spectrum disorder using the MacArthur Communicative Development Inventory (Infant Form) // J Child Lang. 2003. Feb. 30 (1):213—36.

  7. De Giacomo A., Portoghese C., Martinelli D., Fanizza I., L’abate L., Margari L. Imitation and communication skills development in children with pervasive developmental disorders // Neuropsychiatr Dis Treat. 2009. 5:355—62.

  8. DePape A.R., Chen A., Hall G.B., Trainor L.J. Use of prosody and information structure in high functioning adults with Autism in relation to language ability // Front. Psychol., 26 March. 2012.

  9. DePape A.M., Hall G.B., Tillmann B., Trainor L.J. Auditory processing in high-functioning adolescents with Autism Spectrum Disorder // PLoS One. 2012; 7 (9):e44084.

  10. Dobbinson S., Perkins M., Boucher J. The interactional significance of formulas in autistic language // Clin Linguist Phon. 2003 Jun-Aug.; 17 (4—5):299—307.

  11. Fombonne E. Epidemiology of pervasive developmental disorders // Pediatr Res. 2009.

  12. Gomes E., Pedroso F.S., Wagner M.B. Auditory hypersensitivity in the autistic spectrum disorder // Pro Fono. 2008 Oct—Dec. 20 (4):279—84.

  13. Johnson C.P., Myers S.M. Identification and Evaluation of Children With Autism Spectrum Disorders // Pediatrics Vol. 120. No. 5 November 1. 2007. pp. 1183—1215.

  14. Lee A., Hobson R.P., Chiat S. I, you, me, and autism: an experimental study // J Autism Dev Disord. 1994 Apr. 24 (2):155—76.

  15. McCann J., Peppe S. Prosody in autism spectrum disorders: a critical review // Int J Lang Commun Disord. 2003 Oct—Dec.; 38(4):325—50

  16. McGregor K.K., Berns A.J., Owen A.J., Michels S.A., Duff D., Bahnsen A.J., Lloyd M. Associations Between Syntax and the Lexicon Among Children With or Without ASD and Language Impairment // J Autism Dev Disord. 2012 January ; 42(1): 35—47

  17. McLaughlin M. Speech and Language Delay in Children // Am Fam Physician. 2011;83(10):1183—1188

  18. Newschaffer C.J., Croen L.A., Daniels J. et al. The epidemiology of autism spectrum disorders // Annu Rev Public Health 2009 28: 235—58.

  19. Ozonoff S., Heung K., Byrd R., Hansen R., Hertz-Picciotto I. The Onset of Autism: Patterns of Symptom Emergence in the First Years of Life // Autism Res. 2008 December ; 1(6): 320—328

  20. Paul R., Augustyn A., Klin A., Volkmar F.R. Perception and Production of Prosody by Speakers with Autism Spectrum Disorders // Journal of Autism and Developmental Disorders, Vol. 35, No. 2, April 2005

  21. Ricard M., Girouard C.P., Gouin-Decarie T. Personal pronouns and perspective taking in toddlers // Journal of Child Language, 1999, 26, 681—697

  22. Saad A.G., Goldfeld M. Echolalia in the language development of autistic individuals: a bibliographical review // Pro Fono. 2009 Jul—Sep;21(3):255—60

  23. Schoen E., Paul R., Chawarska K. Phonology and Vocal Behavior in Toddlers with Autism Spectrum Disorders // Autism Res. 2011 June ; 4(3): 177—188

  24. Volden J., Lord C. Neologisms and idiosyncratic language in autistic speakers // J Autism Dev Disord. 1991 Jun;21(2):109—30

  25. Weismer S.E., Gernsbacher M.A., Stronach S., Karasinski C., Eernisse E.R., Venker C.E., Sindberg H. Lexical and Grammatical Skills in Toddlers on the Autism Spectrum Compared to Late Talking Toddlers // J Autism Dev Disord. 2011 August ; 41(8): 1065—1075

 

Мамохина Ульяна Андреевна, младший научный сотрудник научной лаборатории Федерального ресурсного центра по организации комплексного сопровождения детей с РАС, Московский государственный психолого-педагогический университет (ФГБОУ ВО МГППУ), Москва, Россия, ORCID: https://orcid. org/0000-0003-2738-7201, e-mail: [email protected]

Метрики

Просмотров

Всего: 3879
В прошлом месяце: 49
В текущем месяце: 5

Скачиваний

Всего: 21130
В прошлом месяце: 210
В текущем месяце: 10

PlumX

Метрики публикации

Распознавание речи — Извлечение признаков MFCC и PLP | Джонатан Хуэй

Чтение: 11 мин.

·

28 августа 2019 г.

Машинное обучение ML извлекает функции из необработанных данных и создает плотное представление контента. Это заставляет нас изучать основную информацию без шума, чтобы делать выводы (если это сделано правильно).

Вернемся к распознаванию речи. Наша цель — найти наилучшую последовательность слов, соответствующую звуку, на основе акустической и языковой модели.

Для создания акустической модели наше наблюдение X представлено последовательностью векторов акустических признаков ( x₁, x₂, x₃, … ). В предыдущей статье мы узнали, как люди артикулируют и воспринимают речь. В этой статье мы обсудим, как аудио-функции извлекаются из того, что мы узнали.

Давайте сначала определим некоторые требования для извлечения признаков в ASR (автоматическое распознавание речи). Учитывая аудиосегмент, мы используем скользящее окно шириной 25 мс для извлечения аудиофункций.

Этой ширины в 25 мс достаточно, чтобы мы могли захватить достаточно информации, но при этом особенности внутри этого кадра должны оставаться относительно неподвижными. Если мы говорим 3 слова в секунду с 4 телефонами, и каждый телефон будет разделен на 3 этапа, то будет 36 состояний в секунду или 28 мс на состояние. Таким образом, окно 25 мс является правильным.

Источник

Контекст очень важен в речи. Произношения изменены в соответствии с артикуляцией до и после телефона. Каждое скользящее окно находится на расстоянии около 10 мс друг от друга, поэтому мы можем зафиксировать динамику между кадрами, чтобы зафиксировать правильный контекст.

Высота звука у людей разная. Однако это не имеет большого значения для распознавания того, что он/она сказал. F0 относится к высоте. Он не имеет значения для распознавания речи и должен быть удален. Что более важно, так это форманты F1, F2, F3, … Для тех, у кого есть проблемы с соблюдением этих терминов, мы предлагаем вам сначала прочитать предыдущую статью.

Мы также надеемся, что извлеченные функции будут устойчивы к тому, кто говорит, и к шуму в окружающей среде. Кроме того, как и любые проблемы ML, мы хотим, чтобы извлеченные функции не зависели от других. Легче разрабатывать модели и обучать эти модели с независимыми функциями.

Одним из популярных методов извлечения аудиофункций является кепстральных коэффициентов Mel-частоты (MFCC), которые имеют 39 функций. Количество функций достаточно мало, чтобы заставить нас изучить информацию об аудио. 12 параметров связаны с амплитудой частот. Он предоставляет нам достаточное количество частотных каналов для анализа звука.

Ниже приведен процесс извлечения функций MFCC.

Ключевыми задачами являются:

  • Снятие возбуждения голосовых связок (F0) — высота тона информации.
  • Сделать извлеченные объекты независимыми.
  • Регулировка того, как люди воспринимают громкость и частоту звука.
  • Захват динамики телефонов (контекст).

Давайте рассмотрим каждый шаг по одному.

Аналого-цифровое преобразование

Аналого-цифровое преобразование выборки аудиоклипов и оцифровывание содержимого, т. е. преобразование аналогового сигнала в дискретное пространство. Часто используется частота дискретизации 8 или 16 кГц.

Источник

Предыскажение

Предыскажение увеличивает количество энергии в высоких частотах. Для звонких сегментов, таких как гласные, на более низких частотах больше энергии, чем на более высоких частотах. Это называется спектральным наклоном, который связан с голосовой щелью (как голосовые связки воспроизводят звук). Повышение высокочастотной энергии делает информацию в более высоких формантах более доступной для акустической модели. Это повышает точность обнаружения телефона. У людей проблемы со слухом начинаются, когда мы не можем слышать эти высокочастотные звуки. Кроме того, шум имеет высокую частоту. В инженерной сфере мы используем предыскажения, чтобы сделать систему менее восприимчивой к шуму, который появляется в процессе позже. Для некоторых приложений нам просто нужно отменить усиление в конце.

Предыскажение использует фильтр для усиления высоких частот. Ниже приведен сигнал до и после того, как усиливается высокочастотный сигнал.

Джурафски и Мартин, рис. 9.9

Работа с окнами

Работа с окнами включает в себя нарезку звуковой волны на скользящие кадры.

Но мы не можем просто отрубить его по краю кадра. Внезапно упавшая амплитуда создаст много шума, который проявится на высоких частотах. Чтобы нарезать звук, амплитуда должна постепенно падать ближе к краю кадра.

Допустим, w — это окно, применяемое к исходному аудиоклипу во временной области.

Несколькими альтернативами w являются окна Хэмминга и окна Хэннинга. На следующей диаграмме показано, как синусоидальный сигнал будет отсекаться с помощью этих окон. Как показано, для окна Хэмминга и Ханнинга амплитуда падает ближе к краю. (У окна Хэмминга есть небольшой внезапный спад на краю, а у окна Хэннинга — нет.)

Соответствующие уравнения для w :

В правом верхнем углу внизу звуковая волна во временной области. В основном он состоит только из двух частот. Как показано, обрезанный кадр с Хэммингом и Хэннингом лучше сохраняет исходную информацию о частоте с меньшим количеством шума по сравнению с прямоугольным окном.

Источник Вверху справа: сигнал, состоящий из двух частот

Дискретное преобразование Фурье (ДПФ)

Затем мы применяем ДПФ для извлечения информации в частотной области.

Mel filterbank

Как упоминалось в предыдущей статье, измерения оборудования не совпадают с нашим слуховым восприятием. Для человека воспринимаемая громкость меняется в зависимости от частоты. Кроме того, воспринимаемое разрешение по частоте уменьшается по мере увеличения частоты. то есть люди менее чувствительны к более высоким частотам. Диаграмма слева показывает, как шкала Мела отображает измеренную частоту на ту, которую мы воспринимаем в контексте частотного разрешения.

Источник

Все эти отображения нелинейны. При извлечении признаков мы применяем треугольные полосовые фильтры, чтобы скрыть информацию о частоте, чтобы имитировать то, что воспринимал человек.

Источник

Сначала мы возводим в квадрат результат ДПФ. Это отражает мощность речи на каждой частоте (x[k]²), и мы называем это спектром мощности DFT. Мы применяем эти треугольные банки фильтров в масштабе Мела, чтобы преобразовать его в спектр мощности в масштабе Мела. Выходной сигнал для каждого слота спектра мощности по шкале Мела представляет энергию из ряда частотных диапазонов, которые он охватывает. Это отображение называется Мэл Биннинг . Точные уравнения для слота m будут следующими:

Полоса пропускания Trainangular шире на высоких частотах, что отражает меньшую чувствительность человеческого слуха на высоких частотах. В частности, он линейно расположен ниже 1000 Гц, а затем поворачивается логарифмически.

Все эти попытки пытаются имитировать то, как базилярная мембрана нашего уха воспринимает вибрацию звуков. Базилярная мембрана имеет около 15 000 волос внутри улитки при рождении. На приведенной ниже диаграмме показана частотная характеристика этих волосков. Таким образом, отклик в виде кривой ниже просто аппроксимируется треугольниками в наборе фильтров Mel.

Мы подражаем тому, как наши уши воспринимают звук через эти волоски. Короче говоря, это моделируется треугольными фильтрами с использованием банка фильтров Mel.

Source

Log

Набор фильтров Mel выводит спектр мощности. Люди менее чувствительны к небольшим изменениям энергии при высокой энергии, чем к небольшим изменениям при низком уровне энергии. На самом деле оно логарифмическое. Итак, нашим следующим шагом будет вывод журнала из набора фильтров Mel. Это также уменьшает акустические варианты, не значимые для распознавания речи. Далее нам нужно выполнить еще два требования. Во-первых, нам нужно удалить информацию F0 (шаг) и сделать извлеченные функции независимыми от других.

Кепстр — IDFT

Ниже представлена ​​модель воспроизведения речи.

Источник

Наши артикуляции контролируют форму голосового тракта. Модель источника-фильтра сочетает в себе вибрации, производимые голосовыми связками, с фильтром, созданным нашими артикуляциями. Форма волны голосового источника будет подавляться или усиливаться на разных частотах в зависимости от формы речевого тракта.

Белые грибы trum — это перевернутые первые 4 буквы в слове «спектр». Наш следующий шаг — вычислить Cepstral, который разделяет голосовую щель и фильтр. Диаграмма (а) представляет собой спектр с осью у, являющейся величиной. На диаграмме (b) показан логарифм магнитуды. Присмотритесь, волна колеблется примерно 8 раз между 1000 и 2000. На самом деле она колеблется примерно 8 раз на каждые 1000 единиц. То есть около 125 Гц — источник вибрации голосовых связок.

Paul Taylor (2008)

Как видно, логарифмический спектр (первая диаграмма ниже) состоит из информации, относящейся к телефону (вторая диаграмма) и высоте тона (третья диаграмма). Пики на второй диаграмме идентифицируют форманты, которые различают телефоны. Но как мы можем их разделить?

Источник

Напомним, что периоды во временной или частотной области инвертируются после преобразования.

Напомним, что информация основного тона имеет короткие периоды в частотной области. Мы можем применить обратное преобразование Фурье, чтобы отделить информацию о высоте тона от формант. Как показано ниже, информация о высоте тона будет отображаться в середине и справа. Пик в середине на самом деле соответствует F0, а информация о телефоне будет располагаться в крайнем левом углу.

Вот еще одна визуализация. Сплошная линия на левой диаграмме — это сигнал в частотной области. Он состоит из информации о телефоне, нарисованной пунктирной линией, и информации о высоте тона. После IDFT (обратного дискретного преобразования Фурье) информация основного тона с периодом 1/T преобразуется в пик около T с правой стороны.

Источник

Итак, для распознавания речи нам нужны только крайние левые коэффициенты, а остальные отбросить. На самом деле MFCC просто принимает первые 12 кепстральных значений. Есть еще одно важное свойство, связанное с этими 12 коэффициентами. Спектр мощности журнала является реальным и симметричным. Его обратное ДПФ эквивалентно дискретному косинусному преобразованию (ДКП).

DCT — ортогональное преобразование. Математически преобразование дает некоррелированные признаки. Следовательно, функции MFCC сильно не связаны между собой. В ML это упрощает моделирование и обучение нашей модели. Если мы моделируем эти параметры с помощью многомерного распределения Гаусса, все недиагональные значения в ковариационной матрице будут равны нулю. Математически выход этого этапа равен

. Ниже приведена визуализация 12 коэффициентов Кепстра.

Источник

Динамические функции (дельта)

MFCC имеет 39 функций. Дорабатываем 12 и какие остальные. 13-й параметр — это энергия в каждом кадре. Это помогает нам идентифицировать телефоны.

В произношении важны контекст и динамическая информация. Артикуляции, такие как стоп-закрытие и освобождение, можно распознать по формантным переходам. Характеристика изменений функций с течением времени предоставляет контекстную информацию для телефона. Еще 13 значений вычисляют дельта-значения d ( t ) ниже. Он измеряет изменения характеристик от предыдущего кадра к следующему кадру. Это производная первого порядка признаков.

Последние 13 параметров представляют собой динамические изменения d ( t ) от последнего кадра к следующему кадру. Он действует как производная второго порядка от c ( t ).

Таким образом, 39 параметров характеристик MFCC представляют собой 12 кепстровых коэффициентов плюс энергетический член. Затем у нас есть еще 2 набора, соответствующие значениям дельты и двойной дельты.

Нормализация кепстрального среднего и дисперсии

Далее мы можем выполнить нормализацию признаков. Мы нормализуем признаки по их среднему значению и делим на дисперсию. Среднее значение и дисперсия вычисляются со значением признака j по всем кадрам в одном высказывании. Это позволяет нам корректировать значения, чтобы противодействовать вариантам в каждой записи.

Однако, если аудиоклип короткий, это может быть ненадежно. Вместо этого мы можем вычислить средние значения и значения дисперсии на основе говорящих или даже по всему набору обучающих данных. Этот тип нормализации признаков эффективно отменит предварительное выделение, сделанное ранее. Вот как мы извлекаем функции MFCC. И последнее замечание: MFCC не очень устойчив к шуму.

PLP очень похож на MFCC. Основанный на слуховом восприятии, он использует предыскажение равной громкости и сжатие кубического корня вместо логарифмического сжатия.

Источник

Также используется линейная регрессия для окончательной обработки кепстральных коэффициентов. PLP имеет немного лучшую точность и немного лучшую помехоустойчивость. Но также считается, что MFCC — безопасный выбор. На протяжении всей этой серии статей, когда мы говорим, что извлекаем функции MFCC, вместо этого мы можем также извлекать функции PLP.

ML строит модель проблемной области. Для сложных задач это чрезвычайно сложно, и подход обычно очень эвристический. Иногда люди думают, что мы взламываем систему. Методы выделения признаков в этой статье сильно зависят от эмпирических результатов и наблюдений. С введением DL мы можем обучать сложные модели с меньшими усилиями. Однако некоторые из концепций остаются актуальными и важными для распознавания речи DL.

Чтобы углубиться в распознавание речи, нам нужно подробно изучить два алгоритма машинного обучения.

До эпохи глубокого обучения (DL) для распознавания речи, HMM и GMM были двумя обязательными для изучения технологиями для речи…

medium.com

Анализ речевого сигнала документация _features! — Документация python_speech_features 0.1.0

Эта библиотека предоставляет общие речевые функции для ASR, включая MFCC и энергии банка фильтров. Если вы не уверены, что такое MFCC, и хотели бы узнать больше, ознакомьтесь с этим руководством по MFCC: http://www.practicalcryptography.com/miscellaneous/machine-learning/guide-mel-frequency-cepstral-coefficients-mfccs/.

Вам понадобится numpy и scipy для запуска этих файлов. Код этого проекта доступен по адресу https://github.com/jameslyons/python_speech_features.

Поддерживаемые функции:

  • python_speech_features.mfcc() — Mel Frequency Cepstral Коэффициенты
  • python_speech_features. fbank () — Энергии банка фильтров
  • python_speech_features.logfbank() — Энергии банка фильтров журнала
  • python_speech_features.ssc() — Спектральные поддиапазонные центроиды

Чтобы использовать функции MFCC:

 из python_speech_features import mfcc
из python_speech_features импортировать logfbank
импортировать scipy.io.wavfile как wav
(скорость,сигнал) = wav.read("file.wav")
mfcc_feat = mfcc (сигнал, скорость)
fbank_feat = logfbank (сигнал, скорость)
печать (fbank_feat [1: 3,:])
 

Отсюда вы можете записать функции в файл и т. д.

Функции, представленные в модуле python_speech_features

python_speech_features.base. mfcc ( сигнал , частота дискретизации = 16000 , winlen = 0,025 , winstep = 0,01 , numcep = 13 , nfilt=26 , nfft=512 , lowfreq=0 , highfreq=Нет , preemph=0,97 , ceplifter=22 , appendEnergy=True , winfunc=<функция <лямбда>> )

Вычисление функций MFCC из аудиосигнала.

Параметры:
  • сигнал – звуковой сигнал, из которого вычисляются признаки. Должен быть массив N*1
  • samplerate — частота дискретизации сигнала, с которым мы работаем.
  • winlen — длина окна анализа в секундах. По умолчанию 0,025 с (25 миллисекунд)
  • winstep — шаг между последовательными окнами в секундах. По умолчанию 0,01 с (10 миллисекунд)
  • номер – количество возвращаемых кепстров, по умолчанию 13
  • nfilt – количество фильтров в банке фильтров, по умолчанию 26.
  • nfft – размер БПФ. По умолчанию 512.
  • lowfreq – край нижней полосы мел фильтров. В Гц по умолчанию 0,
  • highfreq – верхняя граница полосы мел-фильтров. В Гц по умолчанию частота дискретизации/2
  • preemph – применить фильтр предыскажения с предыскажением в качестве коэффициента. 0 — нет фильтра. По умолчанию 0,97.
  • ceplifter – применить подъемник к окончательным кепстральным коэффициентам. 0 — нет подъемника. По умолчанию 22.
  • appendEnergy – если это правда, то нулевой кепстральный коэффициент заменяется логарифмом полной энергии кадра.
  • winfunc — окно анализа для применения к каждому кадру. По умолчанию окно не применяется. Здесь вы можете использовать оконные функции numpy, например. winfunc=numpy.hamming
Возврат:

Пустой массив размера (NUMFRAMES от numcep), содержащий функции. Каждая строка содержит 1 вектор признаков.

python_speech_features.base. fbank ( сигнал , частота дискретизации = 16000 , winlen = 0,025 , winstep = 0,01 , nfilt = 26 , nfft=512 , lowfreq=0 , highfreq=нет , preemph=0,97 , winfunc=<функция <лямбда>> )

Вычисление характеристик энергии Mel-filterbank из аудиосигнала.

Параметры:
  • signal – звуковой сигнал, по которому вычисляются признаки. Должен быть массив N*1
  • samplerate — частота дискретизации сигнала, с которым мы работаем.
  • winlen — длина окна анализа в секундах. По умолчанию 0,025 с (25 миллисекунд)
  • winstep — шаг между последовательными окнами в секундах. По умолчанию 0,01 с (10 миллисекунд)
  • nfilt – количество фильтров в банке фильтров, по умолчанию 26.
  • nfft – размер БПФ. По умолчанию 512.
  • lowfreq – край нижней полосы мел фильтров. В Гц по умолчанию 0,
  • highfreq – верхняя граница полосы мел-фильтров. В Гц по умолчанию частота дискретизации/2
  • preemph – применить фильтр предыскажения с предыскажением в качестве коэффициента. 0 — нет фильтра. По умолчанию 0,97.
  • winfunc — окно анализа для применения к каждому кадру. По умолчанию окно не применяется. Здесь вы можете использовать оконные функции numpy, например. winfunc=numpy.hamming
Возвращает:

2 значения. Первый — это массив numpy размера (NUMFRAMES от nfilt), содержащий функции. Каждая строка содержит 1 вектор признаков. второе возвращаемое значение — это энергия в каждом кадре (общая энергия, без окон)

python_speech_features.base. logfbank ( сигнал , частота дискретизации = 16000 , winlen = 0,025 , winstep = 0,01 , nfilt = 26 , nfft=512 , lowfreq=0 , highfreq=нет , предвыбор = 0,97 )

Вычислите журнал энергетического элемента Mel-filterbank из аудиосигнала.

Параметры:
  • signal — звуковой сигнал, из которого вычисляются признаки. Должен быть массив N*1
  • samplerate — частота дискретизации сигнала, с которым мы работаем.
  • winlen — длина окна анализа в секундах. По умолчанию 0,025 с (25 миллисекунд)
  • winstep — шаг между последовательными окнами в секундах. По умолчанию 0,01 с (10 миллисекунд)
  • nfilt – количество фильтров в банке фильтров, по умолчанию 26.
  • nfft – размер БПФ. По умолчанию 512.
  • lowfreq – край нижней полосы мел фильтров. В Гц по умолчанию 0,
  • highfreq – верхняя граница полосы мел-фильтров. В Гц по умолчанию частота дискретизации/2
  • preemph – применить фильтр предыскажения с предыскажением в качестве коэффициента. 0 — нет фильтра. По умолчанию 0,97.
Возвраты:

Пустой массив размером (NUMFRAMES по nfilt), содержащий функции. Каждая строка содержит 1 вектор признаков.

python_speech_features.base. ssc ( сигнал , частота дискретизации = 16000 , winlen = 0,025 , winstep = 0,01 , nfilt = 26 , nfft=512 , lowfreq=0 , highfreq=нет , preemph=0,97 , winfunc=<функция <лямбда>> )

Вычисление центроидных характеристик спектрального поддиапазона из аудиосигнала.

Параметры:
  • signal – звуковой сигнал, по которому вычисляются признаки. Должен быть массив N*1
  • samplerate — частота дискретизации сигнала, с которым мы работаем.
  • winlen — длина окна анализа в секундах. По умолчанию 0,025 с (25 миллисекунд)
  • winstep — шаг между последовательными окнами в секундах. По умолчанию 0,01 с (10 миллисекунд)
  • nfilt – количество фильтров в банке фильтров, по умолчанию 26.
  • nfft – размер БПФ. По умолчанию 512.
  • lowfreq – край нижней полосы мел фильтров. В Гц по умолчанию 0,
  • highfreq – верхняя граница полосы мел-фильтров. В Гц по умолчанию частота дискретизации/2
  • preemph – применить фильтр предыскажения с предыскажением в качестве коэффициента. 0 — нет фильтра. По умолчанию 0,97.
  • WinFunc – окно анализа для применения к каждому кадру. По умолчанию окно не применяется. Здесь вы можете использовать оконные функции numpy, например. winfunc=numpy.hamming
Возвраты:

Пустой массив размером (NUMFRAMES по nfilt), содержащий функции. Каждая строка содержит 1 вектор признаков.

python_speech_features. base. Гц2мель ( Гц )

Преобразование значения в герцах в 9 мелов0003

Параметры: Гц – значение в Гц. Это также может быть массив numpy, преобразование происходит поэлементно.
Возвращает: значение в Мэлс. Если был передан массив, возвращается массив идентичного размера.
python_speech_features.base. мел2хз ( мел )

Преобразование значения в мелах в герцах

Параметры: mel – значение в Мэлс. Это также может быть массив numpy, преобразование происходит поэлементно.
Возвращает: значение в герцах. Если был передан массив, возвращается массив идентичного размера.
python_speech_features.base. get_filterbanks ( nfilt=20 , nfft=512 , частота дискретизации=16000 , низкая частота = 0 , высокая частота = нет )

Вычисление Mel-filterbank. Фильтры хранятся в строках, столбцы соответствуют к мусорным бакам. Фильтры возвращаются в виде массива размером nfilt * (nfft/2 + 1)

.
Параметры:
  • nfilt – количество фильтров в банке фильтров, по умолчанию 20.
  • nfft – размер БПФ. По умолчанию 512.
  • частота дискретизации — частота дискретизации сигнала, с которым мы работаем. Влияет на интервал мела.
  • lowfreq — край нижней полосы мел-фильтров, по умолчанию 0 Гц
  • highfreq — край верхней полосы мел-фильтров, частота дискретизации по умолчанию/2
Возвраты:

Пустой массив размером nfilt * (nfft/2 + 1), содержащий банк фильтров. Каждая строка содержит 1 фильтр.

python_speech_features.base. подъемник ( кепстра , L=22 )

Нанесите кепстральный подъемник на матрицу кепстра. Это оказывает влияние на увеличение величина высокочастотного коэффициента DCT.

Параметры:
  • кепстра – матрица мел-цепстра, будет размером numframes * numcep.
  • L – используемый коэффициент подъемной силы. По умолчанию 22. L <= 0 отключает подъемник.
python_speech_features.base. дельта ( подвиг , N )

Вычисление дельта-признаков из последовательности векторов признаков.

Параметры:
  • feat — Пустой массив размера (NUMFRAMES по количеству функций), содержащий функции. Каждая строка содержит 1 вектор признаков.
  • N – Для каждого кадра вычислить дельта-функции на основе предшествующих и последующих N кадров
Возвраты:

Пустой массив размера (NUMFRAMES по количеству функций), содержащий дельта-функции. Каждая строка содержит 1 дельта-вектор признаков.

Функции модуля sigproc

python_speech_features.sigproc. frameig ( sig , frame_len , frame_step , winfunc=<функция <лямбда>> , stride_trick=Истина )

Поместите сигнал в перекрывающиеся кадры.

Параметры:
  • sig – звуковой сигнал на кадр.
  • frame_len – длина каждого кадра, измеренная в семплах.
  • frame_step – количество выборок после начала предыдущего кадра, через которое должен начинаться следующий кадр.
  • winfunc — окно анализа для применения к каждому кадру. По умолчанию окно не применяется.
  • stride_trick — использовать трюк шага для более быстрого вычисления скользящего окна и умножения окна
Возвраты:

массив кадров. Размер: NUMFRAMES на frame_len.

python_speech_features.sigproc. deframesig ( фреймов , siglen , frame_len , frame_step , winfunc=<функция <лямбда>> )

Процедура добавления с перекрытием для отмены действия framesign.

Параметры:
  • кадров – массив кадров.
  • siglen – длина желаемого сигнала, используйте 0, если неизвестно. Выходные данные будут усечены до сигленовых семплов.
  • frame_len – длина каждого кадра, измеренная в семплах.
  • frame_step – количество выборок после начала предыдущего кадра, через которое должен начинаться следующий кадр.
  • winfunc — окно анализа для применения к каждому кадру. По умолчанию окно не применяется.
Возвращает:

одномерный сигнал.

python_speech_features.sigproc. magspec ( кадров , NFFT )

Вычислить спектр амплитуд каждого кадра в кадрах. Если кадры представляют собой матрицу NxD, вывод будет Nx(NFFT/2+1).

Параметры:
  • кадров – массив кадров. Каждая строка представляет собой рамку.
  • NFFT – используемая длина БПФ. Если NFFT > frame_len, кадры дополняются нулями.
Возвраты:

Если кадры представляют собой матрицу NxD, вывод будет Nx(NFFT/2+1). Каждая строка будет спектром амплитуды соответствующего кадра.

python_speech_features.sigproc. powspec ( кадров , NFFT )

Вычислить спектр мощности каждого кадра в кадрах. Если кадры представляют собой матрицу NxD, вывод будет Nx(NFFT/2+1).

Параметры:
  • кадров – массив кадров. Каждая строка представляет собой рамку.
  • NFFT – используемая длина БПФ. Если NFFT > frame_len, кадры дополняются нулями.
Возвраты:

Если кадры представляют собой матрицу NxD, вывод будет Nx(NFFT/2+1). Каждая строка будет спектром мощности соответствующего кадра.

python_speech_features. sigproc. logpowspec ( кадров , NFFT , норма=1 )

Вычислить логарифмический спектр мощности каждого кадра в кадрах. Если кадры представляют собой матрицу NxD, вывод будет Nx(NFFT/2+1).

Параметры:
  • кадров – массив кадров. Каждая строка представляет собой рамку.
  • NFFT – используемая длина БПФ. Если NFFT > frame_len, кадры дополняются нулями.
  • norm — если norm=1, логарифмический спектр мощности нормализуется таким образом, чтобы максимальное значение (по всем кадрам) равнялось 0.
Возвраты:

Если кадры представляют собой матрицу NxD, вывод будет Nx(NFFT/2+1). Каждая строка будет логарифмическим спектром мощности соответствующего кадра.

python_speech_features.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *