Что такое особенности речи: 7.1. Виды и особенности речи

Содержание

Лекция 2. Речь и ее особенности. Разновидности речи План

1. Понятие о речи. Соотношение понятий «язык» и «речь».

2. Функции речи.

3. Разновидности речи по форме выражения мысли.

4. Разновидности речи по способу передачи информации.

5. Разновидности речи по характеру взаимодействия участников общения.

6. Разновидности речи по функциональному назначению.

По определению психолога В.А. Артемова, речь является процессом выражения мысли человека, его чувств, желаний посредством языка с целью воздействия на других людей в процессе общения в различных видах деятельности и общественных отношений. Если язык — это система знаков и символов, то речь — это процесс пользования языком, она является реализацией языка, который и обнаруживает себя только через речь.

В лингвистике под речью понимают конкретное говорение, протекающее во времени и облеченное в звуковую форму. К речи относят также продукты говорения в виде речевого произведения (текста), фиксируемого памятью или письмом.

Отличия речи от языка состоят в следующем. Во-первых, речь конкретна, неповторима, актуальна, развертывается во времени, реализуется в пространстве. Во-вторых, речь активна, линейна, стремится к объединению слов в речевом потоке. В отличие от языка она более динамична, подвижна. В-третьих, речь как последовательность вовлеченных в нее слов отражает опыт говорящего человека, обусловлена контекстом и ситуацией, вариативна, может быть спонтанной и неупорядоченной. Речь выполняет несколько функций. Среди них есть ведущие, или основные коммуникативная и экспрессивная, а также шесть

дополнительных:

1) референтная (номинативная, денотативная) — функция обозначения явлений действительности;

2) эмотивная, ориентированная на говорящего, на выражение отношения автора речи к содержанию сообщения или его эмоциональной реакции на ситуацию общения;

3)апеллятивная состоящая в ориентации на адресата.

В чистом виде выражается формами обращения и побуждения;

4)фатическая — обслуживает речевой контакт, необходимый для общения; поэтическая — установка на то, чтобы сообщение своей формой и содержанием удовлетворяло эстетическое чувство адресата. Она проявляется в стремлении говорящего к ритмичности речи, образности выражения; 6) 5)кумулятивная (культуроносная) проявляется в том, что язык не просто передает некоторые сообщения, но и обладает способностью отражать, фиксировать и сохранять информацию о действительности.

Разные функции речи обусловливают разное использование языка, разные высказывания. Поэтому одним из подробно разработанных понятий является понятие о разновидностях речи. Разновидности речи различаются по нескольким основаниям: форме выражения мысли (внутренняя и внешняя),

способу передачи информации (устная и письменная), по характеру взаимодействия участников общения (монолог, диалог, полилог\ по функциональному назначению (научная, книжная, разговорная).

Внутренняя речь — это речь, непроизносимая вслух, не звучащая, речь, обращенная к самому себе. Мы пользуемся ею, когда думаем, считаем, мечтаем. Проблема внутренней речи относится к числу наиболее сложных и недостаточно изученных. Исследования Н.И. Жинкина доказали, что внутренняя речь протекает со значительно большей скоростью, чем внешняя. Работы П.Я. Гальперина определили место внутренней речи в организации сложных видов интеллектуальной деятельности. Следовательно, внутреннюю речь нельзя рассматривать как беззвучный аналог внешней. Внутренняя речь выполняет регулирующую функцию, т.к. с ее помощью человек планирует и корректирует свои последовательные действия. Она ситуативна, т.к. всегда связана с определенной ситуацией, условиями, ее вызывающими. Этим объясняется ее фрагментарность, сжатость, устранение ряда элементов. Создание внутренней речи проходит два этапа: 1) обдумывание во внутренней речи, которое начинается с ориентировки в ситуации общения, т.

е. умения правильно разобраться в «букете» мотивации; 2) умение ориентироваться в ситуации общения. Последнее означает: умение осознавать общее коммуникативное намерение (спросить, сказать, побудить), задачу речи (зачем говорю или пишу), особенности адресата (к кому обращаюсь), предмет речи (о чем собираюсь говорить или писать), общий замысел (что хочу донести).

Внешняя речь — это речь произносимая вслух. По механизмам и

способам фиксации она подразделяется на виды:

1) говорение — образование речевых, акустических сигналов, несущих информацию; 2) аудирование — восприятие речевых сигналов органами слуха и их понимание; 3) письмо — зашифровка речевых сигналов с помощью специальных графических знаков; 4) чтение — расшифровка графических знаков и понимание их значения. Внешняя речь организуется так; говорение -слушание, письмо — чтение.

По способу передачи информации речь делится на устную и письменную.

УСТНАЯ РЕЧЬ

УСТНАЯ РЕЧЬ

Первична по отношению к письменной. Изначально была единственной, до сих пор преобладает.

Вторична. Появилась ввиду

потребности передавать речь на

расстоянии и сохранять ее на долгие времена.

Менее подготовлена. В ней более непосредственностей, стихийности, случайного: оговорок, поворотов, междометий, лишних слов.

Более строга, сложна по форме, полна и логична по содержанию. Соблюдаются литературные нормы.

Обладает своими средствами: темп речи, тембр, громкость, полетность, может сопровождаться невербальными средствами.

Менее выразительна, используется

знаки препинания, курсив, шрифтовые выделения.

Подчинена орфоэпическим нормам.

Подчинена орфографическим пунктуационным нормам.

Устной речи свойственны следующие особенности: словесная импровизация, прерывистость, избыточность (прямые повторы слов, СС, предложений), лаконизм (краткость, использование в целях передачи информации жестов, мимики, интонации). Письменная речь включает в свой состав ряд уровней: поиск отдельных звуков, их противопоставление, кодирование звуков в буквы, подбор слов с противопоставлением их другим лексическим альтернативам, сознательные операции синтаксического уровня, выбор структуры высказывания. Особенности письменной речи: подготовленность, развернутость, логичность. Различия устной и письменной форм речи можно наглядно представить в таблице.

В настоящее время наблюдается взаимодействие устной письменной речи, поскольку устная речь нередко опирается на письменную. Так, доклады, выступления вначале составляются письменно, затем озвучиваются. Такая речь обладает многими чертами письменной: подготовленностью, полнотой, правильностью, но при этом сохраняет такие достоинства устной, как звуковая выразительность, мимика, жесты.

По характеру взаимодействия участников общения различают такие разновидности речи, как монолог, диалог, полилог. Монолог представляет собой речь от 1-го лица, обращенную к самому себе или другим, не рассчитанную на непосредственную речевую реакцию другого лица и обладающую композиционной организованностью и смысловой завершенностью.

Монологическая речь характеризуется наличием в ней обращений, местоимений, глаголов 2 лица, повелительного наклонения. Со стороны содержания — непрерывностью, связностью, развернутостью,

последовательностью, логичностью, смысловой законченностью,

опосредованной связью с ситуацией общения, сдержанной эмоциональностью,

умеренным использованием невербальных средств и др. Речевые типы

монолога: повествование, рассуждение, описание, оценка, исповедь,

самохарактеристика. За пределами художественного произведения форму

монолога принимают отдельные разновидности устных высказываний: речь

оратора, лектора, выступления по радио, телевидению. Диалог — разговор двух

или нескольких лиц. Основные черты диалога: обмен репликами, свернутость

(сокращенностъ), непосредственная контактность, зависимость реплики

партнера от речевого поведения другого, единство порождения и восприятия

речи, тесная связь с ситуацией общения, ярко выраженная эмоциональность,

широкое использование невербальных средств, эллиптичность, изобилие

речевых клише. При диалоге важно учитывать его особенности: сообщение

подается порциями: подготовка к восприятию, выражение своей оценки

событий, просьба; соответствует теме разговора; предполагает соблюдение

ясности речи. Диалог осуществляется по следующей структурной схеме: 1.

Установление контакта с собеседником (вначале зрительного, затем речевого,

можно одновременно). 2. Начало разговора: а) приветствие; б) вопрос о том,

возможен ли разговор (Я вас не отрываю? Извините, можно я у вас спрошу? в)

вопросы о жизни, делах, здоровье; г) сообщение о цели разговора. 3. Развитие

темы; 4.Конец разговора: а) заключительные фразы, обобщающие тему разговора; б) этикетные фразы, сопровождающие конец разговора; в) прощание.

Чтобы между вами и собеседником возникло диалоговое взаимодействие, соблюдайте следующие правила:

1 .Если вы задаете вопрос, то подождите, когда ваш собеседник ответит на него.

2.Если вы высказываете свою точку зрения, то поощряйте собеседника к тому,

чтобы он высказал к ней свое отношение.

З.Если вы не согласны, формулируйте аргументы и поощряйте поиск таковых

самим собеседником.

4.Делайте паузы во время беседы. Не разрешайте себе захватывать все

«коммуникативное пространство».

5.Чаще повторяйте фразы: «Как ты сам думаешь? Мне интересно твое мнение,

«Почему ты молчишь? Докажи, что я не прав» и др.

Полилог — форма речи, характеризующаяся сменой высказываний нескольких говорящих и непосредственной связью высказываний с ситуацией. Он часто приобретает форму группового общения (беседа, собрание, дискуссия). Участники полилога придерживаются принципа ответственности: в любой момент каждый обязан быть в курсе того, что говорится и обеспечить такую возможность остальным. Для этой формы речи характерны тематические перескоки, сложное взаимодействие реплик, разрыв диалогических единств. Полилог строится по следующей структурной схеме.

1. Начало: этикетные реплики ведущего: «Все готовы к обсуждению. Начинаем».

2. Вступительное слово ведущего: тема обсуждения, чем вызвана ее постановка; основная задача обсуждения; время, на которое оно рассчитано; время для выступающих.

3. Основная часть: речь ведущего, диалогизированные монологи участников обсуждения, резюме.

4. Концовка: речь ведущего, участника собрания, итоговое выступление. Чтобы организовать, а затем управлять полилогом, полезно заранее распределить роли между участниками: два человека находятся в оппозиции, третий промежуточная роль. Таких триад может быть несколько. Существуют и общие правила участия в полилоге: каждый участник говорит коротко и убедительно; внимательно слушает, следит за ходом обсуждения, старается понять других; задает вопросы, уточняет мысль у разных собеседников, возражает; дружелюбен, корректен. Остроты, оригинальность, тонкие намеки или приятный юмор не должны переходить границу деловитости и уводить разговор в сторону.

В зависимости от того, из какого материала строится речь, она приобретает книжный или разговорный характер.

Книжная речь обслуживает политическую, законодательную, научную сферы общения (конгрессы, симпозиумы, конференции, заседания, совещания), а разговорная речь используется на полуофициальных заседаниях, совещаниях, неофициальных или полуофициальных юбилеях, торжествах, дружеских застольях, встречах, при доверительных беседах начальника с подчиненными, в обиходно-бытовой, семейной обстановке. Книжная речь строится по нормам литературного языка, их нарушение недопустимо; предложения должны быть закончены, логически связаны друг с другом. В книжной речи не допускаются резкие переходы от одной мысли, которая не доведена до логического конца, к другой. Среди слов встречаются отвлеченные, книжные слова, в том числе научная терминология, официально-деловая лексика.

Разговорная речь используется в ситуациях непринужденного повседневного общения на бытовые темы. По-преимуществу она носит устный характер. Основными признаками разговорной речи являются: стремление к минимизации используемых средств, использование различных разговорных клише, непосредственный контакт собеседников, находящихся в одно время в одном пространстве, использование невербальных средств общения, которые в некоторых случаях способны замещать слова полностью (жесты головой вместо произнесения ответных реплик да и нет и др.).

ЛЕКЦИЯ 3. Стили русского литературного языка. Научный стиль и его жанры.

План

Понятия «стиль речи» и «функциональный стиль».

2. Сталеобразующие факторы.

3. Понятие жанра.

4. Научный стиль и его общестилевые черты.

5. Языковые особенности научного стиля.

6. Жанровое своеобразие текстов научного стиля.

Носитель языка строит свою речь по-разному в зависимости от ситуации, которая «вынуждает» его использовать в каждом из случаев особый стандартный набор языковых средств. Иначе говоря, человек будет строить свою речь в том или ином стиле. Стиль — «разновидность языка, закрепленная в данном обществе традицией за одной из наиболее общих сфер социальной жизни и частично отличающаяся от других разновидностей того же языка по всем основным параметрам лексикой, грамматикой, фонетикой»

(«Языкознание: Энциклопедия»). Изучением стилей речи занимается особая наука — стилистика.

Среди факторов, лежащих в основе выделения стилей, наиболее общим является ведущая функция каждого стиля: для разговорного — общение, для научного (учебного) и официально-делового сообщение, для

публицистического и художественного — воздействие. Ведущие функции стилей выделяются в соответствии с классификацией В.В. Виноградова, Существует понятие «функциональный стиль». По определению М.Н. Кожиной, «это своеобразный характер речи той или иной социальной разновидности, соответствующий определенной сфере общественной деятельности и соотносительно с ней форме сознания, создаваемый особенностями функционирования в этой сфере языковых средств и специфической речевой организацией, несущей определенную стилистическую окраску». Изучением таких стилей занимается функциональная стилистика.

В современной лингвистической литературе выделяются пять сфер общения и соответствующие им пять речевых стилей: повседневная разговорный стиль, область науки и техники научный стиль, сфера законодательства, деловых отношений — официально-деловой стиль, сфера искусства слова — художественный стиль, общественно-политическая сфера

— публицистический стиль.

Не менее важным стилеобразующим фактором является ведущая речи (устная или письменная), а также вид речи (диалог или монолог). Для разговорного стиля это устная диалогическая речь, а для научного официально-делового — письменная монологическая речь. К стилеобразующим факторам относят также содержание высказывания, установку говорящего (пишущего) на качество речи, наличие или отсутствие непосредственной обратной связи, количество участников общения, отношения между ними и т.д. Так, языковые особенности разговорного стиля, его эмоциональность во многом обусловлены непосредственным контактом. Стили поддерживаются традицией. Объективно стиль существует потому, что общество, говорящее на данном языке, выработало такие способы общения, которые являются наиболее удобными для передачи информации данного типа: сообщение на бытовую тему не требует сложной формы, научная информация подразумевает иное оформление. Оптимальные и всеми признанные способы передачи информации с помощью языка и есть стили. И они охраняются носителями языка, иначе говоря, традицией.

Внутри стилей существует разделение на жанры — модели построения текстов, выполняющих конкретную коммуникативную задачу. Например, внутри официально-делового стиля: закон, договор, приказ, отчет, должностная инструкция и т.д. Тексты разных жанров, принадлежащие к одному стилю, различаются прежде всего своей композицией, а объединяют их единые требования к коммуникативному функционированию, преимущественно письменная форма, ряд существенных языковых особенностей.

Следует иметь в виду, что функционально-стилевые границы современного литературного языка очень подвижны. Как подчеркивал В.В. Виноградов, «разные функциональные стили не представляют собой замкнутой системы. Основная часть языкового материала — общеязыковые, межстилевые средства. Поэтому очень важно знать и тонко чувствовать специфические особенности каждого функционального стиля, умело пользоваться языковыми средствами разных стилей в зависимости от ситуации общения и целей высказывания. Владение функциональными стилями является необходимым составным элементом культуры профессиональной речи дипломата, политика, дотеля, журналиста, адвоката, руководителя предприятия.

Научный стиль речи

Сферой применения этого стиля выступают научные труды и выступления на научные темы, устные и письменные ответы студентов и учеников. Задачи научной речи: сообщить общие существенные признаки предмета, объяснить причины явлений. Научный стиль характеризуется своими общестилевыми и языковыми особенностями.

Общестилевыми признаками научного стиля, вытекающими из абстрактности и строгой логичности научного мышления, являются: информативная насыщенность и объективность изложения, стандартизированность, регламентированность, обобщенность, строгость и простота, официальный характер изложения, логичность, преимущественно письменная форма бытования.

Требование точности научной речи предопределяет использование терминологической и специальной лексики. В последнее время широко применяется международная терминология (менеджмент, спонсор, секвестр^ риэлтер и др. ) Возрастающая роль интернационализмов в терминологичес! лексике свидетельствует, с одной стороны, о тенденции к международной стандартизации языка науки, а с другой — является показателем «отстраненности» средств научного стиля от общеупотребительной лексики

тремление к обобщению, абстракции проявляется в научном стиле в преобладании абстрактной лексики над конкретной. Весьма частотными являются существительные с абстрактным значением: мышление, перспективы, истина, гипотеза, обусловленность.

Логичность научной речи проявляется в композиционной связности изложения. Соединение отдельных частей высказывания в тексте осуществляется при помощи специальных слов или групп слов, отражающих этапы логического изложения и являющихся средствами связи мыслей в ходе рассуждения (таким образом, поэтому, теперь, итак, тем не менее, между тем, несмотря на, в заключение, следовательно, далее, другими словами и др. ).

Близки к ним словосочетания типа: следует указать, интересно отметить, наблюдения показывают, в данной работе, в последующем, наибольший интерес представляет… и др. Стремление к логичности изложения материала в научной речи обусловливает активное использование сложных предложений союзного типа, в которых отношения между частями выражаются однозначно (Иногда достаточно провести 2-3 занятия, чтобы восстановить плавную

речь). Наиболее распространенными являются сложноподчиненные предложения с придаточными причины и условия. (Если плохо работает предприятие или какое-то его структурное подразделение, то это значит, что здесь не все в порядке с менеджментом).

Лексический состав текстов научного стиля характеризуется относительной однородностью и замкнутостью, что выражается в стандартизации языковых средств (речь идет о проблеме, следует заметить, что…, данные приводят к следующим выводам. .., из сказанного ранее

вытекает…и т.д.).

Отличительной особенностью письменной научной речи является то, что тексты могут содержать не только языковую информацию, но и различные формулы, символы, таблицы, графики и т.п. В большей степени это характерно оля текстов естественных и прикладных наук: математики, физики, химии и др. Однако практически любой научный текст может содержать графическую информацию.

Итак, своеобразие научного стиля состоит в сочетании обязательной объективности и информативности изложения и авторской позиции, то есть наличии оценочности. Оценки используются, чтобы выразить точку зрения автора, сделать ее более понятной, доступной, пояснить мысль, и в основном имеют рациональный, а не эмоционально-экспрессивный характер.

Среди языковых особенностей научного стиля необходимо выделить

следующие:

Особенности речи в межличностном общении . Русский язык и культура речи

Межличностное общение определяют как взаимодействие между небольшим числом коммуникаторов, которые находятся в пространственной близости, хорошо знакомы друг с другом и в большой мере друг другу доступны, т.  е. имеют возможность видеть, слышать, касаться друг друга, легко осуществлять обратную связь.

Речь как средство организации общения небольшого числа находящихся рядом и хорошо знакомых друг другу людей, или разговорная речь, обладает рядом отличительных особенностей:

1) персональностью адресации, которая предполагает индивидуальное обращение собеседников друг к другу, учет взаимных интересов и возможностей понимания темы сообщения; большее внимание к организации обратной связи с партнерами – адресат разговорной речи всегда присутствует, обладает той же степенью реальности, что и говорящий, активно влияет на характер речевого общения, позиция партнера непрерывно рефлексируется, переосмысливается, на нее реагируют, ее предвосхищают и оценивают;

2) спонтанностью и непринужденностью: условия непосредственного общения не позволяют заранее спланировать разговор, собеседники вмешиваются в речь друг друга, уточняя или меняя тему разговора; говорящий может перебивать сам себя, что-то вспоминая, возвращаясь к уже сказанному;

3) ситуативностью речевого поведения: непосредственный контакт говорящих, тот факт, что предметы, о которых идет речь, чаще всего видны или известны собеседникам, позволяют им использовать мимику и жесты как способ восполнения неточности выражений, неизбежной в неформальной речи;

4) эмоциональностью: ситуативность, спонтанность и непринужденность речи в непосредственном общении усиливают ее эмоциональную окраску, выдвигают на первый план эмоционально-индивидуальное восприятие говорящими как темы разговора, так и собеседника, что достигается с помощью слов, структурной организации предложений, интонаций; стремление быть понятыми побуждает собеседников к частому выражению личных оценок, эмоциональных предпочтений, мнений.

Перечисленные особенности задают важнейшие функции речи в межличностном общении – эмотивную и конативную. Эмотивная функция связана с субъективным миром адресанта (говорящего), с выражением его переживаний, его отношения к тому, что говорится, в ней находит отражение самооценка говорящего, его потребность быть услышанным, понятым. Конативная функция связана с установкой на адресата (слушающего), со стремлением на него воздействовать, формировать определенный характер взаимоотношений, в ней находят отражение потребности человека достигать поставленных целей, оказывать влияние на других людей; проявляется эта функция в структурной организации разговора, целевой направленности речи.

Разговорную речь отличают ряд особенностей и приемов: постоянная смена позиций говорящий – слушающий; личная заинтересованность и активность разговаривающих; использование неполных предложений, коротких фраз, большого числа местоимений, бытовой лексики и др. Межличностный разговор в процессе развертывания приобретает большую эмоциональную нагруженность, что заставляет собеседников уточнять собственное отношение к предмету разговора, проверять устойчивость собственной позиции и позиций, занимаемых другими, тем самым речь оказывается фактором личностного самоопределения участников разговорной коммуникации.

Данный текст является ознакомительным фрагментом.

Что такое распознавание речи? | ИБМ

Что такое распознавание речи?

Распознавание речи, также известное как автоматическое распознавание речи (ASR), компьютерное распознавание речи или преобразование речи в текст, — это возможность, позволяющая программе преобразовывать человеческую речь в письменный формат. Хотя его обычно путают с распознаванием голоса, распознавание речи фокусируется на переводе речи из вербального формата в текстовый, тогда как распознавание голоса просто стремится идентифицировать голос отдельного пользователя.

IBM играла заметную роль в распознавании речи с момента своего основания, выпустив «Shoebox» в 1962 году. Эта машина могла распознавать 16 различных слов, продвигая первоначальную работу Bell Labs 1950-х годов. Однако IBM не остановилась на этом, а продолжала внедрять инновации на протяжении многих лет, запустив приложение VoiceType Simply Speaking в 1996 году. Это программное обеспечение для распознавания речи имело словарь из 42 000 слов, поддерживало английский и испанский языки и включало орфографический словарь на 100 000 слов. Хотя словарный запас речевых технологий в первые дни был ограничен, сегодня они используются во многих отраслях, таких как автомобилестроение, технологии и здравоохранение. В последние годы его внедрение только продолжало ускоряться благодаря достижениям в области глубокого обучения и больших данных. Исследование (ссылка находится за пределами ibm.com) показывает, что этот рынок, как ожидается, будет стоить 24,9 доллара США.миллиардов к 2025 году.

Рекомендуемые продукты

Преобразование речи в текст IBM Watson

Преобразование текста в речь IBM Watson

Ключевые особенности эффективного распознавания речи

Доступно множество приложений и устройств для распознавания речи, но более продвинутые решения используют искусственный интеллект и машинное обучение. Они объединяют грамматику, синтаксис, структуру и композицию звуковых и голосовых сигналов для понимания и обработки человеческой речи. В идеале они учатся на ходу — развивая ответы при каждом взаимодействии.

Лучшие системы также позволяют организациям настраивать и адаптировать технологию к своим конкретным требованиям — от языка и нюансов речи до узнаваемости торговой марки. Например:

  • Взвешивание языка: Повышение точности путем взвешивания определенных слов, которые часто произносятся (например, названия продуктов или отраслевой жаргон), помимо терминов, уже имеющихся в базовом словаре.
  • Обозначение выступающего: Вывод транскрипции, которая цитирует или помечает вклад каждого выступающего в разговор с несколькими участниками.
  • Обучение акустике: Займитесь акустической стороной бизнеса. Научите систему адаптироваться к акустической среде (например, окружающему шуму в колл-центре) и стилям говорящих (например, высоте голоса, громкости и темпу).
  • Фильтрация ненормативной лексики: Используйте фильтры для идентификации определенных слов или фраз и очистки речевого вывода.

Тем временем распознавание речи продолжает развиваться. Такие компании, как IBM, продвигаются вперед в нескольких областях, стремясь улучшить взаимодействие человека и машины.

Алгоритмы распознавания речи

Капризы человеческой речи усложнили разработку. Она считается одной из самых сложных областей информатики, включающей лингвистику, математику и статистику. Распознаватель речи состоит из нескольких компонентов, таких как речевой ввод, извлечение признаков, векторы признаков, декодер и вывод слов. Декодер использует акустические модели, словарь произношения и языковые модели для определения соответствующего вывода.

Технология распознавания речи оценивается по степени точности, т. е. по частоте ошибок в словах (WER) и скорости. На количество ошибок в словах может влиять ряд факторов, таких как произношение, акцент, высота тона, громкость и фоновый шум. Достижение человеческого паритета — то есть уровень ошибок, равный уровню двух человек, говорящих — уже давно является целью систем распознавания речи. Исследование, проведенное Lippmann (ссылка находится за пределами ibm.com) (PDF, 344 КБ), оценивает уровень ошибок в словах примерно в 4 процента, но было трудно воспроизвести результаты из этой статьи.

Подробнее о том, как IBM добилась успехов в этом отношении, установив отраслевые рекорды в области распознавания речи.

Для распознавания речи в текст и повышения точности транскрипции используются различные алгоритмы и методы вычислений. Ниже приведены краткие пояснения некоторых из наиболее часто используемых методов:

  • Обработка естественного языка (NLP): Хотя NLP не обязательно является конкретным алгоритмом, используемым для распознавания речи, это область искусственного интеллекта, которая фокусируется на взаимодействие между людьми и машинами посредством языка посредством речи и текста. Многие мобильные устройства включают в свои системы распознавание речи для осуществления голосового поиска. Siri — или предоставьте больше возможностей для обмена текстовыми сообщениями.
  • Скрытые марковские модели (HMM): Скрытые марковские модели основаны на модели цепи Маркова, согласно которой вероятность данного состояния зависит от текущего состояния, а не от его предыдущих состояний. В то время как модель цепи Маркова полезна для наблюдаемых событий, таких как ввод текста, скрытые марковские модели позволяют нам включать скрытые события, такие как теги части речи, в вероятностную модель. Они используются в качестве моделей последовательности при распознавании речи, присваивая метки каждой единице, т.е. слова, слоги, предложения и т. д. — в последовательности. Эти метки создают сопоставление с предоставленными входными данными, что позволяет определить наиболее подходящую последовательность меток.
  • N-грамм: Это простейший тип языковой модели (LM), который присваивает вероятности предложениям или фразам. N-грамма — это последовательность N-слов. Например, «закажи пиццу» — это триграмма или 3 грамма, а «пожалуйста, закажи пиццу» — это 4 грамма. Грамматика и вероятность определенных последовательностей слов используются для улучшения распознавания и точности.
  • Нейронные сети: Нейронные сети, используемые в первую очередь для алгоритмов глубокого обучения, обрабатывают обучающие данные, имитируя взаимосвязь человеческого мозга через слои узлов. Каждый узел состоит из входных данных, весов, смещения (или порога) и выходных данных. Если это выходное значение превышает заданный порог, он «запускает» или активирует узел, передавая данные на следующий уровень в сети. Нейронные сети изучают эту функцию отображения с помощью обучения с учителем, настраиваясь на основе функции потерь в процессе градиентного спуска. Хотя нейронные сети, как правило, более точны и могут принимать больше данных, это приводит к снижению производительности, поскольку они, как правило, медленнее обучаются по сравнению с традиционными языковыми моделями.
  • Диаризация говорящего (SD): Алгоритмы диаризации говорящего идентифицируют и сегментируют речь по идентификатору говорящего. Это помогает программам лучше различать людей в разговоре и часто применяется в центрах обработки вызовов, различая клиентов и торговых агентов.

Варианты использования распознавания речи

Многие отрасли сегодня используют различные приложения речевых технологий, помогая предприятиям и потребителям экономить время и даже жизни. Вот некоторые примеры:

Автомобильная промышленность: Распознаватели речи повышают безопасность водителя, активируя голосовые навигационные системы и возможности поиска в автомобильных радиоприемниках.

Технология: Виртуальные агенты все больше интегрируются в нашу повседневную жизнь, особенно в наши мобильные устройства. Мы используем голосовые команды для доступа к ним через наши смартфоны, например, через Google Assistant или Siri от Apple, для таких задач, как голосовой поиск, или через наши динамики, через Alexa от Amazon или Cortana от Microsoft, для воспроизведения музыки. Они будут только продолжать интегрироваться в повседневные продукты, которые мы используем, подпитывая движение «Интернета вещей».

Здравоохранение: Врачи и медсестры используют приложения для диктовки, чтобы фиксировать и регистрировать диагнозы пациентов и заметки о лечении.

Продажи: Технология распознавания речи имеет несколько применений в сфере продаж. Это может помочь колл-центру расшифровать тысячи телефонных звонков между клиентами и агентами, чтобы определить общие шаблоны вызовов и проблемы. Чат-боты с искусственным интеллектом также могут общаться с людьми через веб-страницу, отвечая на общие вопросы и решая базовые запросы, не дожидаясь, пока станет доступен агент контакт-центра. В обоих случаях системы распознавания речи помогают сократить время решения проблем потребителей.

Безопасность: По мере того, как технологии интегрируются в нашу повседневную жизнь, протоколы безопасности становятся все более приоритетными. Голосовая аутентификация обеспечивает надежный уровень безопасности.

Связанные решения Преобразование речи в текст IBM Watson®

Преобразование речи в текст с помощью распознавания и транскрипции речи на базе искусственного интеллекта.

Изучите преобразование речи в текст IBM Watson Преобразование текста в речь IBM Watson®

Преобразование текста в естественно звучащую речь на различных языках и голосах.

Узнайте больше о преобразовании текста в речь IBM Watson Решения IBM Cloud Pak®

Гибридное облачное программное обеспечение на базе искусственного интеллекта.

Ознакомьтесь с решениями Cloud Pak

Ресурсы

Узнайте, как технология IBM Watson Speech to Text использует распознавание и транскрипцию речи на основе ИИ

Включите транскрипцию речи на нескольких языках для различных вариантов использования, включая, помимо прочего, самообслуживание клиентов, помощь агентов и анализ речи.

Приложение для перевода получает точность 95%

Узнайте, как Lingmo улучшает распознавание речи и обучение моделей, используя меньше данных.

PDF (290 КБ) IBM Cloud Paks открывает путь к цифровой трансформации

Узнайте, как идти в ногу со временем, переосмыслите использование таких технологий, как облачные технологии, искусственный интеллект и автоматизация, для ускорения внедрения инноваций и удовлетворения меняющихся ожиданий клиентов.

Сделайте следующий шаг

IBM является пионером в разработке инструментов и услуг распознавания речи, которые позволяют организациям автоматизировать свои сложные бизнес-процессы, получая при этом важную информацию о бизнесе. IBM Watson Speech to Text — это облачное решение, использующее алгоритмы искусственного интеллекта с глубоким обучением для применения знаний о грамматике, структуре языка и композиции аудио/голосового сигнала для создания настраиваемого распознавания речи для оптимальной транскрипции текста.

Попробуйте IBM Watson Speech to Text уже сегодня

Распознавание речи: приложения, функции и будущее

С момента своего создания в середине 20-го века область распознавания речи добилась значительного прогресса. Когда-то ограниченный инструмент, который мог распознавать только небольшой набор слов, превратился в продвинутые алгоритмы, которые могут точно транскрибировать естественный язык .

Сегодня распознавание речи является жизненно важной технологией, темпы роста которой оцениваются в 17,2 %, а прогнозируемая рыночная стоимость к 2025 году составит 26,8 млрд долларов США9.0003

Растущая популярность виртуальных помощников , таких как Siri и Alexa, сыграла важную роль в росте спроса на технологию распознавания речи .

С ростом потребности в громкой связи в различных отраслях промышленности эта технология приобретает все большее значение.

В этой статье мы рассмотрим что такое распознавание речи , как оно работает, его различные приложения и его потенциал в будущем.

Что такое распознавание речи?

Распознавание речи, иногда называемое автоматическим или автоматическим распознаванием речи (ASR) или преобразованием речи в текст (STT), представляет собой технологию, позволяющую компьютерам преобразовывать человеческую речь в письменный текст.

Алгоритмы распознавания речи были разработаны для понимания естественной речи на разных языках, диалектах, акцентах и ​​речевых моделях.

Термин «автоматическое распознавание речи» был придуман инженерами в начале 1990-х годов, чтобы подчеркнуть, что распознавание речи — это технология машинной обработки. Однако теперь ASR и распознавание речи взаимозаменяемы.

Как работает распознавание речи

Когда мы говорим во встроенный микрофон персонального устройства , технология преобразования речи в текст разбивает запись, корректирует фоновый шум, высоту тона, громкость и темп, а также преобразует цифровую информацию в частоты, которые могут быть проанализированы.

Для точного перевода человеческой речи программное обеспечение распознавания речи использует машинное обучение и обработку естественного языка (NLP). Как только программное обеспечение получает входной речевой сигнал, оно генерирует последовательности слов, которые лучше всего соответствуют ему, и создает удобочитаемую транскрипцию, которую пользователь может дополнительно обработать или исправить.

Однако, как бы просто ни звучал этот процесс, технология распознавания речи невероятно сложна и включает в себя обработку сигналов, машинное обучение и обработку естественного языка.

Кроме того, точность вывода зависит от различных факторов, таких как качество исходной записи, сложность языка и системное приложение.

Для интерпретации человеческой речи компьютеры должны выполнить ряд шагов, включая:

  1. Преобразование звуковых колебаний в электрические сигналы,
  2. Оцифровка сигналов,
  3. Анализ цифровых сигналов,
  4. Сопоставление сигналов с подходящим текстом, представляющим звуки.

Благодаря приложениям искусственного интеллекта и машинному обучению технология распознавания речи со временем повышает производительность и точность.

Алгоритмы распознавания речи обучаются на различных образцах речи, языках, диалектах и ​​акцентах, чтобы адаптироваться к очень изменчивой и зависящей от контекста природе человеческой речи.

Распознавание речи и голоса

Хотя термины «голос» и «распознавание речи» часто взаимозаменяемы, на самом деле они относятся к двум различным процессам с разными результатами. Понимание различий между ними имеет решающее значение для предприятий, стремящихся использовать эти технологии для роста и коммуникации.

В то время как распознавание речи переводит любой голос, распознавание голоса  – это биометрическая система, которая распознает и аутентифицирует голос определенного пользователя.

Он анализирует уникальные характеристики голоса человека, включая высоту тона, тон и ритм, чтобы создать уникальный голосовой отпечаток для идентификации.

Эта технология часто используется в целях безопасности, например для разблокировки мобильных устройств или доступа к системам.

Типы технологии распознавания речи

Технологии распознавания речи можно разделить на системы, зависящие от говорящего, и системы, не зависящие от говорящего.

  • Системы, зависящие от говорящего  обучаются лицом, которое будет использовать систему, что обеспечивает высокую точность распознавания слов, но только для конкретного человека, обучавшего систему. Это наиболее распространенный подход для персональных компьютеров.
  • Системы, не зависящие от говорящего  , предназначены для ответа на определенное слово или фразу независимо от личности говорящего. Это требует, чтобы система могла распознавать широкий спектр речевых паттернов, интонаций и произношений целевого слова.

Хотя количество командных слов может быть ниже, чем у систем, зависящих от говорящего, высокие показатели точности для систем распознавания речи все же могут быть достигнуты в рамках ограничений обработки.

В результате эти системы часто используются в промышленных приложениях, например, система AT&T, используемая в телефонных системах.

Каковы особенности распознавания речи?

В дополнение к системам, зависящим от говорящего и независимым от говорящего, технология распознавания речи эволюционировала, чтобы включать различные типы моделирования для удовлетворения различных потребностей. Особенности распознавания речи:

1. Статистическое распознавание речи

Статистическое распознавание речи  (SSR) – это технология распознавания речи, в которой используются статистические модели для анализа и понимания разговорной речи.

Он включает в себя разбиение речи на отдельные фонетические единицы и анализ их частоты и паттернов для распознавания слов и фраз.

Этот подход основан на вероятности и использует алгоритмы машинного обучения для постоянного повышения точности.

2. Акустическое моделирование

Акустическое моделирование  (AM) — это процесс в технологии распознавания речи, который включает создание статистического представления звуковых паттернов, связанных с отдельными фонетическими единицами языка, такими как гласные и согласные.

Основное внимание уделяется захвату акустических характеристик речи, таких как высота тона, тон и произношение, для повышения точности систем распознавания речи.

По сути, акустическое моделирование помогает компьютеру «научиться» распознавать различные звуки и слова, произносимые разными людьми, даже в шумной обстановке.

3. Моделирование языка

Моделирование языка  (LM) — это метод, используемый в НЛП и распознавании речи, который включает прогнозирование вероятности определенной последовательности слов на основе их частоты и контекста.

Языковая модель пытается изучить закономерности и структуру языка, анализируя большие объемы текстовых данных, что позволяет ей генерировать связные предложения и понимать смысл человеческого языка.

Этот метод помогает повысить точность распознавания речи и позволяет чат-ботам и виртуальным помощникам отвечать на запросы пользователей более естественно и разговорно.

4. Обнаружение ключевых слов

Обнаружение ключевых слов  это тип  обработки звука , который фокусируется на идентификации определенных слов или фраз в более обширном аудиопотоке.

Это обеспечивает более эффективное и целенаправленное распознавание речи, поскольку системе нужно обрабатывать только соответствующие фрагменты аудио.

Обнаружение ключевых слов особенно полезно в приложениях, где требуется быстрая идентификация конкретной информации, например, в поисковых системах с голосовым управлением или виртуальных помощниках.

Применение технологии распознавания речи

Технология распознавания речи имеет множество применений, от виртуальных помощников до перевода и пользовательских голосовых команд .

Google Translate — прекрасный пример того, как технология распознавания речи может использоваться для перевода. Благодаря поддержке более 100 языков пользователи могут легко получать переводы, говоря в микрофон своего устройства.

Кроме того, в последние годы в программное обеспечение для распознавания речи были добавлены пользовательские голосовые команды, позволяющие конечным пользователям выполнять ряд действий с помощью одной голосовой команды.

Эти функции сделали технологию распознавания речи ценной в различных отраслях, включая здравоохранение, правоохранительные органы, бизнес, юриспруденцию, развлечения и образование.

Использование распознавания речи в здравоохранении

Технология распознавания речи стала важным инструментом для оптимизации процессов документирования в медицинской индустрии.

Врачи, взаимодействующие с пациентами, должны записывать записи о посещении, предоставляя обновленный статус и направляя пациентов к следующим шагам. Аналогичным образом, медицинские специальности, которые не связаны с непосредственным взаимодействием с пациентом, также требуют отчетности.

Внедрение электронных медицинских карт сделало процесс документирования более сложным. В прошлом врачи либо писали заметки, либо диктовали их прямо на диктофон, который затем был преобразован третьей стороной в более разборчивую версию.

Хотя транскрипционисты все еще довольно распространены в медицинской практике, распознавание речи оказалось более эффективным подходом. С помощью программного обеспечения для распознавания голоса врачи могут быстро и точно расшифровывать свои записи, экономя время и снижая риск ошибок.

Распознавание речи Использование в правоохранительных органах

Запись встреч жизненно важна для правоохранительных органов, как и в сфере здравоохранения. В качестве стандартной процедуры должны быть заполнены формы инцидентов и полицейские отчеты.

Однако заполнение документов может отнимать много времени и сил. К счастью, технология распознавания речи сделала эту задачу более простой для сотрудников правоохранительных органов.

Благодаря распознаванию речи заметки можно быстро записывать с мобильного устройства, дома или в офисе, освобождая драгоценное время для других рабочих обязанностей или личного времени.

Эта технология позволяет более эффективно и точно регистрировать встречи, что приводит к более полным и надежным отчетам.

Распознавание речи Использование в бизнесе

Одной из наиболее важных функций распознавания речи для бизнес-приложений является обслуживание клиентов. Здесь цифровые операторы могут понимать и интерпретировать голосовые команды вызывающих абонентов, уменьшая потребность в человеческом персонале и повышая удовлетворенность клиентов.

Распознавание речи также может расшифровывать целые встречи, автоматически различая разных выступающих. Это делает заметки проще и точнее.

Наконец, распознавание речи может сделать ввод данных более быстрым и эффективным, позволяя пользователям использовать голосовые команды для запуска функций или макросов в базах данных и инструментах обработки данных.

Это может сэкономить время и уменьшить количество ошибок, особенно при работе с большими числовыми значениями.

Распознавание речи Использование в юриспруденции

Юридическая сфера выигрывает от технологии распознавания речи в двух ключевых областях. Во-первых, технологии сокращают время, затрачиваемое юристами на подготовку судебных документов, таких как служебные записки и сводки.

Это может устранить необходимость передачи работы параюристам или юридическим писцам.

Во-вторых, технологии меняют способ подготовки протоколов судебных заседаний. В результате, судебные репортеры должны иметь острое внимание к деталям, специализированный юридический словарь и навыки быстрого набора текста.

Однако нехватка квалифицированных судебных репортеров и спрос на их услуги продолжают расти. Чтобы решить эту проблему, некоторые суды приняли речевой набор, при котором судебные репортеры произносят диалоги в речевое устройство в режиме реального времени для точной транскрипции.

Использование распознавания речи в образовании

Благодаря огромному количеству образовательного контента, доступного на YouTube, распознавание речи стало широко используемым инструментом в образовании, что позволяет использовать автоматические скрытые субтитры, которые продолжают совершенствоваться.

Педагоги и специалисты в различных областях использовали эту технологию, загружая видео для быстрой и бесплатной расшифровки.

Кроме того, технология распознавания речи может расшифровывать лекции, предоставляя студентам эффективный способ вести записи.

Благодаря возможности транскрибировать произносимые слова в режиме реального времени учащиеся могут сосредоточиться на понимании материала, а не на записи.

Каковы преимущества распознавания речи?

Существует ряд преимуществ распознавания речи , которые являются движущей силой растущего интереса к этой области.

Преимущества технологии распознавания речи включают :

Связь между машинами и людьми

Говорить вместо того, чтобы печатать каждую букву, можно значительно ускорить процесс, что делает его идеальным для межличностного и взаимодействия человека с компьютером и общения.

Мы все полагаемся на виртуальных помощников на наших телефонах, чтобы отправлять текстовые сообщения или совершать звонки с помощью всего нескольких простых голосовых команд.

Технология Hands-Free 

Выполнение задач без помощи рук становится все более важным в современном быстро меняющемся мире, где важна многозадачность. Здесь на помощь приходит технология громкой связи.

Например, голосовой поиск позволяет нам получать доступ к информации на ходу и даже зачитывать ее вслух цифровым помощником. Это не только экономит наше время, но и делает жизнь более удобной.

Специальные возможности

Системы преобразования текста в речь позволяют слабовидящим пользователям читать текст вслух. Напротив, системы преобразования речи в текст позволяют людям с нарушениями слуха читать транскрипцию произносимых слов.

Усовершенствованное программное обеспечение для расшифровки аудио, такое как Google Meet, может даже создавать субтитры в реальном времени на нескольких языках, переводя речь на лету.

Каковы проблемы технологии распознавания речи?

Несмотря на постоянно расширяющийся список преимуществ и областей применения технологии распознавания речи, ее сложность также создает ряд проблем.

Проблемы распознавания речи включают:

Точность и четкость

Распознавание речи сталкивается с проблемами как точности, так и точности. Точность означает, насколько хорошо программа распознает произносимые слова и правильно их расшифровывает. Напротив, точность относится к тому, насколько хорошо программное обеспечение может различать похожие по звучанию слова или фразы.

Например, если кто-то говорит «там» вместо «их», программа должна уметь распознавать правильное слово в зависимости от контекста предложения. Это требует высокого уровня точности.

Шум и помехи

Фоновый шум, такой как движение транспорта, строительные работы или разговоры поблизости, может мешать голосовому сигналу пользователя, затрудняя различение произносимых слов программным обеспечением.

Аналогичным образом помехи в окружающей среде, такие как внезапный громкий шум, могут вызвать ошибки в процессе распознавания речи.

Чтобы преодолеть эти проблемы, программное обеспечение для распознавания речи использует различные методы, такие как алгоритмы шумоподавления, для фильтрации фонового шума и повышения точности голосового сигнала пользователя.

Однако эти методы не являются надежными и могут работать эффективно только в некоторых ситуациях. Поэтому очень важно использовать технологию распознавания речи в контролируемой и тихой среде, чтобы обеспечить оптимальную производительность.

Языковые и акцентные барьеры

Несмотря на то, что системы распознавания речи прошли долгий путь в точном распознавании разговорной речи, им по-прежнему нужна помощь в понимании акцентов и диалектов, которые значительно отличаются от стандартных языковых моделей, на которых они обучались.

Это может быть особенно проблематично в мультикультурной или многоязычной среде, где преобладают разные акценты и диалекты.

Например, англоязычная система распознавания речи, обученная американскому варианту английского языка, может испытывать трудности с точным распознаванием акцентов говорящих из других англоязычных стран, таких как Великобритания, Австралия или Индия.

Кроме того, системы распознавания речи могут также не работать с языками, которые имеют уникальные фонетические особенности или используют тональные различия, такие как мандарин или кантонский диалект.

Эти языки требуют более совершенных языковых моделей и алгоритмов для точного распознавания произносимых слов и фраз.

Конфиденциальность и безопасность

Системы распознавания речи часто обрабатывают конфиденциальную и личную информацию, такую ​​как пароли, номера кредитных карт и личные разговоры. Поэтому защита конфиденциальности данных пользователей и предотвращение несанкционированного доступа имеют решающее значение.

Одной из основных проблем конфиденциальности при распознавании речи является сбор и хранение данных. Голосовые записи могут содержать конфиденциальную информацию, а хранение и использование этих записей может представлять угрозу конфиденциальности пользователей, если с ними не обращаться должным образом.

Кроме того, технология распознавания речи также может столкнуться с проблемами безопасности, связанными со злонамеренными атаками или нарушениями безопасности, которые могут поставить под угрозу конфиденциальные данные.

Например, хакер может получить доступ к устройству или системе с голосовым управлением и использовать их для сбора информации, такой как учетные данные для входа или финансовая информация.

Чтобы решить эти проблемы, разработчики технологии распознавания речи должны включать в свои продукты функции обеспечения конфиденциальности и безопасности, такие как шифрование, безопасное хранение данных и пользовательский контроль над сбором и удалением данных.

Будущее технологии распознавания речи

Технология распознавания речи будет продолжать совершенствоваться и станет доступной для всех. Люди и машины будут работать вместе, чтобы выучить новые слова и стили речи.

Системы распознавания речи также будут следовать ответственным принципам искусственного интеллекта, в том числе:

  • Справедливость  имеет решающее значение для распознавания речи независимо от чьего-либо происхождения или статуса. Поэтому важно уменьшить предвзятость, и правительства, предприятия и организации прилагают усилия для выявления и смягчения этого.
  • Объяснимость  также важна, и будущие системы будут прозрачными в отношении сбора и анализа данных и их производительности.
  • Соблюдение конфиденциальности  важно, так как голос считается личными данными. Существуют меры для защиты данных, и разрабатываются новые технологии для защиты конфиденциальности.

Компании, развертывающие системы ASR, будут нести ответственность за ответственное использование технологии и соблюдение ответственных принципов искусственного интеллекта .

Сотрудничество между людьми и машинами будет необходимо для создания справедливого и надежного будущего технологии распознавания речи.

Распознавание речи: основные выводы

Технология распознавания речи превратилась из ограниченного инструмента в продвинутый алгоритм, точно расшифровывающий естественный язык, что делает ее жизненно важной технологией в современном быстро меняющемся мире. Он позволяет общаться между машинами, использовать технологию громкой связи и транскрипцию аудио для обеспечения доступности.

Тем не менее, он по-прежнему сталкивается с такими проблемами, как:

  • Точность и точность,
  • Шум и помехи,
  • Языковые и акцентные барьеры,
  • Конфиденциальность и безопасность.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *