Технологии влияния на эмоциональное состояние собеседника: Карта сайта

Содержание

Интернет не разучит людей общаться

Американские исследователи сделали упор на коллективном разуме — способности людей достигать в команде лучших результатов, чем если бы каждый работал по отдельности.

Такой вид разума требует эффективного взаимодействия с другими членами группы. Прежде бытовало мнение, что эффективнее всего контакты такого рода выстреливают при общении лицом к лицу.

Предыдущие исследования доказали, что коллективный разум не так уж сильно зависит от умственных способностей составляющих его людей. Куда более существенно он взаимосвязан с уровнем социальной восприимчивости своих членов, их равным вкладом в дискуссию и процентом женщин в группе.

Все эти результаты были получены в ходе офлайн-общения. В одном из тестов, названном «читать по лицу», испытуемым предлагалось взглянуть на портреты людей, чтобы определить эмоции «собеседников». Группа, составленная из тех, у кого это получалось легко, обладала куда более развитым коллективным разумом.

Новое исследование ставило целью выяснить, может ли социальная восприимчивость существовать при общении онлайн. Уровень коллективного разума измерялся точно так же, как в прошлом эксперименте, но подопытных разделили на две групп: одна общалась вживую, другая — по сети.

Участники онлайн-группы беседовали исключительно при помощи чатов, не имея возможности поговорить друг с другом и даже увидеть собеседника.

К своему изумлению, ученые об­наружили, что в обеих группах примерно одинаково «считывают» собеседников. Но используют для этого разные инструменты.

Если собеседник прямо перед тобой, можно визуально понять его настрой. Но если он по ту сторону оптоволокна, то приходится читать между строк его сообщений.

Томас Мэлоун, директор Центра изучения коллективного разума MIT, руководящий исследованием, говорит: «Мы не только обнаружили, что люди способны эффективно работать по сети, но и поняли, что социальные навыки развиваются даже тогда, когда не видишь собеседника».

Навыки межличностных отношений крайне важны для групповой работы в офлайне. Но исследование доказывает, что они остаются крайне важны, а может быть, станут еще важнее в будущем, где людей все чаще будет связывать интернет, говорит Мэлоун.

«Исследование может быть применено к куда большему набору навыков, нежели мы изначально рассчитывали, — добавляет он. — Например, речь о способности чувствовать, что творится в голове у собеседника. Люди, которые умеют читать мысли по лицу, так же легко понимают ваше эмоциональное состояние и мысли по тексту на экране».

«Шокирующим открытием нашего исследования было то, что средний уровень социальной восприимчивости в группах оказывает практически одинаковое влияние на коллективным разум и при живом общении, и онлайн, — поражается профессор Мэлоун. — Так что наличие людей с развитым социальным интеллектом полезно и при личных контактах, и при общении по сети».

Эмоциональный интеллект — Бизнес-школа AMI

В будущем технологии заберут у людей большую часть алгоритмизированных задач и передадут их машинам, безусловно превосходящим человека в этой части интеллекта. Именно эмоциональный интеллект является уникальным качеством людей в изменчивом и неопределенном мире, где люди будут все больше зависимы друг от друга.

Навык Эмоциональный интеллект включает:

  • Понимание своих эмоций и эмоций других людей
  • Умение устанавливать раппорт
  • Умение конструктивно использовать эмоции в своем взаимодействии с другими людьми

Эмоциональный интеллект – способность человека распознавать эмоции, понимать намерения, мотивацию и желания других людей и свои собственные, а также способность управлять своими эмоциями и эмоциями других людей в целях решения практических задач.

Сегодня многие компании инвестируют в развитие эмпатии у своих сотрудников. Надо отметить, что это одно из направлений развития, популярное во многих крупных организациях.

В настоящий момент существует разные подходы к определению эмоционального интеллекта.

Еще в 1943 году Дэвид Векслер предложил классическое определение интеллекта как о глобальной способности индивида целенаправленно действовать, рационально мыслить, и взаимодействовать с окружением эффективным образом.
При этом Векслер выделял «интеллектуальные» и «неинтеллектуальные» элементы интеллекта, куда прежде всего он включил социальные, коммуникативные навыки человека.

Первая модель эмоционального интеллекта, была разработана Джоном Майером, Питером Саловеем еще в 80х годах, данная модель определяла эмоциональный интеллект как способность распознавать собственные эмоции, а также эмоции других людей и использовать полученную информацию для принятия решений. Авторы концепции представили эмоциональный интеллект как конструкт, составляющими которого являлись способности 3-х типов:

  • способности к идентификации и выражению эмоций;
  • способности к регуляции эмоций;
  • способности к использованию эмоциональной информации в мышлении и деятельности.

Дэниел Гоулман расширил представления о эмоциональных способностях и в 1995 году написал книгу об эмоциональном интеллекте, ставшую бестселлером. Гоулман выделил 5 основных элементов эмоционального интеллекта:
  • Самосознание – способность называть эмоциональные состояния, способность понимать взаимосвязи между эмоциями, мышлением и действием, способность адекватно оценивать свои сильные и слабые стороны;
  • Саморегуляция/самоконтроль – способность контролировать эмоций, умение изменять нежелательное эмоциональное состояние, способность быстро восстанавливаться после стресса.
  • Мотивация – способность входить в эмоциональные состояния, которые способствуют достижению успеха.
  • Эмпатия – способность понимать эмоции других людей, умение ставить себя на их место.
  • Социальные навыки – способность вступать в межличностные отношения и поддерживать их.
По мнению Д. Гоулмана, в развитии эмоционального интеллекта для лидеров наиболее важными являются самосознание и самоконтроль.
Как развивать?
Этап №1. Осознание своих чувств. Для того, чтобы развивать эмпатию к другим людям, необходимо начинать с себя. Постоянно изучать свои чувства, их причину и динамику развития.

Этап №2. Внимательное наблюдение. В общении с другими людьми старайтесь подмечать самые мелкие детали. Мимика человека, его жесты, тон голоса, реакции, помогут вам определить в каком состоянии он находится и что сейчас чувствует.

Этап №3. Интерпретация. Дальше необходимо интерпретировать чувства и состояния другого человека. Чтобы повысить достоверность, вы можете спрашивать: «Что ты сейчас чувствуешь?» или «Мне кажется, ты сейчас чувствуешь…».

Этап №4. Смотрим на мир глазами другого. Владение эмпатией подразумевает, что вы начинаете смотреть на мир «глазами» другого человека, примеряя на себя его чувства, словно он и есть вы.

Этап №5. Эмоциональное слияние. Во время общения с человеком, вам необходимо эмоционально «слиться» с ним в единое целое.

Важным условием является:

  • Искреннее желание понять и почувствовать другого человека.
  • Внимательно наблюдать за движениями собеседника.
  • Стремиться увидеть ситуацию «его глазами».
  • Избегать оценочного восприятия поведения.
  • Наделять особой ценностью любую информацию, которую вы от него слышите.

Этап № 6. Управление эмпатией. Этот уровень дает возможность стать настоящим профессиональным эмпатом. Обладая эмпатичными способностями, вы не только можете примерять на себя состояние другого, но также что очень важно, контролировать его. Вы можете свободно, как входить в состояние своего собеседника, так и легко выходить из него, эмоционально «не залипая». Для этого необходимо одновременно находиться и в этом слиянии, и наблюдать за собой со стороны.

МОДЕЛЬ ЭМОЦИОНАЛЬНОГО ИНТЕЛЛЕКТА, разработанная в нашем институте, в отличие от других подходов, ставит в фокус внимания только те области развития человека, на которые он может непосредственно влиять: управление собой, своей энергией и личным успехом.

Эмоции или рациональность: в СПбГУ прошла международная конференция по сравнительным медиаисследованиям

На эти и другие вопросы попробовали найти ответ участники Шестой международной конференции Comparative Media Studies in Today’s World, которая прошла под заголовком «Эмоции и рациональность в медиадискуссиях». Мероприятие состоялось при поддержке Фонда имени Фридриха Эберта и Центра изучения Германии и Европы СПбГУ и Билефельдского университета.

Участие в конференции приняли представители Кембриджского университета, Лидского университета, Манчестерского университета, Университета Шеффилда, Кардиффского университета, Университета штата Пенсильвания, Университета Северной Каролины, Свободного университета Берлина, Ольденбургского университета, Университета прикладных наук Гамбурга, Рурского университета, Карлова университета и других вузов Великобритании, США, Германии, Италии, Нидерландов, Китая, Бразилии, Индии, Португалии, Чехии и Хорватии.

Участников мероприятия поприветствовал директор института «Высшая школа журналистики и массовых коммуникаций» СПбГУ профессор Анатолий Пую.

Я благодарен нашим иностранным гостям за то, что они нашли возможность посетить Санкт-Петербургский университет для участия в нашей конференции. СПбГУ является крупным международным центром, объединяющим исследователей из разных стран. Зарубежные коллеги не только сотрудничают с нашими учеными над совместными научными проектами, но и читают лекции для студентов Университета. Такая международная открытость представляет для нас особую ценность.

Директор института «Высшая школа журналистики и массовых коммуникаций» СПбГУ профессор Анатолий Пую

Эмоциализация медиаконтента — следствие развития технологий или политический инструмент?

Ведущим мероприятием конференции стала подиумная дискуссия Comparative Media Studies in Today’s World. Участие в ней приняли известные исследователи медиа из США, Китая, Германии и России: профессор Иллинойсского университета в Чикаго Зизи Папахарисси (Zizi Papacharissi), преподаватель Гонконгского баптистского университета Бесс Ю Ванг (Bess Yue Wang), научный сотрудник Технического университета Дортмунда Каролин Линдекамп (Caroline Lindekamp), а также профессор СПбГУ Дмитрий Гавра. Модератором выступила профессор СПбГУ Светлана Бодрунова.

«Королева Интернета», известный исследователь Всемирной паутины Зизи Папахарисси убеждена: определить, что движет нами в большей степени — эмоции или разум, невозможно, поскольку по своей природе человек и эмоционален, и рационален одновременно. Эмоции, по ее мнению, это мощный инструмент выражения несогласия социальных групп, и многие политики используют его в своих целях.

С ней согласилась Каролин Линдекамп: по мнению эксперта из Германии, открытое выражение эмоций в политическом дискурсе, как правило, говорит о популистской позиции говорящего. Каролин Линдекамп сообщила, что важную роль в формировании общественного мнения играют эмоционально окрашенные слова. Так, слово «кризис», которое некоторые немецкие СМИ употребляли для характеристики ситуации с ростом количества мигрантов, прижилось настолько, что стало общим названием для всего процесса — «кризис беженцев».

Только нейтральность может быть инструментом объективности, считает Бесс Ю Ванг. По ее мнению, термин «эмоциональный интеллект» лучше всего подходит для того, чтобы описать задачу журналиста с точки зрения трансляции эмоций. Бесс Ю Ванг сообщила, что современный Гонконг испытывает двойственное состояние и это находит отражение в СМИ. С точки зрения закона, с недавних времен мегаполис стал территорией Китая.

С другой стороны, Гонконг сохраняет относительную экономическую самостоятельность. Парадоксально, что его жители (в том числе и журналисты) испытывают ностальгию по прошлому, когда фактически Гонконг был колонией Великобритании.

Профессор Светлана Бодрунова обратила внимание участников дискуссии на то, что историческая память все чаще становится предметом эмоциональных политических дискуссий. Исторические события — крайне чувствительная тема для вынесения в общественный дискурс, потому что они относятся к частной истории семей и напрямую связаны с нашей генеалогической памятью. Затрагивание таких личных тем может спровоцировать нарастание напряжения в обществе, поэтому на такие темы в журналистике наложено своеобразное табу, считает Светлана Бодрунова.

Политический консультант, профессор СПбГУ Дмитрий Гавра отметил, что сегодня мы наблюдаем два важных процесса в медиасфере: развитие новых инструментов (новые медиа, социальные сети, big data), что открывает новые возможности для анализа и планирования коммуникации и вместе с тем — повышение эмоционального градуса политических дискуссий в некоторых странах.

Нейрофизиология не может определить, какие части мозга отвечают за эмоциональное обоснование, а какие — за логическое. И в этом смысле наш мозг — это действительно «черный ящик».

Профессор СПбГУ Дмитрий Гавра

Попытка контент-анализа на предмет наличия в тексте эмоций также сталкивается с рядом методологических проблем. Дмитрий Гавра убежден, что наша эмоциональность стала ответом на ускорение мира: становится физически невозможным сформировать рациональную позицию относительно новостей в условиях их стремительного появления и не менее стремительного устаревания.

Одной из ключевых тем дискуссии стала тема стандартов журналисткой работы и их трансформации. Зизи Папахарисси выразила мнение, что мы живем в эпоху отсутствия журналистских стандартов: с распространением Интернета медиахолдинги начали искать новые экономически выгодные модели построения бизнеса — и ответом стала сама архитектура Интернета. Во главу угла поставлена кликабельность (число переходов по сообщению в Интернете), и этому принципу оказалась подчинена не только реклама, но и журналистика. Задача сегодняшнего журналиста, по ее мнению, сделать заголовок статьи таким, чтобы пользователь захотел кликнуть на него. И в этом смысле эмоциональность помогает СМИ сделать свой контент привлекательным для аудитории.

Эксперты подиумной дискуссии также обсудили появление «рыночной журналистики», когда массмедиа вынуждены не формировать повестку дня, а подстраиваться под запросы аудитории, проводя постоянные мониторинги ее интересов и реагируя на запросы как с позиции содержания, так и с точки зрения формы.

Аудитория в состоянии аффекта

Зизи Папахарисси прочла гостевую лекцию для участников конференции, темой которой стал феномен «аффективных сообществ». Эксперт рассказала об исследовании группы ученых из Чикаго (членом которой она являлась), касающегося сообщений в «Твиттере» во время революции в Египте в начале 2011 года и протестного гражданского движения «Захвати Уолл-стрит» (Occupy movement) в сентябре того же года.

Зизи Папахарисси — профессор, руководитель департамента коммуникаций, сотрудник кафедры политологии Иллинойсского университета в Чикаго. Исследователь специализируется на социальных и политических последствиях деятельности онлайн-медиа. Является автором более 60 журнальных статей, множества книг, членом редакционных коллегий 15 журналов. Сотрудничала с Apple, Microsoft, выступала консультантом избирательных кампаний. Читала лекции в университетах в Европе, Азии, Африке и США. Ее работы были переведены на греческий, немецкий, корейский, китайский, венгерский, итальянский, турецкий и персидский языки.

В последнее десятилетие мы становимся свидетелями того, как политические и общественные движения используют цифровые ресурсы для выражения своей точки зрения и вовлекают в протесты пользователей Интернета. Социальные медиа создают ощущение сопричастности к событиям, зачастую обращаясь к чувственному восприятию и формируя впечатление, что человек становится частью развивающейся истории.

В числе причин выбора для анализа именно «Твиттера» ученый указала целый ряд предпосылок. Во-первых, для многих «Твиттер» представляет своеобразную подборку новостей: благодаря короткому формату сообщений пользователь экономит время на чтении. Во-вторых, этот ресурс дает возможность не только получать информацию, но и быстро ее распространять посредством репостов. Именно поэтому для многих молодых и активных людей «Твиттер» стал альтернативным источником информации.

Аффективность, по определению Зизи Папахарисси, — это особое состояние, характеризующееся силой ощущения надвигающихся перемен.

«Аффективное сообщество» — мобилизованная и соединенная посредством Интернета группа, члены которой чувствуют свою идентичность, — складывается вокруг эмоционально напряженных, стремительно развивающихся политических событий. Представители сообществ поддерживают связь между собой, однако не участвуют в коллективных действиях, убеждена Зизи Папахарисси.

Основным способом подачи «аффективных новостей», согласно исследователю, является сторителлинг (организация текста через последовательное повествование). Именно такой нарратив позволяет задать нужный ритм и эмоциональную окраску сообщению, которое мгновенно воспринимается читателем.

Исследование показало, что большинство материалов, которые были посвящены протестам, были аффективно окрашены, то есть создавали у читателя ощущение приближающихся перемен. По сути, аффект — это «вовлеченная пассивность», сформированная готовность и желание изменений.

Зизи Папахарисси отметила, что с этим чувством каждый из нас встречается достаточно часто, но совсем необязательно, что за таким состоянием последуют реальные изменения. Несмотря на то, что состояние аффекта является исключительно личным, внутренним чувством, на его формирование оказывают влияние действия извне — в том числе деятельность журналистов. Когда в действительности перемены не следуют за публикациями, возникает разочарование в обещаниях СМИ и журналисты становятся виновниками.

Пулитцеровская премия и эмоции

Профессор Кардиффского университета Карин Валь-Йоргенсен (Karin Wahl-Jørgensen) поделилась результатами исследования, посвященного изучению эмоциональной составляющей журналистских материалов, удостоенных Пулитцеровской премии в 1995–2017 годах.

Карин Валь-Йоргенсен — профессор, директор отдела исследований по охране окружающей среды Школы медиа, журналистики и культурологии Кардиффского университета. Автор книг, статей и исследований по проблематике развития медиа. Была ведущим британским исследователем в рамках проекта EUROSPHERE Европейской комиссии. С 2012 года является председателем редакционной коллегии баз данных Scopus в области лингвистики, коммуникации и журналистики, а также входит в консультативный совет по выбору контента для Scopus.

В начале своего выступления профессор Карин Валь-Йоргенсен отметила, что сегодня перед исследователями медиа стоит важная задача — понять механизм того, как эмоции из созидательных могут становиться разрушительными. Каждый из нас испытывает огромное количество чувств и страстей, но без контроля над ними общественная жизнь невозможна — в этом Карин Валь-Йоргенсен солидарна с Гоббсом, Руссо, Миллем и Кантом.

Журналисты в этом аспекте играют особую роль. Так, стандарты так называемой островной журналистской традиции Великобритании и США предполагают максимальную объективность автора, полный отказ от эмоций и обращение только к надежным источникам. Тем не менее главной задачей многих публицистических жанров является выражение общественного негодования. К их числу спикер отнесла журналистские расследования.

Анализ лучших, по признанию профессионального сообщества, публикаций показал, что все они напрямую связаны с эмоциональностью. Однако журналист в них выступает не как транслятор собственных чувств, а как выразитель эмоций других людей — как индивидов, так и социальных групп. Таким образом, эмоциональный компонент становится неявным, скрытым в тексте. Такое явление Карин Валь-Йоргенсен назвала «аутсорсингом эмоционального труда». Рассказать историю не только с помощью речевых средств, но и визуального ряда помогают мультимедийные форматы, которые все чаще используются в журналистской практике.

Для журналиста эта миссия представляет особую задачу, которая переходит из области исключительно профессиональных компетенций в личностную сферу. Журналист должен уметь понять эмоциональное состояние собеседника и объективно о нем рассказать, а этот навык, в свою очередь, заставляет его самого испытывать серьезные психологические нагрузки.

Как прочитать чужие мысли? Загляните в глаза

  • Мо Костанди
  • BBC Future

Автор фото, Thinkstock

Обратите внимание на движения глаз, и вы сможете выяснить, что происходит в голове собеседника, утверждает корреспондент BBC Future.

Говорят, глаза – зеркало души. Они выдают глубинные эмоции, которые мы, возможно, не хотели бы афишировать. Хотя современная наука отрицает наличие у человека души, зерно истины в этой старой поговорке есть – даже по мнению ученых. Оказывается, глаза не только отражают происходящее в нашем мозгу, но и могут влиять на то, как мы запоминаем информацию и принимаем решения.

Наши глаза постоянно двигаются. Некоторые из этих движений мы сознательно контролируем, но многие из них происходят подсознательно. Например, во время чтения происходит их быстрое скачкообразное движение: наш взгляд стремительно передвигается, останавливаясь на каждом из слов. Аналогично глаза двигаются, когда мы заходим в комнату – на этот раз движение более широкое, позволяющее осмотреться вокруг. Во время ходьбы наши глаза совершают мелкие непроизвольные движения, чтобы компенсировать таким образом движение головы и стабилизировать нашу картину мира. Ну и, конечно, стремительное движение глазных яблок характерно для так называемой фазы быстрого сна.

А еще движения глаз могут порой сообщать окружающим, о чем мы думаем.

Автор фото, Thinkstock

Подпись к фото,

Расширенные зрачки говорят о неопределенности в принятии решения

Согласно исследованию, опубликованному в прошлом году, расширение зрачков связано с тем, насколько мы уверены в принимаемом нами решении. Если человек не ощущает полной решимости, он находится в состоянии эмоционального возбуждения, в результате чего его зрачки расширяются.

Уловив такую перемену, мы способны в некоторых случаях предсказать, что скажет человек, принимающий решение. Как установила одна группа исследователей, если наблюдать за степенью расширения зрачков, можно угадать, когда осторожный человек, не привыкший соглашаться на предлагаемые ему варианты, все же решится сказать «да».

Обратив внимание на движения глаз, мы даже можем с некоторой степенью вероятности предсказать, какое число задумал человек. Тобайас Лётшер и его коллеги из Цюрихского университета набрали 12 добровольцев, попросили их прочитать вслух список из 40 чисел и проследили, как двигались их глаза в это время.

Ученые выявили точное соответствие между направлением движения глаз испытуемых, углом поворота зрачков и тем, больше или меньше предыдущего было число, которое испытуемые собирались произнести. Кроме того, можно было предсказать, насколько больше или меньше было это число.

Автор фото, Thinkstock

Подпись к фото,

Какое число я загадал?

Автор фото, Thinkstock

Подпись к фото,

…большое, ведь я смотрю вверх и направо

Перед тем, как прочитать большее число, взгляд каждого участника эксперимента обращался вверх и вправо; если же число было меньше, то человек смотрел вниз и налево. Чем сильнее зрачки поворачивались в сторону, тем больше была разница между числами.

Получается, мы так или иначе связываем абстрактные образы чисел в нашем мозгу с передвижением в пространстве. Однако из этого исследования не стало яснее, что происходит сначала: либо мы думаем об определенном числе и в соответствии с этим двигаются наши глаза, либо же положение глаз сказывается на нашей умственной активности.

В 2013 году шведские ученые опубликовали данные, согласно которым скорее верно второе: похоже, что движения глаз помогают извлечь из памяти необходимую информацию.

Они привлекли к участию к эксперименте более двух десятков студентов и попросили их тщательно рассмотреть серию предметов, которые им демонстрировали в одном углу компьютерного экрана. Затем испытуемых попросили прослушать ряд утверждений о некоторых из виденных ими предметах (например, «Машина была развернута налево») и обозначить как можно быстрее, правдиво или ложно каждое из утверждений. Некоторым участникам разрешили смотреть туда, куда им захочется, других же попросили задержать взгляд на крестике в центре экрана, либо в том углу, где они видели искомый предмет.

Автор фото, Thinkstock

Подпись к фото,

Определенные движения глаз способствуют вспоминанию

Как выяснили исследователи, те испытуемые, чьи глаза спонтанно двигались во время эксперимента, продемонстрировали существенно лучшие результаты, чем те, кто смотрел на крестик. Интересно вот что: смотревшие на угол, где они ранее видели предмет, лучше справились с задачей, чем смотревшие на другой угол. Чем больше было совпадение между движениями глаз участников во время кодирования информации и во время извлечения этой информации, тем проще им было описать предметы. Возможно, дело в том, что движения глаз помогают нам вспомнить взаимное расположение предметов в пространстве на момент кодирования (то есть обработки информации).

Эти движения могут происходить подсознательно. «Когда человек сталкивается со знакомым местом или ситуацией, его взгляд часто обращается к информации, которую он уже видел, даже если он сознательно не помнит об увиденном ранее», — говорит Роджер Йоханссон, психолог из Лундского университета, руководивший исследованием.

Визуальный контроль

Наблюдая за движениями глаз, можно также повлиять на решения, принимаемые человеком. Как показало недавнее исследование, слежение за направлением взгляда может быть использовано для воздействия на наш моральный выбор – нравится это нам или нет.

Исследователи задали участникам эксперимента сложные нравственные вопросы (например, «Может ли убийство быть оправданным?») и затем показали им на компьютерном экране варианты ответа («иногда может» или «никогда не может»). Отследив движения глаз испытуемого и убрав с экрана варианты ответа после того, как участник определенное время смотрел на один из них, ученые выяснили, что в результате он склоняется именно к этому варианту.

«Мы не предоставляли им никакой другой информации, — говорит нейробиолог Дэниел Ричардсон из Университетского колледжа Лондона, основной автор исследования. — Мы просто наблюдали, как происходит процесс принятия ими решений, и прерывали его в нужный момент. Мы заставляли их переменить мнение, просто контролируя момент принятия решения».

Автор фото, Thinkstock

Подпись к фото,

Чтобы проникнуть внутрь чужой головы, не нужно делать рентгеновский снимок

Как отмечает Ричардсон, успешные продавцы, вероятно, имеют об этом какое-то представление и используют подобную тактику, чтобы лучше убеждать клиентов. «Мы считаем, что люди, обладающие даром убеждения, хорошо говорят, но, возможно, они также следят за процессом принятия решения, — говорит он. — Может быть, хорошие продавцы способны поймать момент, когда вы склоняетесь к определенному выбору, и предложить вам скидку или же преподнести товар с новой стороны».

Существует множество приложений для смартфонов и других мобильных устройств, отслеживающих движение глаз. Можно ли использовать их, чтобы дистанционно влиять на процесс принятия решений пользователями устройств? «Подобные приложения могут подтолкнуть вас к определенному выбору во время онлайн-шоппинга, предложив вам, например, бесплатную доставку в тот момент, когда вы переведете свой взгляд на тот или иной товар», — предполагает нейробиолог.

Получается, движения глаз могут одновременно отражать высшие психические функции (такие как память и принятие решений) и влиять на них, а также выдавать наши мысли, убеждения и желания. Подобное знание может помочь при совершенствовании наших психических функций, однако оно же может стать орудием для изощренных манипуляций.

«Глаза – это своеобразное окно, через которое можно увидеть наши мыслительные процессы; мы просто не осознаем, как много информации они могут сообщить, — говорит Дэниел Ричардсон. — Наблюдая за глазами, можно порой узнать вещи, которые человек предпочел бы оставить при себе – например, тщательно скрываемые расовые предубеждения».

«Приложения, отслеживающие движения глаз, пригодятся, скажем, в рамках технологии, выясняющей, какая функция телефона вам нужна, и запускающей ее, — добавляет ученый. — Но если их не выключать, они могут быть использованы для отслеживания чего угодно. Так о вас станет известно гораздо больше, и вы, сами того не осознавая, будете делиться своими мыслями с другими людьми».

Открытое образование — Эмоциональный интеллект

  • Russian
  • 10 weeks
  • от 1 до 2 часов в неделю
  • 2 credit points

Курс предполагает изучение основ эмоционального интеллекта: понимание техник для управления своими эмоциями, влияния на эмоций других, профилактики и преодоления стресса и эмоционального выгорания. Курс разработан НИТУ «МИСиС».

About

Основными задачами данного курса являются:

  1. Изучение структуры эмоционального интеллекта, особенностей и закономерностей понимания и управления эмоциями

  2. Формирование у слушателей общей коммуникативной компетенции

  3. Овладение классическим техникам, применяемых в сферах личной жизни и в бизнесе

  4. Анализ и самодиагностика личных индивидуальных особенностей в управлении эмоциями и их учет для увеличения эффективности деятельности 

  5. Изучение инструментов для понимания и управления своими эмоциями в различных рабочих и личных ситуациях

  6. Формирование навыков влияния на эмоции других

  7. Изучение способов профилактики и выхода из эмоционального выгорания

Format

В состав курса входят видео-лекции продолжительностью 8-15 минут, материалы для самостоятельного изучения пользователями, анимационные ролики с инфографикой.

Разделы курса завершаются тестами на понимание материала (10-15 вопросов с единичным или множественным выбором).

Information resources

  1. Голви, Т. Стресс как внутренняя игра: как преодолеть жизненные трудности и реализовать свой потенциал / Т. Голви. — Москва : Манн, Иванов и Фербер, 2019

  2. Гоулман, Д. Эмоциональный интеллект: почему он может значить больше, чем IQ / Д. Гоулман. — Москва : Манн, Иванов и Фербер, 2013

  3. Дуэк, К. Гибкое сознание / К. Дуэк. — Москва : Манн, Иванов и Фербер, 2013

  4. Дэвид, С. Эмоциональная гибкость / С. Дэвид. —  Москва : Манн, Иванов и Фербер, 2017

  5. Карузо, Д. Эмоциональный интеллект руководителя: как развивать и применять / Д. Карузо, П. Сэловей. — Санкт-Петербург : Питер, 2017

  6. Рок, Д. Мозг. Инструкция по применению / Д. Рок. — Москва : Альпина Паблишер, 2019

  7. Селигман, М. Как научиться оптимизму / М. Селигман. — Москва : Альпина Паблишер, 2017

  8. Сенн, Л. Лифт настроения / Л.Сенн. — Москва :  Манн, Иванов и Фербер, 2018

  9. Шабанов, С., Алешина Э. Эмоциональный интеллект: российская практика / С. Шабанов, Э. Алешина. — Москва :  Манн, Иванов и Фербер, 2014

Requirements

Курс рассчитан на широкий круг участников, специальная подготовка не нужна

Course program

Структура курса: Курс состоит из 10 недель и 5 разделов

Раздел 1. Что такое эмоциональный интеллект

Неделя 1

  1. Интро

  2. Что такое эмоциональный интеллект и для чего он нужен

  3. Мифы об ЭИ

  4. Эмоции — друзья или враги?

Неделя 2

5. Идентификация эмоций. Типы эмоций

6. Идентификация эмоций. Личные эмоции

7. Идентификация эмоций. Чужие эмоции

8. Использование эмоций для личной эффективности

9. Управление своими эмоциями

10. Управление чужими эмоциями

Раздел 2. Управление своими эмоциями

Неделя 3

  1. Три установки, которые мешают управлять своими эмоциями

  2. Метод управления эмоциями — через тело

  3. Метод управления эмоциями — мыслительные методы

  4. Метод управления эмоциями — рефрейминг

Неделя 4

5. Метод управления эмоциями ABC

6. Как войти в нужное эмоциональное состояние — два метода

7. Ментальные привычки для управления своим эмоциональным состоянием

Раздел 3. Управление чужими эмоциями

Неделя 5

  1. Принципы и ошибки в управлении эмоциями других

  2. Методы управления раздражением и гневом собеседника

  3. Управление тревогой и разочарованием собеседника

Неделя 6

4. Техника «заражения эмоциями»

5. Техника поддержания положительного баланса на «эмоциональном счету»

Раздел 4. Позитивная психология

Неделя 7

  1. Отличия оптимистов от пессимистов и преимущества оптимизма

  2. Установки оптимистов и пессимистов

  3. Как развить оптимизм: внутренний спор

Неделя 8

4. Оптимизм на работе: развитие команды

5. Как помочь развить оптимизм ребенку: три ошибки

6. Оптимистичные ритуалы: оптимизм меняет судьбу

Раздел 5. Стресс и выгорание

Неделя 9

  1. Ключевая причина стресса и болезней от него

  2. Три стратегии преодоления негативных последствий стресса

  3. Стресс от многозадачности — приемы

Неделя 10

4. Выгорание — определение, причины, самодиагностика

5. Преодоление и профилактика выгорания

Education results

В результате освоения курса у обучающихся формируются следующие компетенции:

Formed competencies

Курс направлен на формирование универсальных компетенций:

УК-1 — Способность использовать различные методы эффективного общения, формулировать выводы, используя знания и обоснования, в профессиональной сфере;   работать в национальной и международной команде в качестве члена или руководителя команды

УК-9 — Способен критически оценивать и переосмыслять накопленный опыт (собственный и чужой), рефлектировать профессиональную и социальную деятельность

Курс направлен на формирование профессиональных компетенций:

ПК-8 — Анализировать и проектировать межличностные, групповые и организационные коммуникации

Что такое эффективные вычисления? | OpenMind

Аффективные вычисления — это исследование и разработка систем и устройств, которые могут распознавать, интерпретировать, обрабатывать и моделировать человеческие аффекты. Это междисциплинарная область, охватывающая информатику, психологию и когнитивную науку. В то время как истоки этой области можно проследить еще до ранних философских исследований эмоций («аффект», по сути, является синонимом «эмоции»), более современная отрасль информатики возникла с Розалинды Пикард. Статья 1995 года по аффективным вычислениям .Мотивацией для исследования является способность имитировать эмпатию . Машина должна интерпретировать эмоциональное состояние людей и адаптировать к ним свое поведение, давая соответствующий ответ на эти эмоции.

Эффективные вычислительные технологии определяют эмоциональное состояние пользователя (с помощью датчиков, микрофона, камер и / или программной логики) и реагируют, выполняя определенные, предварительно определенные функции продукта / услуги, такие как изменение викторины или рекомендации набора видео для соответствовать настроению учащегося.

Чем больше компьютеров в нашей жизни, тем больше мы хотим, чтобы они вели себя вежливо и были социально разумными. Мы не хотим, чтобы он беспокоил нас неважной информацией. Такой вид здравого смысла требует понимания эмоционального состояния человека .

Авторские права: Vladystock

Один из способов взглянуть на аффективные вычисления — это взаимодействие человека с компьютером , при котором устройство способно обнаруживать эмоции и другие стимулы своего пользователя и соответствующим образом реагировать на них.Вычислительное устройство с такой способностью могло бы собирать подсказки об эмоциях пользователя из множества источников. Выражение лица, поза, жесты, речь, сила или ритм нажатия клавиш и изменения температуры руки на мышке могут означать изменения в эмоциональном состоянии пользователя, и все это может быть обнаружено и интерпретировано компьютером. Встроенная камера фиксирует изображения пользователя, и для обработки данных используются алгоритмы, позволяющие получить значимую информацию. Распознавание речи и распознавание жестов — среди других технологий, которые исследуются для эффективных вычислительных приложений.

Распознавание эмоциональной информации требует извлечения значимых закономерностей из собранных данных. Это выполняется с использованием методов машинного обучения , которые обрабатывают различные методы, такие как распознавание речи, обработка естественного языка или определение выражения лица.

Эмоции в машинах

Основная область аффективных вычислений — это разработка вычислительных устройств, которые, как предполагается, демонстрируют либо врожденные эмоциональные способности, либо способные убедительно моделировать эмоции.Более практичный подход, основанный на современных технологических возможностях, — моделирование эмоций в разговорных агентах с целью обогащения и облегчения взаимодействия между человеком и машиной. В то время как человеческие эмоции часто связаны с выбросами гормонов и других нейропептидов, эмоции в машинах могут быть связаны с абстрактными состояниями, связанными с прогрессом (или отсутствием прогресса) в автономных обучающих системах. кривая обучения произвольной обучающей системе. Две основные категории, описывающие эмоции в машинах: Эмоциональная речь и Обнаружение аффекта лица .

Эмоциональная речь включает: алгоритмов, баз данных и речевых дескрипторов.

Обнаружение аффекта лица включает: Жесты тела и физиологический мониторинг.

Будущее

Affective computing пытается устранить один из основных недостатков онлайн-обучения по сравнению с обучением в классе _ способность учителя немедленно адаптировать педагогическую ситуацию к эмоциональному состоянию ученика в классе.В приложениях электронного обучения аффективные вычисления могут использоваться для настройки стиля презентации компьютеризированного репетитора, когда учащемуся скучно, интересно, расстроено или приятно. Психологические услуги , то есть консультирование, получают выгоду от аффективных компьютерных приложений при определении эмоционального состояния клиента.

Роботизированные системы , способные обрабатывать важную информацию, демонстрируют более высокую гибкость при работе в неопределенных или сложных условиях.Устройства-компаньоны, такие как цифровые домашние животные, используют эффективные вычислительные возможности для повышения реализма и обеспечения большей степени автономности.

Другие потенциальные приложения сосредоточены вокруг Social Monitoring . Например, автомобиль может отслеживать эмоции всех пассажиров и принимать дополнительные меры безопасности, например предупреждать другие автомобили, если обнаруживает, что водитель рассердился. У эффективных вычислений есть потенциальные приложения во взаимодействии человека с компьютером, такие как аффективные зеркала, позволяющие пользователю видеть, как он или она работает; агенты мониторинга эмоций, отправляющие предупреждение перед отправкой гневного электронного письма; или даже музыкальные плееры, выбирающие треки по настроению.Тогда компании смогут использовать аффективные вычисления, чтобы сделать вывод о том, будут ли их продукты хорошо восприняты на соответствующем рынке.

Существует бесконечное множество приложений для эффективных вычислений во всех сферах жизни.

Ахмед Банафа

IoT Expert | Факультет | Автор | Спикер

Этот текст можно найти в профиле Ахмеда Банфы на LinkedIn

Артикул:

https://en.wikipedia.org/wiki/Affective_computing

http: // www.gartner.com/it-glossary/affective-computing

http://whatis.techtarget.com/definition/affective-computing

http://curiosity.discovery.com/question/what-is-affective-computing

13 неожиданных применений технологии Emotion AI

Ознакомьтесь с этими 13 способами, с помощью которых искусственный интеллект эмоций помогает компаниям улучшить качество обслуживания клиентов и сэкономить средства.

Концепция эмоционального искусственного интеллекта или «эмоционального ИИ» вызывает в воображении образы человекоподобных роботов, выполняющих функции обслуживания клиентов, таких как реалистичный «администратор», приветствующий гостей в токийском отеле.Ряд компаний добавили распознавание эмоций к своим роботам-личным помощникам, чтобы они тоже могли взаимодействовать друг с другом, как люди.

Но гуманоидная робототехника — лишь одно из многих возможных применений технологии эмоционального ИИ, говорит Аннет Циммерманн, вице-президент Gartner по исследованиям.

К 2022 году 10% персональных устройств будут иметь возможности ИИ для обработки эмоций

Технологические гиганты, а также небольшие стартапы уже более десяти лет инвестируют в эмоциональный ИИ, используя компьютерное зрение или голосовой анализ для распознавания человеческих эмоций.Многие из этих компаний начали с исследования рынка, анализа и фиксации человеческих эмоций в ответ на продукт или телерекламу. Коммерческие развертывания постепенно появляются в виртуальных персональных помощниках (VPA), автомобилях, центрах обработки вызовов, робототехнике и интеллектуальных устройствах.

Gartner прогнозирует, что к 2022 году 10% персональных устройств будут иметь возможности искусственного интеллекта эмоций, будь то на устройстве или через облачные сервисы, по сравнению с менее чем 1% в 2018 году.

Подробнее: Emotion AI персонализирует взаимодействия

«В наступающем году мы продолжим находить много новых интересных применений для технологии эмоционального ИИ», — говорит Циммерманн.«Тем не менее, более мелкие провайдеры должны будут сосредоточить свои усилия на ограниченном количестве приложений и отраслей, вместо того, чтобы пытаться быть всем для всех».

Дорожная карта ИТ для кибербезопасности

Лучшие практики для создания отказоустойчивой, масштабируемой и гибкой стратегии кибербезопасности.

Скачать дорожную карту

Новые области применения быстро развиваются

За последние два года поставщики эмоционального ИИ перешли в совершенно новые области и отрасли, помогая организациям улучшить качество обслуживания клиентов и добиться реальной экономии средств.Эти виды использования включают:

  1. Видеоигры. Используя компьютерное зрение, игровая консоль / видеоигра обнаруживает эмоции по выражению лица во время игры и адаптируется к ним.
  2. Медицинский диагноз . Программное обеспечение может помочь врачам в диагностике таких заболеваний, как депрессия и слабоумие, с помощью анализа голоса.
  3. Образование. Прототипы обучающего программного обеспечения были разработаны для адаптации к эмоциям детей. Когда ребенок расстраивается из-за того, что задача слишком сложна или слишком проста, программа адаптирует задачу так, чтобы она становилась менее или более сложной.Другая система обучения помогает аутичным детям распознавать эмоции других людей.
  4. Безопасность сотрудников. Согласно запросам клиентов Gartner, растет спрос на решения для обеспечения безопасности сотрудников. Emotion AI может помочь проанализировать уровень стресса и беспокойства сотрудников, выполняющих очень требовательную работу, например, службы экстренного реагирования.
  5. Уход за пациентами. «Медсестра-бот» не только напоминает пожилым пациентам, участвующим в долгосрочных медицинских программах, о необходимости принимать лекарства, но и разговаривает с ними каждый день, чтобы следить за их общим самочувствием.
  6. Автомобильная безопасность. Поставщики автомобилей могут использовать технологии компьютерного зрения для отслеживания эмоционального состояния водителя. Сильное эмоциональное состояние или сонливость могут вызвать тревогу у водителя.
  7. Автономный автомобиль. В будущем интерьер автономных автомобилей будет иметь множество датчиков, включая камеры и микрофоны, чтобы отслеживать происходящее и понимать, как пользователи видят впечатления от вождения.
  8. Обнаружение мошенничества. Страховые компании используют голосовой анализ, чтобы определить, говорит ли клиент правду при подаче претензии.Согласно независимым опросам, до 30% пользователей признались, что лгали своей страховой компании, чтобы получить страховое покрытие.
  9. Рекрутинг. Программное обеспечение используется во время собеседований, чтобы понять, насколько кандидат заслуживает доверия.
  10. Интеллектуальная маршрутизация call-центра. Рассерженного покупателя можно обнаружить с самого начала и направить к хорошо обученному агенту, который также может в режиме реального времени следить за ходом разговора и корректировать его.
  11. Подключенный дом. Спикер с поддержкой VPA может распознавать настроение человека, с которым он взаимодействует, и реагировать соответствующим образом.
  12. Государственная служба. Возникли партнерские отношения между поставщиками технологий эмоционального искусственного интеллекта и поставщиками камер наблюдения. Камеры в общественных местах в Объединенных Арабских Эмиратах могут определять выражения лиц людей и, следовательно, понимать общее настроение населения. Этот проект был инициирован Министерством счастья страны.
  13. Розничная торговля. Розничные продавцы начали изучать возможность установки в магазинах технологии искусственного интеллекта и эмоций компьютерного зрения для сбора демографической информации, а также настроения и реакции посетителей.

Однако препятствия на пути к усыновлению остаются. Недавний опрос потребителей Gartner показал, что все еще существуют серьезные проблемы с доверием к технологиям эмоционального ИИ; То есть пользователи чувствуют себя менее комфортно с ИИ эмоций с помощью захвата камеры, чем с анализом голоса.

«Провайдеры должны убедить нас, что наши данные об эмоциях защищены и используются только анонимно для обучения других систем путем внедрения прозрачных политик управления данными», — предупреждает Циммерман.

Обещания и доверие во взаимодействии человека и робота

% PDF-1.6 % 1 0 объект > эндобдж 2 0 obj > поток 2021-04-30T13: 49: 34 + 05: 30Springer2021-04-30T17: 25: 47 + 02: 002021-04-30T17: 25: 47 + 02: 00application / pdfhttps: //doi.org/10.1038/s41598- 021-88622-9

  • Nature Publishing Group UK
  • Scientific Reports, https://doi.org/10.1038/s41598-021-88622-9
  • Обещания и вера во взаимодействие человека и робота
  • Лоренцо Коминелли
  • Франческо Фери
  • Роберто Гарофало
  • Катерина Джаннетти
  • Мигель А.Мелендес-Хименес
  • Альберто Греко
  • Мимма Нарделли
  • Энцо Паскуале Скилинго
  • Оливер Кирчкамп
  • 10.1038 / s41598-021-88622-92010-04-23true
  • springer.com
  • springerlink.com
  • https://doi.org/10.1038/s41598-021-88622-910.1038/s41598-021-88622-92045-2322journalНаучные отчетыАвтор (ы) 2010-04-23true10.1038 / s41598-021-88622-9noindex
  • springer.com
  • springerlink.com
  • VoRuuid: b6a7ce90-52f2-4d0b-b492-fd2ae0f707cbuuid: 87c39303-a151-49cf-afb0-0736fa4c7f63default1
  • преобразованный 30
  • convertuuid: 2f3e8987-1b42-4634-b8f5-a3329454ef6econverted to PDF / A-2bpdfToolbox2021-04-30T13: 51: 38 + 05: 30
  • Adobe PDF Library 15.0; изменено с помощью iText® 5.3.5 © 2000-2012 1T3XT BVBA (SPRINGER SBM; лицензионная версия) 2B
  • http: // ns.adobe.com/pdfx/1.3/pdfxAdobe Document Info PDF eXtension Schema
  • externalMirrors crossmark: MajorVersionDateCrossmarkMajorVersionDateText
  • externalMirrors crossmark: CrossmarkDomainExclusiveCrossmarkDomainExclusiveText
  • Крест
  • внутренних зеркал: DOIdoiText
  • externalMirrors crossmark: CrosMarkDomainsCrossMarkDomainsseq Text
  • internal — объект имени, указывающий, был ли документ изменен с целью включения информации о перехвате; текст
  • .
  • внутренний идентификатор стандарта PDF / X GTS_PDFXVersionText
  • внутренний Уровень соответствия стандарту PDF / X GTS_PDFX Текст соответствия
  • internal Компания, создающая PDFCompanyText
  • internal Дата последнего изменения документа SourceModifiedText
  • http: // crossref.org / crossmark / 1.0 / crossmarkCrossmark Schema
  • internal Обычно то же, что и prism: doiDOIText
  • external — Дата публикации публикации.
  • internalCrossmarkDomainExclusiveCrossmarkDomainExclusiveText
  • internalCrossMarkDomainsCrossMarkDomainsseq Текст
  • http://prismstandard.org/namespaces/basic/2.0/prismPrism Schema
  • externalЭтот элемент предоставляет URL-адрес статьи или единицы контента.Платформа атрибутов необязательно разрешена для ситуаций, в которых необходимо указать несколько URL-адресов. PRISM рекомендует использовать вместе с этим элементом подмножество значений платформы PCV, а именно «мобильный» и «Интернет». ПРИМЕЧАНИЕ. PRISM не рекомендует использовать значение #other, разрешенное в управляемом словаре платформы PRISM. Вместо использования #other обратитесь к группе PRISM по адресу [email protected], чтобы запросить добавление вашего термина в словарь, контролируемый платформой.urlURI
  • external — цифровой идентификатор объекта для статьи. DOI также может использоваться как идентификатор dc :. Если используется в качестве идентификатора dc: identifier, форма URI должна быть захвачена, а пустой идентификатор также должен быть захвачен с помощью prism: doi. Если в качестве требуемого идентификатора dc: identifier используется альтернативный уникальный идентификатор, то DOI следует указывать как чистый идентификатор только в пределах prism: doi. Если URL-адрес, связанный с DOI, должен быть указан, тогда prism: url может использоваться вместе с prism: doi для предоставления конечной точки службы (т.е.е. URL-адрес). doiText
  • externalISSN для электронной версии проблемы, в которой встречается ресурс. Разрешает издателям включать второй ISSN, идентифицирующий электронную версию проблемы, в которой возникает ресурс (следовательно, e (lectronic) Issn. Если используется, prism: eIssn ДОЛЖЕН содержать ISSN электронной версии .issnText
  • внутренний Номер тома Объем Текст
  • внутренний Номер выпуска Номер Текст
  • internalStarting pagestartingPageText
  • internalEnding pageendingPageText
  • external Тип агрегирования указывает единицу агрегирования для коллекции контента.Комментарий PRISM рекомендует использовать словарь с контролируемым типом агрегирования PRISM для предоставления значений для этого элемента. Примечание: PRISM не рекомендует использовать значение #other, разрешенное в настоящее время в этом контролируемом словаре. Вместо использования #other обратитесь к группе PRISM по адресу [email protected], чтобы запросить добавление вашего термина в словарь с контролируемым типом агрегирования. aggregationTypeText
  • external Название журнала или другого издания, в котором был / будет опубликован ресурс.Обычно это используется для предоставления названия журнала, в котором появилась статья, в качестве метаданных для статьи, а также такой информации, как название статьи, издатель, том, номер и дата обложки. Примечание. По названию публикации можно различать печатный журнал и онлайн-версию, если названия различаются, например, «magazine» и «magazine.com». PublishingNameText
  • external Авторские права Авторские права Текст
  • http: // ns.adobe.com/pdf/1.3/pdf Adobe PDF Schema
  • internal Объект имени, указывающий, был ли документ изменен для включения информации о треппинге TrappedText
  • http://ns.adobe.com/xap/1.0/mm/xmpMMXMP Схема управления носителями
  • Внутренний идентификатор на основе UUID для конкретного воплощения документа InstanceIDURI
  • внутренний — Общий идентификатор для всех версий и представлений документа.
  • внутренний — Общий идентификатор для всех версий и представлений документа.Оригинальный документ IDURI
  • http://www.aiim.org/pdfa/ns/id/pdfaidPDF/A ID Schema
  • internalPart of PDF / A standardpartInteger
  • внутренняя Поправка к стандарту PDF / A amdText
  • внутренний Уровень соответствия стандарту PDF / A Текст
  • http://www.niso.org/schemas/jav/1.0/javNISO
  • external Значения для версии статьи журнала могут быть одним из следующих: AO = Авторский оригинал SMUR = Представленная рукопись на рассмотрении AM = принятая рукопись P = Доказательство VoR = версия записи CVoR = Исправленная версия записи EVoR = Расширенная версия Recordjournal_article_versionClosed Выбор текста
  • конечный поток эндобдж 3 0 obj

    Технологии и сочувствие в эпоху COVID-19

    В недавней заметке CGD «Сочувствие и отношения с клиентами в финансировании развития» мы подчеркнули важность того, чтобы финансовые учреждения развития (ИФР) инвестировали в личные контакты и диалог. со своими клиентами, чтобы построить чуткие отношения, необходимые для достижения результатов в области развития.Но в эпоху COVID-19 мы преувеличивали наши аргументы? Могут ли УФР вести бизнес по финансированию развития, не выходя из дома, не летая на развивающиеся рынки, не встречаясь с клиентами лицом к лицу? Что наш опыт удаленной работы научил нас влиянию замены личного общения на взаимодействие, отфильтрованное с помощью технологий?

    Личное мнение: переход на удаленную работу в качестве президента ЕБРР

    В последние месяцы моей работы (Сума Чакрабарти) в качестве президента Европейского банка реконструкции и развития (ЕБРР), с середины марта до начала июля 2020 года, это то, что мне пришлось сделать, поскольку пандемия COVID-19 привела к блокировкам в Великобритании. , где находится штаб-квартира ЕБРР, и в странах операций ЕБРР.Изучая мой дом в Оксфорде, видеосвязь стала моим способом взаимодействия во всех сферах моей работы: встречи с президентами и премьер-министрами по вопросам реагирования ЕБРР на пандемию и необходимости дальнейшей реформы политики в их странах; вместе с моими коллегами по менеджменту принимать решения на уровне руководства, касающиеся как кризиса, так и обычного ведения бизнеса; измерение температуры с персоналом в мэрии; председательствует в совете акционеров; посещение международных «собраний»; выступление с речами; и давать интервью средствам массовой информации.

    Я обнаружил, что могу достаточно хорошо выполнять свою роль, работая удаленно. Точно так же мои коллеги из ЕБРР могли бы быть эффективными и достичь рекордного уровня кредитования в первой половине этого года (более 5 миллиардов евро), когда сотрудники в основном работали из дома.

    Этот опыт поставил под сомнение мои предположения. Я начал задаваться вопросом, могут ли DFI постоянно реинжиниринг своей бизнес-модели, чтобы удаленная работа стала способом работы по умолчанию. Думайте о финансовой экономии, поскольку дорогие и большие офисы больше не требуются.И подумайте об экономии выбросов углерода, поскольку ПИИ выходят на развивающийся рынок с помощью видео, а не самолетом.

    Мир изменился, и после блокировки нам следует ожидать большего гибрида в способах работы УФР: дома, в офисе и в странах, которые мы поддерживаем. Но изменилось ли это так сильно, что DFI могут быть столь же эффективными в своей работе по максимизации воздействия на развитие, работая только из дома? Возможно нет.

    Я мог быть достаточно эффективным в роли президента ЕБРР только в этот период удаленной работы, потому что он пришел к концу моего восьмилетнего пребывания в должности, в течение которого я наладил чуткие отношения как с руководством, так и с персоналом организации и с политическим руководством стран операций ЕБРР.Короче говоря, в условиях изоляции я смог использовать уже сделанные вложения в построение чутких отношений с руководителями стран операций ЕБРР, с моими коллегами по руководству и с персоналом в целом. Точно так же сотрудники ЕБРР были эффективны в этот период благодаря инвестициям в сочувствие, которые уже были вложены в их отношения с существующими клиентами. Они могли позвонить своим клиентам из частного сектора, муниципальным и государственным учреждениям и обсудить чрезвычайные потребности в ликвидности и связанные с ними кредитные соглашения.

    Почему только «достаточно эффективно»? Потому что сочувствие тоже развивается в данный момент. На экране мне было намного труднее читать язык тела моих собеседников и вынести нюансы и ход разговора за рамки сценария.

    Технологии и сочувствие: что показывают исследования?

    Исследования показывают, что при онлайн-общении, например, при работе из дома, эмпатия действительно часто оказывается под угрозой. Способность вызывать чуткий ответ требует понимания точек зрения, эмоционального состояния и невербальных сигналов других.Исследования подтверждают то, что многие из нас обнаружили в это время онлайн-встреч: труднее читать социальные сигналы во время видеозвонков — это широко распространенный опыт видео- и текстового общения, приводящий к нарушению способностей к сочувствию. Качественные исследования также показывают, что продолжительное время в сети может ограничивать нашу концентрацию внимания и вызывать блуждание ума, что опять же ставит под угрозу эмпатические способности и способность обращать внимание, слушать и понимать других. В целом исследования показывают отрицательную взаимосвязь между технологиями и использованием средств массовой информации, а также сочувствием.

    Сочувствие также влияет на эмоциональное заражение, или автоматический и универсальный эмоциональный процесс, когда эмоции передаются вербальным и невербальным поведением и выражениями между одним человеком и другим. Факты в значительной степени показали, что распространение как положительных, так и отрицательных эмоций может иметь положительные эффекты: положительные эмоции могут способствовать творческому решению проблем, эффективности принятия решений, а также тщательности и усилиям в интересных или приятных задачах, в то время как отрицательные эмоции отговаривают людей отвлекаться. побудите их больше участвовать в разработке своего сообщения и мотивируйте их изменить ситуацию или настроение к лучшему.В текстовом общении отсутствуют многие механизмы, необходимые для эмоционального заражения. В то время как видеосвязь дает более полный опыт, при звонках меньше возможностей для быстрого сопоставления эмоциональных реакций и имитации положения тела.

    После того, как ураган «Сэнди» обрушился на восточное побережье США в октябре 2012 года и вывести из строя большую часть коммуникационной инфраструктуры, исследователи изучили влияние сокращения использования технологий на поведение и эмоции людей.После ограниченного или полного отсутствия использования технологий от нескольких дней до нескольких недель участники отметили повышенную внимательность или сосредоточили внимание на моменте, особенно в отношениях.

    Более того, примечательное исследование обнаружило глубокое снижение эмпатии подростков в период с 1979 по 2000 год, которое авторы связывают с увеличением потребления технологий и средств массовой информации, а также с уменьшением личных встреч и социальных посещений. Возможно, что по мере того, как мы больше полагаемся на онлайн-общение и технологии, снижение эмпатических способностей не только ограничивается самими онлайн-взаимодействиями, но также приводит к более существенным изменениям в эмпатии у пользователей технологий.

    К счастью, онлайн-общение не всегда губительно для сочувствия. Исследования показывают, что когда люди, работающие вместе в цифровой среде, понимают эмоциональное состояние друг друга, это не только помогает им улучшить свои эмоциональные переживания, но также может улучшить их совместные усилия. Команды, работающие вместе в цифровом формате, также демонстрируют улучшенное общение, когда используются инструменты для информирования участников о статусе прогресса отдельных участников и группы в целом. Как показывает опыт текстовых онлайн-сообществ, присутствие женщин и более быстрое общение, как правило, поощряют сочувствие.

    Некоторые компании стремились показать, что технологии не должны портить деловые отношения, и интегрировали эмпатию в свое виртуальное общение. Например, некоторые компании по обслуживанию клиентов стремятся обогатить свои отношения, гарантируя, что старшие менеджеры подтверждают свою приверженность эмпатии, понимают способы, которыми текущие процедуры и системы опосредуют взаимодействие, и развертывают технологии, чтобы помочь клиентам рассказывать свои истории, а работникам и менеджерам — их слышать. .

    Другие компании делают еще один шаг вперед, применяя мягкое масштабирование, налаживая эмоциональные связи и эмпатически используя данные.Softscaling включает в себя развитие эмоциональных связей между всеми заинтересованными сторонами, оптимизацию бизнес-процессов и объединение данных с пониманием местного контекста для принятия чутких решений. Исследование пяти компаний, внедривших софтскейлинг, показало, что годовой рост составляет от 35 до 40 процентов, а рентабельность высока.

    А как насчет искусственного интеллекта?

    Если пойти еще дальше, может ли технология быть чуткой? Ученые-информатики изучают возможности разработки систем искусственного интеллекта, способных воспринимать человеческие эмоции и реагировать на них с эмпатией в области, известной как «искусственная эмпатия», также известная как «вычислительная эмпатия».«Проект, известный как Deep Empathy, созданный Медиа-лабораторией Массачусетского технологического института, Инновационным отделом ЮНИСЕФ и Лондонской школой экономики, обучает искусственному интеллекту эмпатии путем определения характеристик сирийских районов, затронутых конфликтом, и применения этих характеристик к другим близлежащим городам. мир. Исследователи спрашивают: «Может ли этот подход, знакомый по целому ряду художественных применений, помочь нам увидеть узнаваемые элементы нашей жизни через призму тех, кто находится в совершенно разных обстоятельствах, теоретически в другом мире? И, помогая ИИ научиться сочувствию, может ли этот ИИ научить нас заботиться? »

    Искусственная эмпатия уже находит эффективное применение в приложении под названием Wysa, где чуткий ИИ смог улучшить настроение подавленных пользователей.Но исследование также показало, что, хотя искусственное сочувствие можно использовать для преодоления препятствий, технология никогда не сможет заменить специалиста по психическому здоровью. То же самое и с финансированием развития; реальные, человеческие и чуткие отношения нельзя заменить технологической имитацией.

    Значение для УФО

    Проведенное до сих пор исследование, кажется, подтверждает точку зрения о том, что технологии не могут полностью заменить или имитировать чуткие отношения личного контакта между ИФИ и клиентами.В самом деле, похоже, что онлайн-общение оказывает негативное влияние на сочувствие, которое можно только смягчить в лучшем случае.

    В мире, где не произойдет полного возврата к личным отношениям, существовавшим до COVID-19, существуют тревожные последствия для финансирования развития, если в процессе работы на дому пренебречь сочувствием. Два особо выделяются: один для проектного финансирования и один для реформы политики:

    1. Будет смещение в сторону финансирования существующих клиентов проекта, повторных транзакций и менее сложных сделок (например, рост торгового финансирования, чрезвычайной ликвидности и ухудшение «зеленых» условий в проектах в текущей ситуации).Сложность кредитования новых клиентов или получения долей в капитале, когда решающее значение имеют вложения в построение чутких отношений, основанных на личном контакте, будет усугубляться. Учитывая, что финансирование развития направлено на расширение границ, чтобы охватить тех, кто заблокирован в существующей системе (подумайте о женщинах-предпринимателях и регионах с недостаточным уровнем обеспеченности услугами) или где проблемы трансформации являются самыми большими (на уровне компании и штата), этот уклон в сторону существующего списка клиентов и Скорее всего, количество превыше качества будет означать, что УФР будут менее дополнительными и эффективными, чем до COVID-19.

    2. Будет отход от эффективного политического диалога. Чтобы оказывать постоянное влияние на политическое мышление на развивающихся рынках, необходимо, чтобы старшие менеджеры DFI были в курсе изменений в местной политической экономике и лично взаимодействовали с лидерами развивающихся рынков в режиме реального времени по мере изменения контекста решений последних. . DFI будут гораздо больше бороться с передачей своих знаний о том, что работает в каких обстоятельствах, когда их старшие команды пытаются сделать это с помощью видео, а не лицом к лицу.Улучшение корпоративного и инвестиционного климата, которое мы наблюдали на многих развивающихся рынках за последние два десятилетия, вероятно, будет остановлено, поскольку политический диалог атрофируется.

    Итак, до тех пор, пока сочувствие является основополагающим для взаимоотношений с финансированием развития, и если мы продолжим больше всего заботиться о воздействии, тогда все равно будет необходимость выезжать на места, чтобы понять контекст и участвовать в личном общении. прямой диалог. Сидеть в оксфордском кабинете и смотреть на экран никогда не будет то же самое, что «заниматься разработкой».Еще один аргумент в пользу того, почему вакцина против COVID-19 будет иметь столь важное значение, если мы позаботимся о максимальном воздействии на развитие.

    % PDF-1.4 % 5544 0 объект > эндобдж xref 5544 76 0000000016 00000 н. 0000003375 00000 н. 0000003526 00000 н. 0000004082 00000 н. 0000004228 00000 п. 0000004814 00000 н. 0000005091 00000 н. 0000005638 00000 п. 0000006053 00000 п. 0000006612 00000 н. 0000006892 00000 н. 0000007007 00000 н. 0000007120 00000 н. 0000007704 00000 н. 0000008628 00000 н. 0000008773 00000 п. 0000009044 00000 н. 0000009073 00000 н. 0000010003 00000 п. 0000010496 00000 п. 0000011002 00000 п. 0000011956 00000 п. 0000012108 00000 п. 0000012137 00000 п. 0000012699 00000 п. 0000013575 00000 п. 0000014347 00000 п. 0000015211 00000 п. 0000016176 00000 п. 0000017044 00000 п. 0000017729 00000 п. 0000018125 00000 п. 0000018829 00000 п. 0000018900 00000 п. 0000019024 00000 п. 0000082858 00000 п. 0000083144 00000 п. 0000084010 00000 п. 0000124945 00000 н. 0000166474 00000 н. 0000166545 00000 н. 0000166841 00000 н. 0000167313 00000 н. 0000203533 00000 н. 0000234693 00000 п. 0000234799 00000 н. 0000235183 00000 п. 0000235584 00000 н. 0000235852 00000 п. 0000235931 00000 н. 0000236049 00000 н. 0000236457 00000 н. 0000236729 00000 н. 0000237132 00000 н. 0000245729 00000 н. 0000245847 00000 н. 0000245916 00000 н. 0000245952 00000 н. 0000246285 00000 н. 0000246364 00000 н. 0000254546 00000 н. 0000254673 00000 н. 0000254744 00000 н. 0000254841 00000 н. 0000266167 00000 н. 0000266454 00000 н. 0000266840 00000 н. 0000266869 00000 н. 0000267357 00000 н. 0000277471 00000 н. 0000277743 00000 н. 0000278156 00000 н. 0000278235 00000 н. 0000278428 00000 н. 0000003109 00000 п. 0000001856 00000 н. трейлер ] / Назад 638127 / XRefStm 3109 >> startxref 0 %% EOF 5619 0 объект > поток h ޜ TmL [U ~ Ͻ-RBr ۮ # Ƞ \

    Прогресс речевых технологий на основе новой парадигмы машинного обучения

    Речевые технологии разрабатывались на протяжении десятилетий как типичная область обработки сигналов, в то время как последнее десятилетие принесло огромный прогресс на основе новой машины парадигмы обучения.Не только из-за своей внутренней сложности, но и из-за их связи с когнитивными науками, речевые технологии теперь рассматриваются как яркий пример междисциплинарной области знаний. Эта обзорная статья об анализе и обработке речевых сигналов, соответствующих алгоритмах машинного обучения и прикладном вычислительном интеллекте призвана дать представление о нескольких областях, охватывающих производство речи и слуховое восприятие, когнитивные аспекты речевого общения и понимания языка, как распознавание речи, так и текст. более детально синтез речи, а следовательно, и основные направления развития речевых диалоговых систем.Кроме того, в статье обсуждаются концепции и последние достижения в области сжатия, кодирования и передачи речевых сигналов, включая когнитивное кодирование речи. В заключение, основная цель этой статьи — осветить недавние достижения и проблемы, основанные на новых парадигмах машинного обучения, которые за последнее десятилетие оказали огромное влияние на область обработки речевых сигналов.

    1. Введение

    Согласно теории научных революций Куна [1], наука прогрессирует благодаря революционным изменениям преобладающих научных парадигм, где парадигма представляет собой набор убеждений и ценностей, а также технических и методологических процедур, общих для научного сообщества. сообщество.Парадигмы определяют рамки и модели для решения научных задач. Новые решения приходят с новыми поколениями, которые готовы принять новые истины и междисциплинарные подходы. Новые парадигмы появляются внезапно и проливают новый свет на научную проблему, основанную на синергии частных и специализированных знаний, объединенных в функциональное и связное единство. Сообщество речевых технологий исследует обработку разговорной речи как междисциплинарную область исследований (рис. 1), [2]. После короткой ретроспективы основных научных парадигм, основанных на знаниях о производстве речи и слуховом восприятии, в этой статье представлены новые достижения и перспективы, основанные на новой парадигме машинного обучения, связанной с нейробиологией и передовой обработкой сигналов.


    Истоки исследований в области обработки речевых сигналов были тесно связаны с потребностями оцифровки речевых сигналов. Новаторские решения были применены во время Второй мировой войны из-за необходимости безопасной связи между союзниками. Система получила название SIGSALY, и в ней использовалась импульсно-кодовая модуляция (ИКМ) для обеспечения первой передачи голоса с использованием цифрового оборудования [3]. В последующие десятилетия внимание исследователей было сосредоточено на стандартизации правил цифровой телефонии с целью обеспечения высокого качества восстановленного речевого сигнала в широком диапазоне вариаций речевого сигнала [4–7].Парадигмы сжатия в отношении этих систем не претерпели значительных изменений в течение десятилетий. В частности, фокус исследований был немного смещен в сторону улучшения качества сигнала на приемном конце или уменьшения требуемой скорости передачи данных [8–13]. Однако значительное развитие компьютерных технологий в последнее десятилетие позволило исследовать новые подходы к усовершенствованной обработке речевых сигналов, включая методы адаптивного машинного обучения [14]. Последние тенденции включают когнитивное кодирование речи, так что происходит сдвиг парадигмы от перцептивной (слуховой) к когнитивной (слуховой и корковой) обработке речевых сигналов [15].

    Современные системы речевой технологии основаны на междисциплинарных исследованиях в области мультимодальной обработки сигналов и искусственного интеллекта, и был разработан ряд методов и алгоритмов с целью решения различных задач: диалоговые системы, основанные на распознавании и синтезе речи, в том числе эмоциональной. речь, идентификация и проверка говорящего, а также кодирование и передача речевого сигнала, шумоподавление и обнаружение сигналов в присутствии шума, повышение качества и медицинская диагностика на основе анализа человеческого голоса.Недавний прогресс в большинстве этих тем речевых технологий будет обсуждаться более подробно в следующих разделах.

    Обработка разговорной речи (SLP) — это междисциплинарная область исследований, обладающая признаками вычислительного интеллекта. SLP находится на пересечении лингвистики, психологии, инженерии и искусственного интеллекта (ИИ) [2]. Продвинутая обработка сигналов и методы машинного обучения позиционируются с учетом принятого взгляда на междисциплинарный характер SLP, и как взаимосвязи, так и пересечения различных дисциплин показаны и представлены с новой точки зрения (рисунок 1).Вместо использования исходного термина «обработка паттернов» на рисунке 1 мы выбрали более общий термин «обработка сигналов и машинное обучение (SP&ML)», который представляет собой пересечение между сообществом инженеров и дисциплинами искусственного интеллекта. С учетом лингвистических аспектов они составляют область обработки естественного языка (NLP). Взаимодействие человека и компьютера (HCI) опирается на опыт и методологию из областей инженерии и психологии, а вместе со знаниями из лингвистики они формируют основу для изучения и разработки диалоговых систем.

    Взаимосвязь психолингвистики и искусственного интеллекта является основой когнитивной науки или нейролингвистики. Нейролингвистика здесь рассматривается как нейробиология речи. Нейролингвистика представлена ​​на рисунке 1 как дисциплина преимущественно лингвистики, но связана с ИИ через компьютерную лингвистику, которая находится на пересечении ИИ и лингвистики с одной стороны, а также связана с психологией через психолингвистику, которая находится на пересечении психологии и лингвистики с другой стороны.Нейролингвистика находится на противоположной стороне с инженерной точки зрения. Нейробиология речи также может рассматриваться как область когнитивной науки, и познание является неотъемлемой частью как восприятия речи (на этапе понимания, значение сообщения, передаваемого устным языком), так и производства речи (на этапе составления , сообщение, предназначенное для передачи определенного смысла). Наконец, SLP объединяет знания из междисциплинарных областей SP&ML, HCI, психолингвистики и компьютерной лингвистики, или, точнее, НЛП, когнитивных наук, диалоговых систем и доступа к информации.

    Речевые технологии основаны на обработке речевых сигналов, охватывающей широкий спектр тем, в то время как в этой обзорной статье основное внимание уделяется трем областям, в которых авторы имеют наибольший опыт: (i) Фундаментальные темы (анализ и синтез речи, звуковые волны (2) Диалоговые системы, основанные на распознавании речи и синтезе текста в речь (эмоциональное распознавание речи и синтез текста в речь, включая преобразование голоса и стиля) (iii) Кодирование, сжатие и передача речи

    Области речевой технологии в рамках данного документа представлены на рисунке 2 в виде единой структуры, которая охватывает затронутые темы, показывая их взаимодополняемость, диапазоны и границы, взаимосвязи и пересечения в междисциплинарной сфере. площадь SLP.


    Краткая ретроспектива и некоторые перспективы областей речевой технологии, показанные на Рисунке 2, представлены в следующих разделах. Основные темы показаны в середине рисунка 2 и представлены в разделе 2, охватывающем производство речи и анализ восприятия, включая когнитивные и лингвистические точки зрения. Более подробная информация о прогрессе в распознавании и синтезе речи, а также об их вкладе в новое поколение систем речевого диалога человек-машина, представлены в разделе 3.Наконец, в разделе 4 представлен прогресс в области сжатия, кодирования и передачи речевых сигналов, включая вклад авторов в эту область. Большинство этих достижений основаны на новой парадигме глубокого обучения и нашем лучшем понимании нейробиологии и моделирования когнитивных аспектов разговорного языкового общения.

    2. Прогресс в анализе речи и знание природы разговорной речи

    Знания, связанные с природой разговорной речи, необходимы для эффективного кодирования и передачи, а также для удовлетворительного взаимодействия человека с машиной в реальном времени.Речевые модели, основанные либо на производстве речи, либо на слуховом восприятии, были неотъемлемой частью большинства успешных алгоритмов. Самые последние нейро-вдохновленные вычислительные модели основаны на знании моделей когнитивной обработки речи [16]. После краткого обзора волн звукового давления и характеристик речевого сигнала, производство речи и слуховое восприятие, включая когнитивные и лингвистические точки зрения, будут более подробно рассмотрены в следующих подразделах.

    2.1. Волны звукового давления и функции речевого сигнала

    Звук распространяется как непрерывный поток акустических волн (звуковое давление), и после его приема он может быть записан, оцифрован, закодирован, передан, обработан и воспроизведен.В случае звуков речи частоты, важные для распознавания того, что было сказано, и того, кто это сказал, расположены в основном ниже 4 кГц и почти никогда не выше 7-8 кГц, что является лишь частью всего частотного диапазона слухового восприятия человека [17 ]. Этот факт лег в основу проектирования систем аналоговой телефонной связи, включая выбор используемых микрофонов. По этой причине речевой сигнал дискретизируется с частотой 8 кГц (для базового уровня качества) или 16 кГц (если требуется более высокий уровень качества).Также хорошо известно, что динамический диапазон от самых тихих до самых громких звуков в обычной человеческой речи составляет примерно 40 дБ. Даже если включены шепот и повышенные голоса, этот динамический диапазон редко превышает 50 дБ [14]. По этим причинам требования к микрофону, необходимому для записи голоса, обычно менее строгие, чем в случае записи, например, музыки. Что касается квантования, известно, что каждый бит вносит вклад в отношение сигнал / шум (SNR) на 6 дБ, что означает, что шум квантования практически не слышен, если для кодирования каждой звуковой выборки используются 8 битов [4].Таким образом, типичный случай использования частоты дискретизации 8 кГц и 8 бит на выборку дает битрейт 64 кбит / с. Было приложено много усилий, чтобы снизить эту скорость без существенной потери качества на принимающей стороне, и Раздел 4 посвящен этой теме.

    Оцифровка, включая квантование, является основой всех методов цифровой обработки речи. Если целью является компактное и надежное представление речи, как в случае автоматического распознавания речи или большинства типов кодирования речи для передачи, одним из основных вопросов является выбор соответствующих функций, которые обеспечат быстрое, точное и надежное распознавание речи. речь (или говорящий, язык или даже эмоция) и / или быстрое и эффективное кодирование речи для передачи без значительной потери качества.Кодирование с линейным предсказанием (LPC) и LPC-анализ имеют фундаментальное значение при моделировании речевого сигнала и оценке речевых характеристик [18]. Многие схемы кодирования речи основаны на LPC, включая схему кодирования с линейным предсказанием с кодовым возбуждением и малой задержкой (LD-CELP), определенную стандартом G.728, схему кодирования с алгебраическим кодовым возбуждением и линейным предсказанием с сопряженной структурой (CS-ACELP), определенную в G.729A. стандарт, схема кодирования с линейным предсказанием с алгебраическим кодовым возбуждением, определенная стандартом G.723.1, и схема адаптивного многоскоростного широкополосного кодирования (AMR-WB), определенная G.722.2, стандарты, которые используются сегодня в мобильной голосовой связи и VoIP [5, 7].

    Одна из моделей формирования речи также основана на анализе LPC и предоставляет наборы характеристик речи, описывающие спектр речи, который является наиболее важным для распознавания речи [19]. Основная сфера применения речевого сигнала и обработки данных в реальном времени (или ограниченном времени) заключается в уменьшении количества данных (речевых характеристик) при обеспечении высокого качества представления такого уменьшенного сигнала, то есть источника данных.Реализация этой цели поддерживается статистической обработкой сигналов и данных, а также методами и алгоритмами, которые имеют дело с обработкой сигналов и данных [20]. Наиболее эффективные методы и алгоритмы включают адаптацию, и эти темы будут более подробно рассмотрены в следующих разделах.

    2.2. Производство речи и слуховое восприятие

    На рисунке 3 показана блок-схема формирования и восприятия речи. Синтез текста в речь (TTS) и автоматическое распознавание речи (ASR) показаны параллельно как соответствующие процессы, выполняемые машинами.Речь и язык изучаются, а слух является врожденным. Существует много различий между производством и восприятием речи человеком и машиной, но повышение способности парадигм машинного обучения моделировать механизм производства речи человека, а также слухового восприятия и когнитивных способностей неизбежно приведет к повышению точности ASR и естественность TTS.


    Речевое общение между людьми начинается и заканчивается на когнитивном уровне составления и интерпретации сообщений.Принимая во внимание среднюю скорость речи 10–12 телефонов в секунду и количество телефонов на языке, что обычно соответствует 5 или 6 битам, необходимым для их кодирования, речевое сообщение, передаваемое в виде текста, можно рассматривать как соответствующее биту скорость 50–60 бит в секунду. Оратор планирует не только, что сказать, но и как это сказать — (а) он контролирует громкость, скорость речи и интонацию (просодию), каждая из которых может нести лингвистическую, а также паралингвистическую и экстралингвистическую информацию [21].С добавлением этой информации можно считать, что скорость передачи данных увеличивается до нескольких сотен бит в секунду.

    Как только говорящий решает, что сказать и как это сказать, нервная и мышечная активность создает соответствующую звуковую волну [22, 23]. В этом случае телефоны не произносятся изолированно, но артикуляционные цели, необходимые для соответствующих фонем, достигаются редко, что приводит к эффекту коартикуляции, который усугубляет задачу ASR. Чаще всего весь речевой аппарат рассматривается через модель источника-фильтра, где активность голосовых связок определяет возбуждение, а остальная часть речевого тракта действует как фильтр и формирует звуковой спектр [19, 21].Помимо зависимости от телефона, акустические характеристики речевого сигнала в определенный момент также несут информацию, относящуюся к говорящему, и, таким образом, представляют собой биометрическую характеристику, которая может выявить личность говорящего [24] и, возможно, другие факторы, связанные с говорящим или сообщение. С учетом влияния изменчивости динамика скорость передачи данных на этом уровне увеличивается до нескольких тысяч бит в секунду. Этот сегмент речевого общения изучается артикуляционной и акустической фонетикой, и его машинным аналогом является TTS, а именно модуль, отвечающий за создание самого искусственного речевого сигнала.

    Распределение амплитуд речевых выборок неоднородно, и это знание используется в неравномерном кодировании речевого сигнала, определяемом законом µ и A-законом [25], в то время как некоторые новые результаты исследований обеспечивают лучшие решения, основанные на адаптивных алгоритмах. Механизм производства речи артикулирует серию фонем неравномерно в соответствии с эмпирическим статистическим законом, сформулированным лингвистом Джорджем Кингсли Зипфом [26], ссылаясь на принцип наименьшего усилия из области эволюционной биологии: собеседники пытаются понять друг друга, используя фонемы. и слова, которые легче производить и воспринимать в определенном контексте.Знание статистики фонем и слов было введено в алгоритмы ASR давно, и стохастические модели речи, такие как скрытая марковская модель (HMM) [27], были преобладающей научной парадигмой и на протяжении десятилетий представляли собой современное состояние в сообществе распознавания и синтеза речи. .

    С другой стороны, континуум акустических волн достигает уха слушателя, и определенные частоты возбуждают барабанную перепонку, а в области молоточка, наковальни и стремени они возбуждают улитку, где выполняется спектральный анализ, основанный на движении. базилярной мембраны, длина которой составляет около 35 мм [17, 22, 23, 25, 28].Волосковые клетки в улитке реагируют на разные звуки в зависимости от их частоты, так что высокие звуки стимулируют волосковые клетки в нижней части улитки, а низкие звуки стимулируют верхнюю часть улитки [28]. Сформированные таким образом нейронные импульсы отправляются в центральную слуховую систему мозга [22], и, основываясь на спектральных различиях, мозг распознает соответствующие акустические различия и пытается восстановить последовательность телефонов, из которых было составлено исходное сообщение, принимая во внимание его языковая модель (на уровне морфологии, синтаксиса, семантики и прагматики).Таким образом, можно считать, что задача ASR состоит в том, чтобы снизить скорость передачи данных, например, с 64 кбит / с (оцифрованная речь) до скорости передачи 50–60 бит / с (простой текст), что соответствовало бы текстовой содержание сообщения без речевой просодии.

    Однако восприятие речи, которое в основном зависит от слуха, является нелинейным процессом. Как и в случае с другими человеческими чувствами (зрение, вкус, осязание и запах), слуховое восприятие как уровня звукового давления (SPL), так и основной частоты (f0, высота) следует закону Вебера-Фехнера [28] из психофизики: a изменение, воспринимаемое как линейное, соответствует экспоненциальному изменению физического стимула.Помимо SPL и высоты звука, на восприятие звука влияет распределение звуковой энергии по частотам, то есть спектр звука, который обычно представляет собой смесь последовательности дискретных частотных компонентов (тембра), как в случае периодических звуки, а также непрерывное сочетание негармонических или случайных частотных составляющих, как в случае различных типов шума [22, 28]. Вот почему общие речевые особенности, такие как кепстральные коэффициенты, считаются расположенными на частотах, масштабированных с Гц на мел-шкалу — MFCC; они оцениваются с помощью кепстрального анализа на основе речевых кадров длительностью 20–30 мс вместе с их первой и второй производными, рассчитанными на основе нескольких последовательных кадров [29].

    Анализ слуховой сцены — это процесс, с помощью которого слуховая система разделяет отдельные звуки в ситуациях естественного мира [30, 31]. Независимо от того, воспринимается ли звук человеческим ухом или микрофоном, падающая волна звукового давления представляет собой сумму волн давления, исходящих от разных отдельных источников, которые могут быть либо человеческими голосами, либо любыми другими источниками звука. Эти звуки обычно перекрываются как по времени, так и по частоте. Тем не менее, слуховая система человека обычно способна концентрироваться на отдельном источнике звука одновременно [23, 31].Слушая и отделяя один источник, слушатель создает отдельное мысленное описание для этого источника. Хотя он / она не может активно слушать два источника звука одновременно, он / она может немедленно переключить свое внимание с одного на другой [30]. Например, если ученик слушает учителя, он игнорирует шум ЖК-проектора и коллегу, который может с ним разговаривать; если он переключит внимание на своего коллегу, он больше не сможет активно слушать учителя. Более того, если человек-слушатель следует контексту, он / она может реконструировать некоторые фонемы или целые слова, которые он / она может не слышать по какой-то причине.Люди так же успешны в разделении звука, как и в реальных ситуациях, и они всегда анализируют входящий сигнал с помощью эвристических процессов. На последнем этапе слухового процесса слуховая кора человека создает когнитивное представление полученной звуковой волны. Без ступени познания звуковые волны, приходящие в уши, не воспринимаются. Эвристический анализ основан на (ir) закономерностях в сумме основных звуков.

    Отдельные звуки отличаются друг от друга по крайней мере в одном из следующих измерений: времени, пространстве и частотном спектре [28, 31].Более подробно временные и пространственные ощущения в слуховой системе человека представлены в [32]. Во временном измерении два звука могут иметь некоторую асинхронность начала / смещения. В определенных условиях бинауральный слух позволяет локализовать источники звука, что проще, но также часто более важно, в горизонтальной плоскости, где расположены человеческие уши, чем в вертикальной плоскости. Спектр частотных составляющих может определять воспринимаемую высоту, тембр, громкость, а разница в спектрах звуков, принимаемых обоими ушами, позволяет локализовать источники звука [23, 31, 32].Высота звука связана с основной частотой f0 в периодических звуковых волнах, таких как музыкальные тоны или гласные в речи; их спектр состоит из f0 и его гармоник. Временное изменение f0 приводит к мелодичности в музыке и интонации в речи. Тембр представляет собой определенное распределение интенсивности f0s и его гармоник в спектре. Две версии одного и того же тона на двух разных музыкальных инструментах с одинаковым f0 будут иметь разные тембры из-за разницы в относительной интенсивности отдельных гармоник (спектральная огибающая), и в результате они будут звучать по-разному [22] .Если звуковой спектр не содержит только гармонических тонов (f0s и их гармоник), спектр не является дискретным; звуковой спектр богат частотными составляющими частично или во всем диапазоне частот слухового восприятия человека. Такие звуки с более или менее непрерывным спектром гораздо более часты по своей природе (например, шум автомобиля или машины или любой переходный шум). Величины спектральных составляющих влияют на громкость; Уровень звукового давления определяется в дБ относительно порога слышимости на частоте 1 кГц (20 µ Па) и имеет диапазон от 0 до 120 дБ до порога боли [17, 22].В заключение, два звука могут быть отделены друг от друга при анализе слуховой сцены в соответствии с различиями в громкости, высоте тона (f0, если присутствует), тембре или спектре в целом, а также в их временных и / или пространственных вариациях. которые могут создавать самые разные звуковые впечатления.

    Акустические сигналы принимаются слушателем и преобразуются в лингвистические и нелингвистические категории, но точно неизвестно, как именно. В настоящее время проводятся исследования нейрофизиологии речевого общения с использованием последних достижений в инвазивных и неинвазивных методах записи у человека с целью раскрытия фундаментальных характеристик корковой обработки речи [16].Исследовательская группа, о которой идет речь, изучала кодирование фонетических признаков и механизмы устойчивого к шуму представления речи в слуховой коре, основываясь на доказательствах того, что люди и животные могут надежно воспринимать звуки, имеющие отношение к поведению, в шумной и реверберирующей среде.

    Вычислительные модели, вдохновленные нейро, пытаются обеспечить прогресс в производительности искусственных глубоких нейронных сетей (DNN) на основе лучшего понимания представления и преобразования, выполняемого этими моделями.В тематическом исследовании ASR, приведенном в [33], делается попытка идентифицировать механизмы, которые нормализуют естественную изменчивость речи, и сравнивать эти механизмы с данными о репрезентации речи в слуховой коре человека. Цель состоит в том, чтобы сравнить DNN с их биологическими аналогами, определить их ограничения и уменьшить разрыв в производительности между биологическими системами и искусственными вычислениями. Например, человек может концентрироваться на голосе одного говорящего и игнорировать другие звуки и голоса [23, 31], основываясь на их различиях в пространственном положении, высоте тона и тембра, согласованности изменений уровня и / или частоты и времени. характеристики (асинхронность начала / смещения) [30].Алгоритм, направленный на фокусировку на одном говорящем в группе из многих говорящих, основанный на глубокой аттракторной сети, предложен в [34], основанный на аналогичных принципах. Было показано, что переключение внимания на нового говорящего мгновенно меняет нейронную репрезентацию звука в мозгу. Адаптивная система должна изменять сенсорное представление в реальном времени для реализации новых, ориентированных на задачи вычислений, которые облегчают извлечение соответствующих акустических параметров.

    Люди-слушатели обладают замечательной способностью быстро и эффективно понимать окружающий мир на основе поведения известных источников звука.Более того, они умеют обращать внимание и сосредотачиваться на значении речи конкретного говорящего. Фокус внимания может быть интегрирован в стратегию диалога HCI [35], в то время как данные, относящиеся к когнитивным усилиям человека, могут использоваться для постобработки и повышения производительности систем ASR [36]. Люди могут не только отделить один динамик или сконцентрироваться только на одном источнике звука, но также сгруппировать больше источников звука и услышать, например, весь оркестр как один музыкальный звук на основе гармоничности и синхронности отдельных источников звука.Параллельные и последовательные процессы группировки более подробно описаны в [37].

    Роль нелинейностей в DNN в категоризации фонем по их неравномерному и нелинейному искажению акустического пространства изучается в [38], а также способ создания перцептивных инвариантных категорий. Биологические нейроны способны динамически изменять синаптическую эффективность в ответ на переменные входные условия. Это называется синаптической депрессией, и когда она добавляется к скрытым слоям DNN, обученной классификации фонем, система ASR становится более устойчивой к шумным условиям без явного обучения для них.Результаты [39] предполагают, что более полные модели нейронов могут еще больше сократить разрыв между биологической производительностью и искусственными вычислениями, что приведет к созданию сетей, которые лучше подходят для новых условий сигнала.

    2.3. Инженерная и лингвистическая точки зрения на НЛП как типичную тему ИИ

    Механизм производства речи и физический компонент восприятия звука являются относительно хорошо изученными темами [22, 31], в то время как когнитивные аспекты речевого общения все еще широко распространены. открытая исследовательская площадка.Все аспекты речевого общения человека и машины, связанные с лингвистикой, такие как обработка естественного языка (НЛП), когнитивные науки — нейролингвистика и управление диалогами (см. Рисунок 1), представляют собой серьезную проблему для научного сообщества. В недавнем прошлом развитие речевых технологий и систем речевого диалога получило наибольший импульс в инженерных дисциплинах благодаря возможности автоматического обучения на огромных объемах данных с точки зрения развития вычислительных средств, сложных алгоритмов обучения и сложных нейронных систем. модельные архитектуры, обращающиеся к конкретным явлениям и проблемам когнитивной лингвистики.В то же время когнитивные науки о речи по большей части остаются вне сферы непосредственного интереса инженерных дисциплин, имеющих отношение к развитию речевых технологий. Тем не менее, знания в этих областях пересекаются по концепции и сфере с машинным обучением, которое, вдохновленное неврологией, привело к прогрессу не только во взаимодействии человека с компьютером и компьютерной лингвистике, но и в области обработки разговорной речи, которая лежит в их пересечение. Это показано на рисунке 1, который также показывает относительно большой разрыв между когнитивными науками (нейробиологией) и психолингвистикой, с одной стороны, и преимущественно инженерными дисциплинами, с другой.

    Что касается роли машинного обучения в развитии речевой технологии, то оно предложило мощную альтернативу моделям, зависящим от лингвистических ресурсов, и модулям, выполняющим определенные лингвистически мотивированные подзадачи. Лингвистические ресурсы, такие как словари и речевые базы данных, обычно довольно дороги и требуют много времени для сбора и аннотирования, в то время как разработка модулей, составляющих систему речевых технологий, требует глубоких знаний в предметной области и усилий экспертов.За последние два десятилетия некоторые задачи, выполняемые системами на основе правил или более простыми методами машинного обучения, одна за другой уступили место нейронным сетям. А именно, в случае акустического распознавания речи нейронные сети, как было показано, превосходят скрытые марковские модели (HMM) в акустическом моделировании [40], но также превосходят классические модели языка N -грамм с точки зрения обобщения, используя любую архитектуру на основе на нейронах долгой кратковременной памяти (LSTM) [41] или рекуррентных нейронных сетях (RNN) [42].Было показано, что решения на основе нейронных сетей достигают человеческого паритета в таких сложных задачах, как распознавание случайной разговорной речи [43]. В сочетании с рядом методов синтеза данных для получения больших объемов разнообразных данных для обучения теперь можно получить сквозной ASR, способный превзойти современные конвейеры в распознавании четкой разговорной речи как а также шумный [44, 45]. Они также использовались в мультимодальном распознавании речи, то есть в распознавании речи из аудио и видео [46].Задача синтеза речи в большей степени зависит от языка, и в этом плане она более сложна, поскольку направлена ​​на повторное введение избыточности, которая теряется при преобразовании речи в текст, и сделать это таким образом, чтобы среди множества просодических воспроизведений конкретного высказывания, он производит такое, которое слушатель сочтет приемлемым в данном контексте. И здесь нейронные сети показали превосходство над классическими моделями, работающими с параметризованной речью, такими как HMM [47, 48] в акустическом моделировании, и они также использовались для моделирования просодии [49], а также моделирования акустических траекторий [50].Нейронные сети также обратились к проблеме несколько приглушенного характера синтезированной речи из-за использования вокодера, выполняя синтез необработанных речевых сигналов вместо этого [51]. Наконец, чтобы преодолеть потребность в сложных речевых и языковых ресурсах, требующих глубоких знаний в предметной области, был предложен ряд сквозных архитектур, конечной целью которых является обучение системы парам текста и звука с использованием возможностей нейронных сетей для автоматической разработки абстракций более высокого уровня [52].Гибкость такого мощного подхода, основанного на данных, по сравнению с классическими синтезаторами конкатенации речи также привела к значительному прогрессу в области TTS с несколькими дикторами и адаптации говорящего [53–55], а также способности соответствовать определенному стилю речи или эмоциям [ 56]. Это особенно актуально, поскольку оно совпадает с появлением таких приложений, как интеллектуальные среды, виртуальные помощники и интеллектуальные роботы, требующие высококачественного синтеза речи с разными голосами и разными стилями и передающих различные эмоциональные состояния воспринимаемого говорящего [57].Другие задачи языковой технологии также успешно решаются нейронными сетями, например, ответы на вопросы [58], классификация текста [59, 60], машинный перевод [61, 62] и анализ тональности [63]. Нейронные сети также использовались как мощный лингвистический инструмент для моделирования синтаксиса предложений [64] или исследования определенных лингвистических явлений, таких как создание представлений слов в векторных пространствах [65]. Однако вместо того, чтобы обеспечить декомпозицию проблемы и четкое аналитическое понимание ее, нейронные сети предоставляют альтернативную точку зрения, основанную на данных, и поэтому не могут считаться классическим инструментом теоретической лингвистики.С другой стороны, их способность решать эти проблемы справедливо делает нейронные сети передовыми в развитии речевых технологий.

    3. Прогресс в распознавании и синтезе речи, а также в диалоговых системах

    Помимо автоматического распознавания речи (ASR) и синтеза речи (TTS), человеко-машинная диалоговая система речи также включает в себя модуль управления диалогами. с соответствующими стратегиями диалога и языковыми технологиями для понимания разговорного языка (SLU) и генерации разговорного языка (SLG), как показано на рисунке 4.


    В этом разделе представлены некоторые достижения в области речевых технологий, таких как ASR и TTS. Они были разработаны с целью объединить междисциплинарные знания из разных областей, таких как лингвистика, акустика, информатика и математика. Инженеры по обработке сигналов обычно объединяют лингвистов с одной стороны и математиков с другой.

    3.1. Прогресс систем автоматического распознавания речи

    Исследования и разработки систем ASR начались в 1950-х годах в Bell Labs с простых систем распознавания цифр, и с тех пор задачи распознавания стали более сложными — от распознавания отдельных цифр, затем изолированных слов, затем непрерывно произносимые слова в тихой обстановке, вплоть до распознавания спонтанной речи в шумной обстановке.Следовательно, сложность используемых алгоритмов также резко возросла. Краткий обзор истории развития ASR можно найти в [66]. В развитии систем ASR было три важных момента: введение мелкочастотных кепстральных коэффициентов [67], внедрение статистических методов (скрытые модели Маркова (HMM) с моделями гауссовой смеси (GMM)) [68] и введение глубоких нейронные сети (DNN) [69]. Это развитие было также поддержано технологическим развитием в компьютерной индустрии, а также увеличением количества данных, доступных для обучения этих систем.

    Доминирование DNN в ASR началось с работы [40], которая показала, что DNN с прямой связью превосходит GMM в задаче оценки контекстно-зависимых вероятностей передачи состояний HMM. Для небольшой базы данных, такой как English Broadcast News (около 30 часов обучающих данных), разница в частоте ошибок по словам (WER) была незначительной, но для базы данных Switchboard, которая больше (около 300 часов обучающих данных), разница стала существенной. Дальнейшее улучшение DNN было основано на лучшей оптимизации, новых функциях активации, новой сетевой архитектуре, новых методах предварительной обработки речи и использовании нескольких языков и диалектов [70].Одним из важных выводов было то, что послойное предварительное обучение с использованием ограниченных машин Больцмана (RBM) не является обязательным и что алгоритм обратного распространения ошибки достаточен для обучения в случае большого количества доступных обучающих данных, а также большого количества единиц в скрытые слои. Кроме того, LeCun et al. в [71] показано, что в случае достаточно широкой DNN (большого количества единиц в слое) проблем с локальными минимумами не возникает и что значения локальных минимумов очень близки.Следующим большим шагом стало полное исключение HMM из модели. Грейвс и Джейтли в [72] сообщили о системе распознавания речи, которая напрямую транскрибирует аудиоданные с текстом, не требуя промежуточного фонетического представления. Система основана на сочетании архитектуры рекуррентной нейронной сети глубокой двунаправленной долговременной памяти (LSTM) и целевой функции временной классификации (CTC) коннекционистов. Такое прямое отображение аудиосигнала в последовательность графемы позволяет легко применять систему на новых языках, таких как сербский [73].Вдохновленный CTC, Povey et al. в [74] разработали свободную от решетки максимальную взаимную информацию с использованием языковой модели телефона n -грамм, исходя из случайно инициализированных нейронных сетей. Этот метод был успешно применен и к сербскому языку [75]; то есть относительное снижение WER составило около 25% по сравнению с лучшей предыдущей системой.

    3.2. Прогресс в распознавании эмоций

    Поскольку люди не всегда рациональны и логичны, эмоции играют очень важную роль в принятии новых продуктов и технологий [76].Первые попытки распознать эмоциональное состояние говорящего по голосовым характеристикам относятся к 1980-м годам [77]. Первоначальным мотивом для этого направления исследований была адаптация системы ASR к эмоционально подчеркнутой речи [78], но другой мотив появился с развитием речевых диалоговых систем, где было полезно изменить стратегию диалога, основанную, например, на раздражении пользователя. [79]. Существует ряд эмоций, которые можно легко представить в пространстве активации-оценки [80], но классифицировать такое большое количество эмоций сложно.Следовательно, классификационное пространство было сокращено до нейтральных и шести архетипических эмоций: гнева, отвращения, страха, радости, печали и удивления, которые являются наиболее очевидными и отчетливыми эмоциями [80]. Следует отметить, что архетипические эмоции не являются первичными эмоциями в так называемой «теории поддонов», где каждая эмоция может быть представлена ​​как комбинация первичных.

    Одним из важных шагов в разработке системы распознавания речевых эмоций является выделение функций, которые эффективно различают эмоции независимо от лексического содержания, говорящего и акустической среды.Хорошо известно, что просодические черты коррелируют с эмоциями [80], поэтому стандартные функции, используемые в системах распознавания эмоций, включают высоту звука, энергию и продолжительность разговора по телефону [81]. Эти особенности также связаны с качеством голоса, связанным с эмоциями [82]. Эмоции влияют на распределение энергии речи в широком диапазоне частот, поэтому были предложены спектральные характеристики, такие как MFCC, кепстральные коэффициенты линейного предсказания, логарифмические коэффициенты мощности и форманты [83, 84].Процедура выделения признаков начинается с сегментации входных сигналов на кадры длиной 20–30 мс, сдвинутые на 10 мс, поскольку речь является нестационарным сигналом. После этого признаки, извлеченные из выбранного сегмента (соответствующие определенной фонеме, слогу, слову или предложению), отображаются в один вектор с использованием таких функционалов, как среднее значение, второй момент, наклон контура и диапазон. Здесь и далее признаки, «сжатые» таким образом, представляют собой входные данные стандартных алгоритмов классификации, таких как линейные байесовские [85], k ближайших соседей [85, 86], опорные векторные машины [87], GMM [86] и искусственные нейронные сети [88].С другой стороны, такие основанные на кадрах особенности также могут быть классифицированы как последовательность с использованием HMM [84] и RNN [89]. Помимо низкоуровневых акустических характеристик, отдельные слова или последовательности слов, полученные с помощью ASR, также могут использоваться для классификации эмоций [90]. После огромного успеха сверточных нейронных сетей (CNN) в классификации изображений, где нижние уровни сети выполняют извлечение признаков, некоторые исследовательские группы попытались реализовать CNN таким же образом для получения признаков [91, 92].Поскольку распознавание речевых эмоций представляет собой проблему с ограниченными данными, одной из будущих тенденций будет применение полууправляемого обучения [93]. Более подробную информацию о функциях, алгоритмах классификации и базах данных можно найти в [94–97].

    3.3. Прогресс в развитии синтеза текста в речь

    Самые первые «речевые машины» были механическими устройствами, способными воспроизводить отдельные фонемы, и некоторые из их комбинаций были введены Кристианом Кратценштейном и Вольфгангом фон Кемпеленом в конце восемнадцатого века [ 98].VODER, представленный в 1939 году Гомером Дадли, можно рассматривать как первый синтезатор, который мог генерировать целые предложения [99]. Первая полная система TTS для английского языка была представлена ​​в 1968 году Тераниши и Умеда [100]. Это была артикуляционная система, которая могла выполнять анализ текста и определять паузы в тексте с помощью сложного синтаксического анализатора [101].

    Однако только после того, как были изобретены каскадные синтезаторы, TTS получил широкое распространение. Идея конкатенативной TTS состоит в том, чтобы объединить соответствующие части предварительно записанной базы данных [102].Если целью является синтез для конкретной предметной области или доступна очень большая база данных речи, этот подход может обеспечить высококачественную речь. Однако в точках конкатенации слышны сбои, если соответствующие единицы не могут быть найдены в базе данных. Этот метод также крайне негибкий с точки зрения изменения стиля речи или голоса говорящего; для этого требуется, чтобы была записана и аннотирована совершенно новая база данных.

    По мере того, как приложения TTS становились все более популярными и более широко используемыми, возросла необходимость в алгоритмах, которые могли бы воспроизводить разные голоса и стили речи из небольших баз данных.Примерно с 2000 года стал популярным статистический параметрический синтез речи, в котором спектр, основная частота и продолжительность речи моделировались HMM с многомерным распределением вероятностей и многомерными распределениями Гаусса [103]. Синтез HMM позволяет преобразовать независимую от говорящего систему к целевому говорящему с использованием очень небольшого количества речевых данных [104], создавая выразительные голоса [105], а также многоязычные голоса [106]. Однако этот метод никогда не достиг естественности конкатенативных TTS.Одна из основных проблем — это сглаживание сигнала, вызванное моделированием аналогичных контекстов с одинаковыми гауссовыми смесями. Еще одна большая проблема, возникающая при использовании параметрических методов, — это использование вокодера, системы, которая генерирует речевые сигналы на основе предсказанных акустических характеристик. Вокодеры, хотя и значительно улучшились с течением времени, имеют некоторые артефакты, влияющие на общее качество сгенерированной речи. Подробный обзор синтеза речи на основе HMM можно найти в [107].

    Первые попытки использовать нейронные сети в синтезе речи можно найти в [108].Однако недавняя разработка аппаратного обеспечения, особенно графических процессоров (GPU), популяризировала этот подход и установила его доминирующий статус в исследовательском сообществе TTS. Глубокие нейронные сети (DNN) заменили деревья решений и модели гауссовской смеси в отображении входных лингвистических характеристик в выходные акустические характеристики, что позволило реализовать нелинейные сопоставления [109]. Хотя простой сетевой нейронной сети с прямой связью с несколькими скрытыми слоями и сигмовидной или касательной гиперболической активацией достаточно для получения разборчивой и естественно звучащей синтетической речи, введение модулей LSTM (долгосрочной краткосрочной памяти) привело к дальнейшему улучшению качества синтезированной речи [110]. ].О некоторых улучшениях сообщалось также за счет введения генеративных состязательных сетей [111] и многоуровневых узких мест [112].

    DNN не только позволили генерировать синтетическую речь высокого качества, но также предоставили множество возможностей для создания речи с различными голосами и стилями речи. Большинство методов создания нового голоса DNN с использованием ограниченного количества обучающих данных основано на использовании моделей с несколькими динамиками. При моделировании с несколькими динамиками требуется большая база данных, состоящая из нескольких динамиков.Каждый выступающий обычно представлен с меньшим количеством данных, чем в случае моделирования одного говорящего. Благодаря разнообразию контекстной информации и лучшему обобщению сети качество речи, воспроизводимой с помощью моделей с несколькими динамиками, аналогично или даже лучше, чем качество речи, полученное с помощью моделей с одним динамиком. Идентичность говорящего в многозвонных системах может быть представлена ​​несколькими способами. Одна группа подходов основана на использовании уникального вектора для каждого говорящего. Этот вектор может быть представлен как вектор i [113] или просто один-горячий вектор [54] и используется при обучении как расширение стандартного ввода или дополнительного ввода для любого из скрытых слоев.Другая группа методов представления идентичности говорящего основана на разделении сети на специфические для говорящего и совместно используемые части. В [53] были представлены отдельные выходные слои для каждого динамика. В [114] были добавлены даже зависящие от языка части сети, но этот подход требует данных от одного и того же говорящего на нескольких языках. Создание нового голоса, образцы которого не были замечены на этапе обучения, в структуре с несколькими динамиками основано на адаптации только зависящей от говорящего части сети [53], оценивая вектор, зависящий от говорящего, для нового говорящего [55] или корректировка параметров нейронов в стартовых моделях [113].В отличие от использования моделей с несколькими динамиками в качестве стартовых моделей для адаптации, в [115] исследуется адаптация, начиная с модели с одним динамиком. Было показано, что для воспроизведения синтетической речи в голосе целевого говорящего требуется только ~ 10 минут речи целевого говорящего, достигающей качества традиционных методов, построенных на базе данных за несколько часов речи. Гипотеза заключалась в том, что модели говорящих A и B более похожи, чем случайно инициализированная модель и модель говорящего B, следовательно, для обучения модели говорящего B требуется меньше данных, начиная с модели говорящего A, чем из случайно инициализированной модели. модель.

    Синтетическая речь должна передавать не только информацию, но и паралингвистическую информацию, такую ​​как эмоциональное состояние. Также существует потребность в поддержке некоторых стилей речи для конкретных задач, таких как новости, реклама, рассказывание историй и предупреждения [116]. Было показано, что эмоции, настроение и сантименты влияют на внимание, память, производительность, суждения и принятие решений у людей [117], что подтверждает необходимость использования разных стилей речи в синтетической речи для многих приложений.В [118] сравниваются три различных метода моделирования стиля. Представленные методы основаны на идеях, представленных в моделировании множества спикеров с использованием входных кодов, сетевой адаптации и разделенных выходных слоев. Было показано, что для воспроизведения речи приемлемого качества в определенном стиле достаточно только ~ 5 минут речи на стиль. Использование входных кодов для представления различных стилей также представлено в [119, 120]. Также были попытки трансплантации стиля, т. Е. Воспроизведение речи голосом говорящего A в стиле X без наличия какого-либо предложения от говорящего A в стиле X в обучающих данных, и в этом случае сеть вынуждена изучать стиль X из другие спикеры в обучающей базе данных [121, 122].

    Хотя DNN показывали, что они чрезвычайно мощные и гибкие, в течение долгого времени одним из их основных недостатков в синтезе речи была их зависимость от использования вокодера. Впервые в 2016 году необработанные аудиосэмплы были напрямую предсказаны DNN с использованием архитектуры WaveNet [51]. Эта модель является полностью вероятностной и авторегрессионной, при этом прогнозируемое распределение для каждого аудиосэмпла обусловлено всеми предыдущими. Когда он обусловлен лингвистическими особенностями, полученными из текста и идентичности говорящего, он может использоваться в качестве TTS и значительно превосходит все другие системы TTS.Основными недостатками этой системы являются необходимость в чрезвычайно больших базах данных и чрезвычайной вычислительной мощности, хотя с тех пор синтез был ускорен за счет внедрения таких подходов, как Parallel WaveNet [123]. Похожая модель под названием DeepVoice была представлена ​​в 2017 году [124]. В DeepVoice каждая часть конвейера TTS заменяется соответствующим DNN. Его основным недостатком является тот факт, что все компоненты системы TTS обучаются независимо, что в конечном итоге приводит к накопительной ошибке синтезированной речи.

    В отличие от систем WaveNet и DeepVoice, которые используют лексические функции в качестве входных данных, существуют системы, которые используют необработанный орфографический текст в качестве входных данных, такие как Tacotron [52], Tacotron 2 [125] и Deep Voice 3 [126]. Tacotron выводит спектрограммы, которые преобразуются в образцы речи с использованием алгоритма Гриффина-Лима, который также вносит артефакты в сгенерированную речь. С другой стороны, спектрограммы, сгенерированные системой Tacotron 2, используются для кондиционирования стандартной архитектуры WaveNet, которая генерирует образцы речи.Архитектура DeepVoice 3 может выводить спектрограммы или другие функции, которые могут использоваться в качестве входных данных для некоторых моделей синтеза сигналов. Адаптация к новым динамикам также исследовалась в сквозных системах [127, 128], а также синтез в различных стилях [129, 130].

    Основное преимущество интегрированной сквозной системы TTS состоит в том, что она требует минимальных человеческих усилий, поскольку нет необходимости маркировать входные данные. Поскольку в сквозных системах значения прямых выборок часто предсказываются [29], использование 16-битных выборок усложняет предсказание, и выполняется некоторый тип квантования.По этой причине улучшенные алгоритмы кодирования и сжатия важны для TTS.

    3.4. Диалоговые системы

    Автоматическое распознавание речи и синтез речи — это технологии с долгой историей. В течение последних пяти десятилетий широкий спектр алгоритмов сформировал наши знания в области речевых технологий. Благодаря недавним достижениям в мире глубокого обучения и искусственных нейронных сетей мы можем в некоторой степени имитировать чувствительность слуховой системы человека, точность распознавания, разборчивость и естественность человеческого голоса, эмоции в синтезированной речи и т. Д.В результате машины могут идентифицировать конкретных говорящих, распознавать человеческие слова в шумной среде или выполнять распознавание непрерывной речи с большим словарным запасом с высокой точностью. Кроме того, с небольшим объемом речевых данных от целевых говорящих они синтезируют высококачественную речь, достаточно хорошую, чтобы стать угрозой для систем автоматической проверки говорящих.

    Естественно возникает вопрос, достаточно ли этого для достижения интеллектуального, естественного и длительного речевого взаимодействия человека и машины.К сожалению, это не так.

    Распознавание и синтез речи — это только два из шести модулей в типичной архитектуре системы речевого диалога, изображенной на рисунке 4, и каждый из шести модулей соответствует определенным когнитивным аспектам, лежащим в основе системы обработки человеческого языка. В результате управление диалогом становится сложной структурой, которая включает в себя взаимодействие нескольких совершенно разных функциональных единиц. Оставляя в стороне разделение диалоговых систем на целевые и нецелевые, мы должны подчеркнуть, что самая большая проблема, с которой сталкиваются ученые в ходе исследований в этой области, — это имитировать человеческую способность понимать смысл и вести беседу, которая является дальновидной. информативный и последовательный.Что касается диалоговых инициатив, машины успешно обрабатывают разговоры, которые являются системной инициативой (или отдельной инициативой). В таких случаях система полностью контролирует разговор и поддерживает процессы распознавания речи, извлечения смысла, генерации ответов и производства речи. Однако, как известно, естественный диалог не является детерминированным, и реальные улучшения в речевом взаимодействии человека и машины могут быть достигнуты только в том случае, если обеспечивается адаптивное поведение в отношении намерения, текущего контекста и истории взаимодействия.

    В качестве традиционного сдвига парадигмы недавние работы в этой области обращались к серии управляемых данными, сквозных обучаемых, не ориентированных на цель систем, основанных на генеративных вероятностных моделях [131]. Таким образом, эти модели можно рассматривать как искусственные когнитивные системы, нацеленные на группировку и выполнение традиционных задач управления диалогом: понимание языка, рассуждение, принятие решений и создание естественного языка. Это основанные на корпусах, управляемые данными диалоговые системы, основанные на алгоритмах машинного обучения с использованием корпусов, созданных из реальных словесных данных.Статистика, наблюдаемая в корпусах диалогов, является основным знанием для оптимизации параметров и переменных.

    Стоит отметить, что, помимо важности знания предметной области, лингвистический контекст имеет решающее значение для активного и увлекательного разговора. Однако один из основных недостатков этих подходов связан с проблемами разреженности, которых можно ожидать при интеграции контекстной информации в статистические модели. В работе Sordoni et al. [132], архитектура нейронной сети используется для решения этой проблемы, позволяя системе учитывать предыдущие диалоги.Моделируя контекстную информацию, авторы идентифицируют модели для трех лингвистических сущностей в разговоре: контекста ( c ), сообщения ( m ) и ответа ( r ). На этом основании они предлагают три основанные на контексте модели генерации для оценки ответа следующим образом:

    Эта работа расширяет рекуррентные языковые модели нейронных сетей (RNNLM) в качестве генеративной модели предложений [133]. В качестве основного принципа в этой модели нейронной сети входной вектор, представляющий текущее слово в момент времени t , объединяется с выходом нейронов в слое контекста сети в момент времени t -1.Чтобы зафиксировать длительные зависимости вместе с семантическим и синтаксическим сходством, авторы выбирают встраивание слов как непрерывное представление слов и фраз. Подобные подходы уже продвинули классическое языковое моделирование, основанное на традиционных языковых моделях n -грамм [134, 135].

    В соответствии с этим многие исследователи пытаются использовать преимущества сочетания нейронной сети и возможностей сквозного обучения с большим количеством свободно доступных текстовых или аудиоматериалов из социальных сетей, сценариев фильмов и т. Д.[136]. Serban et al. [137], например, продемонстрировал введение скрытых переменных в иерархическую архитектуру рекуррентного кодера-декодера. Исследование, представленное в [138], расширило иерархическую структуру с помощью механизма внимания (внимание на уровне слов и внимание на уровне высказываний), учитывая, что слова и высказывания в контексте имеют различную важность.

    Хотя сквозные статистические модели стали основой большинства недавних исследований диалоговых систем, многие проблемы остаются нерешенными [131].Модели на основе нейронных сетей способны обрабатывать большие объемы данных, но все же сложно спроектировать интеллектуальную систему, основанную на имитации ответов (особенно, если мы принимаем во внимание, что данные диалога для конкретной области довольно ограничены). Следовательно, чтобы уменьшить эти ограничения, Mišković et al. [36] предложили другой, репрезентативный подход. Эта работа расширяет модель дерева фокуса, когнитивную вычислительную модель рабочей памяти, которая позволяет адаптивно управлять диалогом при взаимодействии человека с машиной.Исследование не только сосредоточено на усовершенствовании модуля распознавания речи, но и указывает на возможные новые архитектурные аспекты диалоговых систем. Исходя из предположения об иерархической и ассоциативной природе системы памяти человека и фактов о том, что обработка диалога пользователя при взаимодействии человека с машиной всегда зависит от контекста, эта модель в некоторой степени обеспечивает понимание языка и реальных словесных данных.

    4. Прогресс в сжатии, кодировании и передаче речевых сигналов

    В общем, речевые кодеры можно разделить на три основные категории в зависимости от применяемой техники кодирования: кодеры формы сигнала, параметрические кодеры и гибридные кодеры.Основная идея, лежащая в основе конструкции кодера формы волны, состоит в том, чтобы сохранить форму волны речевого сигнала, тем самым кодируя информацию об исходной форме волны во временной области [4–6, 14, 139]. Такие кодеры широко используются во встроенных приложениях по нескольким причинам: низкая стоимость изготовления, низкое использование вычислительных ресурсов и высокое качество речи [4–7, 14, 139]. Самым простым и наиболее известным типом кодеров сигналов является кодер с импульсной кодовой модуляцией (ИКМ), который считается стандартом в цифровой телефонии.Одним из ключевых преимуществ кодеров PCM является то, что они работают мгновенно, что подразумевает задержку кодирования не более одного периода выборки [4]. В отличие от кодеров формы сигнала, которые стремятся восстановить исходную форму речевого сигнала во временной области, параметрические кодеры восстанавливают речевой сигнал по определенным параметрам, которые моделируют исходный сигнал, не пытаясь сохранить исходную форму сигнала [4-7 , 14, 139]. Из-за этого ограничения параметрические кодеры более зависимы от сигнала и менее универсальны.Кроме того, по сравнению с кодировщиками сигналов они обеспечивают более низкое качество речевых сигналов. В параметрических кодерах механизм формирования речи человека моделируется с помощью изменяющегося во времени фильтра, коэффициенты которого обычно определяются процедурой анализа с линейным предсказанием. В конце концов, гибридные кодеры представляют собой класс кодеров, которые сочетают в себе особенности обоих ранее описанных классов кодеров, а именно гибридные кодеры, как правило, сохраняют форму сигнала во временной области, а также используют характеристики восприятия, то есть параметрический подход [ 4–6, 14, 140].Сравнение производительности этих трех классов кодеров представлено на рисунке 5, где средняя оценка мнения (MOS) используется в качестве одного из стандартных субъективных показателей качества восстановленного речевого сигнала [4].

    Из рисунка 5 можно сделать вывод, что кодеры формы волны обеспечивают превосходное качество восстановленного речевого сигнала и что они представляют лучший выбор при скорости передачи данных выше 16 кбит / с, тогда как параметрические кодеры не могут обеспечить высокое качество независимо от скорости передачи данных. С другой стороны, параметрические кодеры обеспечивают гораздо лучшее качество, чем кодеры сигналов при низких скоростях передачи данных.Наконец, гибридные кодеры наиболее подходят для средних битрейтов. Что касается синтеза речи и автоматического распознавания речи, желательно максимально возможное качество восстановленного сигнала, и кодеры формы волны обычно считаются адекватным выбором. Таким образом, нижеследующее сосредоточено на методах кодирования PCM и адаптивного PCM (ADPCM).


    4.1. Adaptive PCM

    Речевой сигнал можно рассматривать как нестационарный процесс, средняя мощность которого значительно колеблется во временной области, что приводит к широкому динамическому диапазону [4].Однако речевой сигнал можно рассматривать как практически стационарный за короткий промежуток времени (до 30 мс). Это означает, что речевой сигнал имеет хорошо предсказуемые характеристики в течение коротких периодов времени, что подходит для использования адаптивного квантования [4, 8–10, 141–147]. Обычно адаптивное квантование основано на кадрах, когда кадры формируются путем разделения входного речевого сигнала на наборы выборок.

    Существует две принципиально различных категории методов адаптивного квантования: методы прямого и обратного адаптивного квантования [141].Прямые адаптивные методы требуют передачи дополнительной информации о предполагаемом усилении, которая используется для адаптации. Более того, прямые адаптивные методы требуют более длительной задержки обработки, чем обратные адаптивные методы, поскольку выборки в кадре должны храниться в буфере, чтобы оценивать предсказуемые характеристики каждого кадра. Когда усиление оценено и квантователь адаптирован, выборки могут быть квантованы и далее переданы в декодер вместе с квантованным усилением.

    Общая прямая адаптивная модель ИКМ представлена ​​на рисунке 6 [8, 10]. Кодер состоит из двух частей: фиксированной (неадаптивной) части, состоящей из фиксированного квантователя Q f , и адаптивной части, состоящей из буфера, блока оценки усиления, одного делителя и квантователя фиксированного усиления Q г . Если Q f является кусочно-линейным квантователем μ , предназначенным для 8 бит / отсчет, и μ = 255, общая модель прямой адаптации становится прямой адаптивной моделью PCM, определенной G.711 стандарт [148].

    В отличие от прямой адаптации, обратная адаптация не оценивает характеристики выборок в кадре во время кодирования, что означает, что нет дополнительной информации, которая должна быть передана [149]. Фактически, оценка усиления выполняется в приемнике после декодирования с учетом предварительно квантованных отсчетов. Простейшая модель обратного адаптивного квантования основана на равномерном квантовании с использованием памяти с одним кодовым словом для оценки усиления, и ее обычно называют моделью Джаянта [4].

    Расширенные обратно адаптивные модели обычно включают более сложные методы оценки усиления или методы оценки дисперсии, которые для квантования текущей выборки x ( n ) обычно используют большее количество ранее декодированных выборок [4]: ​​где α — это весовой параметр, который может принимать значения 0 < α <1. Параметр α определяет период обучения, то есть время, необходимое для оценки дисперсии [4]: ​​

    Уравнение (2) может быть записанный в следующей рекурсивной форме: который напрямую используется в простейшей математической модели обратного квантователя Jayant с памятью одного кодового слова.Одна из реализаций обратной адаптивной ИКМ с одной памятью кодового слова, которая включает широко используемую модель компандирования квантования, показана на рисунке 7, где обозначает множитель размера шага, используемый для адаптации, и c ( x ) и c -1 ( x ) — это функция сжатия и функция расширения, соответственно.

    4.2. Двухрежимное квантование

    Двухрежимные и адаптивные двухрежимные квантователи относятся к относительно новому классу квантователей, конструкция которых основана на многопараметрической адаптации, такой как дисперсия и максимальная амплитуда [8, 9, 11].В зависимости от их назначения и применения они могут выполнять адаптацию квантователя в соответствии с дисперсией кадра и максимальной амплитудой кадра x max , а также в соответствии с максимальной амплитудой подкадра. Используя два квантователя, которые составляют двухрежимную систему, и применяя метод переключения, можно достичь лучшего качества квантованного сигнала или более высокого сжатия по сравнению с обычными одномодовыми квантователями. На рисунке 8 показана схема двухрежимного квантования, где кодер 1 и декодер 1 относятся к квантователю, применяемому для обработки сигналов, имеющих ограниченный диапазон амплитуд, тогда как кодер 2 и декодер 2 относятся к квантователю, применяемому для обработки сигналов, имеющих неограниченный диапазон амплитуд [8, 9, 11].Переключаемый процесс основан на кадрах и выполняется так, что ограниченный квантователь используется в случае, если все выборки в кадре принадлежат области поддержки ограниченного квантователя, в то время как неограниченный квантователь используется в противном случае [8, 9, 11] . Основная идея такой модели квантования состоит в том, чтобы сделать возможным более предпочтительный выбор ограниченного квантователя с более узкой поддерживающей областью, чем неограниченный, поскольку таким образом может быть обеспечено увеличение отношения сигнала к шуму квантования.

    Учитывая, что речевой сигнал может быть описан с помощью функции плотности вероятности Гаусса (PDF) или лапласианской PDF, которая имеет тяжелые хвосты, ожидается, что только небольшой процент речевых кадров будет иметь некоторые образцы с большими значениями. Однако это также зависит от размера кадра. Следовательно, пороговые значения области поддержки для обоих квантователей должны быть выбраны так, чтобы ограниченное использование квантователя было доминирующим, но с учетом также размера кадра и всей динамики входного сигнала, чтобы достичь минимума общего искажения, вносимого в процесс квантования [8, 9, 11].

    4.3. Дифференциальная импульсно-кодовая модуляция

    Дифференциальная импульсно-кодовая модуляция (DPCM) представляет собой простую, но высококачественную схему кодирования речевого сигнала для средних скоростей передачи данных. Первоначально он использовал равномерное квантование и предсказание первого порядка [150, 151]. Как уже обсуждалось, речевой сигнал имеет хорошо предсказуемые характеристики внутри кадра, что используется для уменьшения динамического диапазона амплитуд для квантования в схеме DPCM [4, 12, 13, 152, 153]. В частности, DPCM предсказывает следующее значение амплитуды выборки и кодирует разницу между предсказанным значением и значением текущей амплитуды входного сигнала.Из-за высокой корреляции эти различия имеют гораздо меньшие значения по сравнению с выборками входного сигнала, так что динамический диапазон амплитуд значительно уменьшается перед квантованием. Соответственно, при подходящей конструкции системы ДИКМ определенное искажение может обеспечиваться при более низких скоростях передачи битов по сравнению с системой ИКМ. Другими словами, с системой DPCM может быть достигнуто достойное сжатие по сравнению с PCM.

    Более сложные решения могут включать в себя предсказание более высокого порядка или другие виды моделей квантования, такие как модель квантования с адаптацией к усилению [154].На рисунке 9 показана схема DPCM со встроенным простым предсказателем первого порядка и квантователем с адаптацией к усилению на основе оптимальной модели компандирования [151].

    В системе DPCM, показанной на рисунке 9, восстановленный речевой сигнал определяется следующим образом: где обозначает выходной сигнал адаптивного квантователя, тогда как n обозначает n -й отсчет сигнала. Можно отметить, что значение параметра a зависит от природы входного сигнала. Если входной сигнал сильно коррелирован, предпочтительно использовать значения, близкие к 1 (например,g., a = 0,8), тогда как значения, близкие к нулю, предпочтительны для слабокоррелированных сигналов (например, a = 0,3). Однако выбор параметра a — непростая задача, даже если применяется адаптация. Определение коэффициентов линейного предсказателя может быть выполнено с использованием методов, основанных на статистическом обучении, таких как метод оценки наименьших средних квадратов (LMS) [155]. Алгоритм поиска LMS снижает искажения, адаптируя коэффициенты для каждой входной выборки, и его основными особенностями, привлекающими внимание исследователей, являются низкая вычислительная сложность, доказательство сходимости в стационарной среде, несмещенная сходимость в среднем к решению Винера и стабильное поведение при реализации с арифметика конечной точности [156].Более того, коэффициенты линейного предсказателя, а также определение других важных параметров для проектирования квантователя могут быть определены с использованием искусственных нейронных сетей или методов регрессии.

    5. Выводы

    В этой обзорной статье представлен обзор последних разработок речевых технологий и других связанных с ними научных областей, в основном благодаря развитию новой парадигмы машинного обучения, оказавшей огромное влияние в этой области. . Помимо производства естественной речи и восприятия речи, понимание когнитивных аспектов речевого общения очень важно для будущих систем HCI, включая как понимание разговорного языка, так и генерацию в качестве языковых технологий.Парадигма машинного обучения оказала большое влияние на автоматическое распознавание речи (ASR) и синтез текста в речь (TTS) в качестве базовых речевых технологий. Ожидается, что системы ASR, основанные на глубоком обучении и адаптивных алгоритмах, в ближайшем будущем смогут распознавать спонтанную речь в сложных акустических средах с точностью, превосходящей соответствующие способности людей. Синтетическая речь уже достигла такого качества, которое трудно или невозможно отличить от человеческой речи.Благодаря гибкости изменения динамика и стиля, HCI становится таким же приятным и естественным, как взаимодействие человека и человека. Алгоритмы машинного обучения без учителя и с подкреплением также будут развиваться дальше, что, в свою очередь, приведет к прогрессу в областях, где недоступны большие наборы данных, как в случае анализа речи для распознавания и синтеза речи для языков с ограниченными ресурсами. Краткий обзор методов кодирования речи и текущего прогресса в адаптивном скалярном квантовании был представлен, поскольку качество оцифрованного и сжатого речевого сигнала важно для точного автоматического обнаружения и синтеза речевого сигнала.Хотя эти методы могут быть разработаны так, чтобы быть устойчивыми в широком динамическом диапазоне вариаций речевого сигнала или быть адаптивными к кадрам, можно ожидать, что инструменты машинного обучения, набирающие популярность, приведут к новым решениям, которые улучшат производительность различных систем за счет адаптация прогнозных коэффициентов. В заключение, мы являемся свидетелями все более быстрого прогресса в области обработки речевых сигналов благодаря парадигмам машинного обучения, и кажется очень трудно предсказать, что они принесут дальше и как скоро этого можно будет ожидать.

    Конфликт интересов

    Авторы заявляют об отсутствии конфликта интересов в отношении публикации этой статьи.

    Благодарности

    Работа, описанная в этом документе, была частично поддержана Министерством образования, науки и технологического развития Республики Сербия в рамках проекта «Развитие диалоговых систем для сербских и других южнославянских языков» (TR32035) .

    Убеждение, сущность дипломатии

    Убеждение, сущность дипломатии было подготовлено в честь проф.80 лет со дня рождения Дитриха Каппелера, основателя Средиземноморской академии дипломатических исследований и DiploFoundation.

    Убеждение — одна из нитей, связывающих древних дипломатов с дипломатией двадцать первого века в цифровую эпоху. Сегодня, как всегда, убедить и / или быть убежденным — одна из ключевых задач дипломата. Инструменты социальных сетей, такие как Twitter и Facebook, возможно, немного изменили игровое поле, но суть дипломатии остается прежней.

    Убеждение — опосредованное языком влияние, мирное и искреннее изменение дипломатических взглядов и совпадение позиций — было и будет ценным навыком, характеристикой, которую мы разделяем с самыми ранними дипломатами, нашими предшественниками.

    В этой публикации и на семинаре «Убеждение, сущность дипломатии» (Женева, 3 апреля 2013 г.), среди прочего, рассматриваются следующие вопросы:

    • Согласны ли вы с мнением профессора Каппелера о том, что убеждение — это сущность дипломатии? Это отражает ваш опыт?
    • Убеждение подразумевает изменение психического состояния убежденной стороны. Вы лично пытались изменить и преуспели в изменении идей своих коллег или дипломатических собеседников в целом?
    • Когда вам удалось убедить их, то, что, по вашему мнению, было решающим фактором: аргументы, эмоции, риторические навыки, структура стимулов, таких как награды и штрафы.

    Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *