Внимание послепроизвольное примеры: внимание послепроизвольное | это… Что такое внимание послепроизвольное?

10. Внимание и его виды

5.Внимание.

П.Я. Гальперин, В. Вундта, Н.Ф. Добрынин, И.М. Сеченова, И.П. Павлова, А.А. Ухтомского. Корректурная проба (Тест Бурдона) Методика «Таблицы Шульте», Методика Горбова «Красно-черная таблица», Методика изучения уровня внимания (П.Я.Гальперин, С.Л.Кабылицкая)

1Внимание – это направленность, сосредоточенность сознания человека на определенном предмете.

Внимание никогда не выступает как самостоятельный процесс, а только как сторона этого процесса. Внимание не имеет самостоятельного продукта.

Специфика: 1. не является самостоятельным психическим процессом и особым свойством личности. 2. не имеет своего особого продукта. 3. сопровождает все психические процессы и является необходимым условием их эффективного протекания.

2 Виды внимания:

Непроизвольное внимание – внимание, вызываемое объектом.

Т.е. внимание само по себе, без старания и воли человека направляется на объект (например, появление нового человека в компании)

Причины возникновения непроизвольного внимания:

Неожиданность раздражителя. Относительная сила раздражителя. Новизна раздражителя. Движущиеся предметы. Т. Рибо выделил именно этот фактор, считая, что в результате целенаправленной активизации движений происходит концентрация и усиление внимания на предмете. Контрастность предметов или явлений. Внутреннее состояние человека.

Особую роль играют: доминирующая мотивация ( испытывающий жажду, обращает внимание на все связанное с жидкостью, а утолив жажду, не обращает внимания на емкости с напитками), отношение к объекту познания или деятельности (профессионал при взгляде на книжный лоток в первую очередь обращает внимание на книги, связанные с его специальностью).

Произвольное

внимание – внимание, поддерживаемое усилиями субъекта. Мы обращаем внимание на объект по собственному желанию, по просьбе другого человека, по необходимости, усилием воли удерживая внимание на объекте в течение некоторого времени. Возникновение произвольного внимания у человека исторически связано с процессом труда, так как без управления своим вниманием невозможно осуществлять сознательную и планомерную деятельность.

Послепроизвольное внимание было введено в психологию Н.Ф.Добрыниным при котором в наличии сознательный выбор объекта внимания, но отсутствует напряжение, характерное для произвольного внимания. Возникает на основе произвольного внимания, когда появляется интерес к тому, что вначале не привлекало внимание., например, студент приступает к написанию реферата. Он постоянно отвлекается, — то ищет ручку, то разговаривает и т.д. Продолжение работы требуй значительного усилия, приходится «заставлять себя». Но по мере выполнения работы тема реферата увлекает студента настолько, что он с головой уходит в работу, не замечая прошедшего времени, а отвлечение работы вызывает негативные эмоции.

3 Формы внимания

внешнее внимание (сенсорно-перцептивное) — на объекты внешнего мира. Необходимое условие познания и преобразования внешнего мира;

внутреннее внимание (интеллектуальное) — Необходимое условие самопознания и самовоспитания;

моторное (двигательное) внимание;

4 Основными функциями внимания являются:

Для мышления внимание выступает как обязательный фактор пра­вильного понимания и решения задачи.

5 Свойства внимания.

Свойства.

Концентрация – удержание внимания на каком-либо объекте. Такое удержание означает выделение «объекта» в качестве некоторой определённости, фигуры, из общего фона. Это степень сосредоточения психики, сознания на объекте, деятельности. Концентрация зависит от: объёма и распределения внимания, содержания и степени трудности деятельности, обстановки, волевых качеств, свойств характера, темперамента (сангвиники, флегматики – высокая; холерики, меланхолики – низкая) Зависит от силы и уравновешенности НС.

Объём – это количество однородных предметов, которые могут восприниматься одновременно и с одинаковой четкостью. По этому свойству внимание может быть либо узким, либо широким. правильно воспринять и осознать в условиях одноразового и кратковременного восприятия. (7 +/- 2) – Согласно Корневой Л.В. объем внимания от 4 — 7 объектов.

Распределение – проявляется в одновременном выполнении человеком 2-х или нескольких видов деятельности. Условия успешного распределения – автоматизация 1 из видов деятельности, содержание совмещаемых видов – легко совмещать умственную и физическую.

Способность к сосредоточенному или, наоборот, к распределенному вниманию формируется в процессе овладения деятельностью, она может быть развита в процессе практической деятельности, путем упражнений и накопления соответствующих навыков.

Устойчивость – длительность сосредоточения на объекте или деятельности. Влияют те же факторы, что и на концентрацию. Показателем устойчивости внимания является высокая продуктивность деятельности в течение относительно длительного времени. Если внимание неустойчиво, то качество работы резко снижается.

На устойчивость внимания влияют факторы:

· увеличение сложности объекта. Сложные объекты вызывают сложную активную мыслительную деятельность, с чем связана длительность сосредоточения; активность личности; эмоциональное состояние человека. Под влиянием сильных раздражителей может возникнуть неустойчивость внимания, отношение к деятельности; темп деятельности.

Переключаемость – произвольное переключение внимания с 1 объекта (деятельности) на другой. На переключ-ть влияют: содержание деятельности (легче переключается со скучной на интересную) и степень сложности. Различают полное и неполное (завершенное и незавершенное) переключение внимания. При неполном после переключения на новую деятельность периодически происходит возврат к предыдущей, что ведёт к ошибкам и снижению темпа работы. Переключаемость внимания затруднена при его высокой концентрации, и это часто приводит к так называемым ошибкам рассеянности.

6 Классификации видов.

1. классиф-ия Рибо:

• непроизвольное внимание (природное, биологически обусловленное, не требует спец. усилий для поддержания)

• произвольное внимание (имеет социальную природу, впервые у человека возникает как продукт воспитания)

2. классиф-ия Вундта:

• по способу поддержания: непосредственное (в основе поддержания – интерес к объекту) и опосредованное (объект не представляет интереса, но косвенно связан с тем, что интересно, полезно)

• по объекту: чувственное (восприятие) и интеллектуальное

• непроизвольное

• произвольное

3. классиф-ия Титчинера (виды, как стадии в развитии внимания):

• непроизвольное=пассивное=первичное

• произвольное=активное=вторичное

• производное первичное или послепроизвольное (вторичное внимание переходит в первичное)

4. классиф-ия Добрынина:

• непроизвольное (пассивное, эмоциональное)

• произвольное (активное, волевое)

• послепроизвольное – он ввёл этот термин

Функции внимания:

— обраужение сигнала.

— бдительность

— поиск

активизирует нужные и тормозит ненужные в данный момент психологические и физиологические процессы,

Обеспечение отбора поступающей в организм информации в соответствии с его актуальными потребностями.

— Обеспечение избирательной и длительной сосредоточенности психической активности на одном объекте или виде деятельности-определяет точность и детализацию восприятия,

-определяет Для мышления внимание выступает как обязательный фактор пра­вильного понимания и решения задачи.мыслительной деятельности.

-является своеобразным усилителем для перцептивных( в восприятии) процессов, позволяющим различать детали изображений.

-выступает для человеческой памяти как фактор, способный удерживать нужную информацию в кратковременной и оперативной памяти, как обязательное условие перевода запоминаемого материала в хранилища долговременной памяти.

для мышления выступает как обязательный фактор правильного понимания и решения задачи.

-в системе межчеловеческих отношений способствует лучшему взаимопониманию, адаптации людей друг к другу, предупреждению и своевременному разрешению межличностных конфликтов.

-о внимательном человеке говорят как о приятном собеседнике, тактичном и деликатном партнере по общению.

-внимательный человек лучше и успешнее обучается, большего достигает в жизни, чем недостаточно внимательный.

— регуляция и контроль протекания деятельности.

Виды и сравнительная характеристика.

Непроизвольное – биологическое, нецеленаправленное, неволевое. Причины возникновения:

• внешние (особенности действующих раздражителей): сила раздражителя, новизна, величина, движение, длительность, контрастность

• внутренние (связаны с особенностями самого человека): интерес+эмоции+потребности

• соответствие между внешними и внутренними факторами = значимые раздражители

Произвольное – социальное, целенаправленное, волевое. Объект – то, что необходимо для какой-либо деятельности. Наличие цели. Требует от человека усилия воли.

Послепроизвольное – социальное, целенаправленное, неволевое. Возникает на основе произвольного внимания, когда появляется интерес к тому, что вначале не привлекало внимание.

Конспект урока по психологии по теме «Послепроизвольное внимание. Свойства внимания (объем, избирательность)». | План-конспект урока по теме:

I.Организационный момент.

II.Постановка цели.

III.Объяснение нового материала.

IV. Итог

-Здравствуйте! Садитесь!

-На прошлом занятии вы познакомились с определением внимания и его видами: произвольное и непроизвольное внимание. Сегодня вы познакомитесь еще с одним видом внимания – послепроизвольное внимание, а также со свойствами внимания, как объем и избирательность.

-Но сначала я хочу вам дать некоторые рекомендации, как можно помочь себе лучше сосредоточиться на чем-то однообразном, неинтересном, но необходимом:

1. Заниматься делами, требующими сосредоточенности, лучше в период своей наибольшей работоспособности. Некоторым людям хорошо думается с утра: голова свежая, солнышко ярко светит. Некоторые любят «заседать» ночью: в ночной тишине в голову приходят неожиданные, оригинальные мысли, свежие решения.

2.Если устал или болеешь, то придется отложить сложные дела «до лучших времен».

3.Если озабочен какими-то другими делами или проблемами, то сосредоточится на данном предмете трудно. Постарайся на время забыть о постороннем и полностью погрузиться в то, чем сейчас занимаешься.

4.На умственной деятельности легче сосредоточиться, если подкрепить ее практическими действиями. Например, чтение сопровождать конспектированием. Или попытаться понять сложный физический закон, решая конкретную интересующую тебя задачу (сколько секунд будет лететь с 9-го этажа наполненный водой воздушный шарик и с какой силой он ударит в асфальт; а если пустить его с 16-го этажа и наполнить песком?).

5.Представь, что объясняешь этот материал кому-то, кто этого не знает или не понимает. Или поупражняйся в умении пояснять сложные вещи самому себе.

6.Найди в данном деле свой интерес. В жизни может пригодиться все — смотря как она повернется.

-Теперь, рассматривая тему нашего сегодняшнего урока можно сказать, что кроме непроизвольного и произвольного внимания, существует еще и послепроизвольное внимание, в ходе которого сознательное выполнение какой-либо деятельности настолько поглощает и заинтересовывает человека, что не требует волевых усилий. Такое состояние может длиться часами, и человек не устает. Послепроизвольное внимание является самым эффективным и длительным.

-Приведите мне примеры всех трех видов внимания. Какое внимание встречается у вас чаще всего? Хотелось бы вам это изменить?

-…

-Спасибо!

-Внимание имеет свои отличительные особенности – свойства. К свойствам внимания относятся: объем, устойчивость, концентрация, избирательность, распределение и переключение. Внимание каждого человека индивидуально. Сегодня на уроке мы рассмотрим такие свойства внимания, как объем и избирательность, и вы измерите свои собственные показатели этих характеристик.

-Сейчас я попрошу вас выполнить следующее задание. Я покажу вам на одну секунду рисунок, на котором будет несколько чисел. Посмотрите внимательно, какие числа будут написаны, а когда я уберу рисунок, сложите их и запишите сумму. Начали! (см. приложение1)

— Слушаю ваши варианты ответов.

-…

-Спасибо! Молодцы!

-Ребята, а назовите мне, пожалуйста, фигуры, в которые были вписаны цифры?

-…

-Хорошо!

-Вот как раз люди не обращают на это внимания, а точнее – им не хватает объема внимания, чтобы заметить и цифры, и фигуры. Итак, объем внимания – это то количество объектов, которые могут быть одновременно и отчетливо восприняты за относительно короткий период времени. Кроме объема, в этом задании проявилась и избирательность внимания – установка на выбор из множества объектов только некоторых. Если бы было дано задание запомнить и цифры, и фигуры, куда они вписаны, то внимание было бы организовано по – другому, но объема его также могло бы не хватить на выполнение задания полностью.

-Выполним следующее задание. Сейчас каждому на парту я положу лист, на котором изображены 9 квадратов размером пять на пять клеток (всего 25 клеток). Затем я буду вам показывать изображения (см. приложение 2). Каждое изображение будет демонстрироваться очень быстро (почти мгновенно), после чего вы должны проставить у себя в квадрате те значки, которые успели заметить, и в соответствующих образцу местах. Итак, начнем выполнение задания.

-…

-Хорошо! Если все сделали, теперь можно посчитать число правильных ответов в каждом квадрате. Я каждому раздам образец. После чего вы вычисляете среднее арифметическое. Это и есть индивидуальный объем внимания человека. Обычно точно замечают от 4 до 6 фигур. 

-…

-Хорошо!

-Можно также определить и объем слухового внимания. Я предлагаю выполнить следующее задание. Перед классом прошу выйти 6-8 учеников. Еще одного ученика попрошу выйти за дверь. Группа выбирает строчку из популярной песни, стихотворение, пословицу и т.п. – всего 6-8 слов. Каждый из учащихся берет себе по одному слову. Когда войдет ученик, который стоит за дверью, по сигналу все члены группы должны будут одновременно сказать каждое свое слово. Вошедший должен отгадать всю строчку. Начнем!

-…

-Спасибо большое!  

-Убедительная просьба, принести на следующее занятие любой печатный текст, на котором можно будет писать (страница старой книги, газета, журнал), с хорошо видным шрифтом и не очень сложным содержанием, — чтобы можно было быстро пробегать глазами. Спасибо!

Итак, сегодня на уроке вы познакомились с послепроизвольным внимание, а также свойствами внимания объем и избирательность.  

The Illustrated Transformer — Джей Аламмар — Визуализация машинного обучения по одной концепции за раз.

Обсуждения: Hacker News (65 баллов, 4 комментария), Reddit r/MachineLearning (29 баллов, 3 комментария)
Переводы: Арабский, Китайский (упрощенный) 1, Китайский (упрощенный) 2, Французский 1, Французский 2, Японский, Корейский, Персидский, Русский, Испанский, Вьетнамский
Смотреть: лекция MIT Deep Learning State of the Art со ссылкой на этот пост

В предыдущем посте мы рассмотрели внимание — вездесущий метод в современных моделях глубокого обучения. Внимание — это концепция, которая помогла повысить производительность приложений нейронного машинного перевода. В этом посте мы рассмотрим Трансформер — модель, использующая внимание для повышения скорости обучения этих моделей. Transformer превосходит модель нейронного машинного перевода Google в определенных задачах. Однако самое большое преимущество заключается в том, как The Transformer поддается распараллеливанию. На самом деле Google Cloud рекомендует использовать Transformer в качестве эталонной модели для использования своего предложения Cloud TPU. Итак, давайте попробуем разобрать модель и посмотреть, как она работает.

Трансформатор был предложен в статье «Внимание — это все, что вам нужно». Его реализация TensorFlow доступна как часть пакета Tensor2Tensor. Гарвардская группа НЛП создала руководство, аннотирующее документ с реализацией PyTorch. В этом посте мы попытаемся немного упростить вещи и представить концепции одну за другой, чтобы, надеюсь, их было легче понять людям, не обладающим глубокими знаниями предмета.

Обновление 2020 : Я создал видео «Рассказанный трансформер», которое представляет собой более мягкий подход к теме:

Взгляд высокого уровня

Давайте начнем с рассмотрения модели как единого черного ящика. В приложении для машинного перевода оно берет предложение на одном языке и выводит его перевод на другом.

Открывая этот Оптимус Прайм, мы видим компонент кодирования, компонент декодирования и связи между ними.

Компонент кодирования представляет собой стопку энкодеров (бумага укладывает их шесть друг на друга — в числе шесть нет ничего волшебного, с другими расположениями определенно можно поэкспериментировать). Компонент декодирования представляет собой стек декодеров с одинаковым номером.

Все энкодеры идентичны по структуре (однако они не имеют общего веса). Каждый из них разбит на два подуровня:

Входные данные кодировщика сначала проходят через уровень внутреннего внимания — слой, который помогает кодировщику смотреть на другие слова во входном предложении, когда он кодирует конкретное слово. Мы подробнее рассмотрим само-внимание позже в этом посте.

Выходные данные уровня внутреннего внимания передаются в нейронную сеть с прямой связью. К каждой позиции независимо применяется одна и та же сеть прямой связи.

Декодер имеет оба эти уровня, но между ними находится уровень внимания, который помогает декодеру сосредоточиться на соответствующих частях входного предложения (аналогично тому, что делает внимание в моделях seq2seq).

Привнесение тензоров в картину

Теперь, когда мы рассмотрели основные компоненты модели, давайте начнем рассматривать различные векторы/тензоры и то, как они перетекают между этими компонентами, чтобы превратить ввод обученной модели в вывод.

Как и в случае с приложениями НЛП в целом, мы начинаем с преобразования каждого входного слова в вектор с помощью алгоритма встраивания.

Каждое слово встроено в вектор размером 512. Мы будем представлять эти векторы с помощью этих простых прямоугольников.

Встраивание происходит только в самом нижнем кодировщике. Абстракция, общая для всех кодировщиков, заключается в том, что они получают список векторов, каждый из которых имеет размер 512. В нижнем кодировщике это будут вложения слов, но в других кодировщиках это будут выходные данные кодировщика, который находится непосредственно ниже. . Размер этого списка — это гиперпараметр, который мы можем установить — в основном это будет длина самого длинного предложения в нашем наборе обучающих данных.

После встраивания слов в нашу входную последовательность каждое из них проходит через каждый из двух слоев кодировщика.


Здесь мы начинаем видеть одно ключевое свойство Преобразователя, а именно то, что слово в каждой позиции проходит в кодировщике по своему пути. Между этими путями на уровне внимания к себе существуют зависимости. Однако уровень прямой связи не имеет таких зависимостей, и поэтому различные пути могут выполняться параллельно при прохождении через уровень прямой связи.

Далее мы переключим пример на более короткое предложение и посмотрим, что происходит на каждом подуровне кодировщика.

Теперь кодируем!

Как мы уже упоминали, энкодер получает на вход список векторов. Он обрабатывает этот список, передавая эти векторы в слой «самовнимания», затем в нейронную сеть с прямой связью, а затем отправляет выходные данные вверх следующему кодировщику.

Слово в каждой позиции проходит через процесс внутреннего внимания. Затем каждый из них проходит через нейронную сеть с прямой связью — точно такую ​​же сеть, в которой каждый вектор проходит через нее отдельно.

Внимание к себе на высоком уровне

Не дайте себя одурачить тем, что я разбрасываюсь словом «внимание к себе», как будто это понятие, с которым должен быть знаком каждый. Я лично никогда не сталкивался с этой концепцией, пока не прочитал статью «Внимание — это все, что вам нужно». Давайте разберемся, как это работает.

Допустим, следующее предложение является входным предложением, которое мы хотим перевести:

Животное не перешло улицу, потому что оно слишком устало

Что означает «оно» в этом предложении? Это относится к улице или к животному? Это простой вопрос для человека, но не такой простой для алгоритма.

Когда модель обрабатывает слово «оно», внутреннее внимание позволяет ей ассоциировать «оно» с «животным».

По мере того, как модель обрабатывает каждое слово (каждую позицию во входной последовательности), самостоятельный поиск позволяет ей искать в других позициях во входной последовательности подсказки, которые могут привести к лучшему кодированию этого слова.

Если вы знакомы с RNN, подумайте о том, как поддержание скрытого состояния позволяет RNN объединять свое представление предыдущих слов/векторов, которые она обработала, с текущим, который она обрабатывает. Самовнимание — это метод, который Трансформер использует, чтобы встроить «понимание» других релевантных слов в то, которое мы сейчас обрабатываем.

Поскольку мы кодируем слово «оно» в кодировщике № 5 (верхнем кодировщике в стеке), часть механизма внимания фокусируется на «Животном» и запекает часть его представления в кодировку «оно».

Обязательно ознакомьтесь с записной книжкой Tensor2Tensor, где вы можете загрузить модель Transformer и изучить ее с помощью этой интерактивной визуализации.

Самовнимание в деталях

Давайте сначала рассмотрим, как рассчитать самовосприятие с помощью векторов, а затем перейдем к тому, как это на самом деле реализуется — с помощью матриц.

Первым шагом в вычислении собственного внимания является создание трех векторов из каждого из входных векторов кодировщика (в данном случае встраивание каждого слова). Итак, для каждого слова мы создаем вектор запроса, вектор ключа и вектор значения. Эти векторы создаются путем умножения вложения на три матрицы, которые мы обучали в процессе обучения.

Обратите внимание, что эти новые векторы меньше по размеру, чем вектор вложения. Их размерность равна 64, в то время как векторы ввода/вывода встраивания и кодирования имеют размерность 512. Они НЕ ДОЛЖНЫ быть меньше, это выбор архитектуры, чтобы сделать вычисление многоголового внимания (в основном) постоянным.

Умножение x1 на весовую матрицу WQ дает q1, вектор «запроса», связанный с этим словом. В итоге мы создаем «запрос», «ключ» и «значение» проекции каждого слова во входном предложении.

Что такое векторы «запрос», «ключ» и «значение»?

Это абстракции, полезные для расчета внимания и размышлений о нем. Как только вы продолжите читать ниже, как рассчитывается внимание, вы узнаете почти все, что вам нужно знать о роли, которую играет каждый из этих векторов.

Второй шаг при подсчете внимания к самому себе заключается в подсчете балла. Скажем, мы вычисляем само-внимание для первого слова в этом примере «Думаю». Нам нужно сопоставить каждое слово входного предложения с этим словом. Оценка определяет, сколько внимания нужно уделять другим частям входного предложения, когда мы кодируем слово в определенной позиции.

Оценка рассчитывается путем скалярного произведения вектора запроса на ключевой вектор соответствующего слова, которое мы оцениваем. Итак, если мы обрабатываем самовнимание для слова в позиции № 1, первая оценка будет скалярным произведением q1 и k1. Вторая оценка будет скалярным произведением q1 и k2.


третий и четвертый шаги должны разделить баллы на 8 (квадратный корень из размерности ключевых векторов, использованных в статье – 64. Это приводит к более стабильным градиентам. Здесь могут быть и другие возможные значения , но это значение по умолчанию), затем передайте результат через операцию softmax. Softmax нормализует оценки, чтобы все они были положительными и в сумме давали 1.


Эта оценка softmax определяет, насколько каждое слово будет выражено в этой позиции. Очевидно, что слово в этой позиции будет иметь наивысший балл softmax, но иногда полезно обратить внимание на другое слово, имеющее отношение к текущему слову.

Пятый шаг заключается в умножении каждого вектора значений на оценку softmax (при подготовке к их суммированию). Интуиция здесь состоит в том, чтобы сохранить нетронутыми значения слов, на которых мы хотим сосредоточиться, и заглушить нерелевантные слова (например, умножив их на крошечные числа, такие как 0,001).

Шестой шаг заключается в суммировании взвешенных векторов значений. Это производит вывод слоя внутреннего внимания в этой позиции (для первого слова).


На этом расчет собственного внимания завершен. Результирующий вектор — это тот, который мы можем отправить в нейронную сеть с прямой связью. Однако в реальной реализации этот расчет выполняется в матричной форме для более быстрой обработки. Итак, давайте посмотрим на это теперь, когда мы увидели интуицию расчета на уровне слов.

Матрица расчета собственного внимания

Первым шагом является вычисление матриц запроса, ключа и значения. Мы делаем это, упаковывая наши вложения в матрицу X и умножая ее на матрицы весов, которые мы обучили (WQ, WK, WV).

Каждая строка в матрице X соответствует слову во входном предложении. Мы снова видим разницу в размере вектора вложения (512 или 4 прямоугольника на рисунке) и векторов q/k/v (64 или 3 прямоугольника на рисунке)

Наконец, , так как мы имеем дело с матрицами, мы можем объединить шаги со второго по шестой в одну формулу, чтобы рассчитать выходные данные слоя внутреннего внимания.

Расчет собственного внимания в матричной форме

Многоголовый зверь

В статье дополнительно усовершенствовали уровень само-внимания, добавив механизм, называемый «многоголовым» вниманием. Это улучшает производительность уровня внимания двумя способами:

  1. Расширяет возможности модели фокусироваться на разных позициях. Да, в приведенном выше примере z1 содержит немного любой другой кодировки, но в ней может доминировать само фактическое слово. Если мы переводим предложение вроде «Животное не перешло улицу, потому что слишком устало», было бы полезно знать, к какому слову относится «оно».

  2. Это дает слою внимания несколько «подпространств представления». Как мы увидим далее, при многоголовом внимании у нас есть не один, а несколько наборов весовых матриц Запрос/Ключ/Значение (преобразователь использует восемь головок внимания, поэтому мы получаем восемь наборов для каждого кодировщика/декодера). . Каждый из этих наборов инициализируется случайным образом. Затем, после обучения, каждый набор используется для проецирования входных вложений (или векторов из нижних кодеров/декодеров) в другое подпространство представления.

С многоголовым вниманием мы поддерживаем отдельные весовые матрицы Q/K/V для каждой головки, что приводит к различным матрицам Q/K/V. Как и раньше, мы умножаем X на матрицы WQ/WK/WV, чтобы получить матрицы Q/K/V.


Если мы проведем тот же расчет собственного внимания, который мы описали выше, только восемь раз с разными весовыми матрицами, мы получим восемь разных Z-матриц


Это оставляет нам небольшую проблему. Слой прямой связи не ожидает восьми матриц — он ожидает одну матрицу (вектор для каждого слова). Поэтому нам нужен способ сжать эти восемь в одну матрицу.

Как нам это сделать? Мы объединяем матрицы, а затем умножаем их на дополнительную матрицу весов WO.


Вот, пожалуй, и все, что можно сказать о многоголовом само-внимании. Я понимаю, что это довольно много матриц. Позвольте мне попытаться поместить их все в один визуальный ряд, чтобы мы могли рассматривать их в одном месте.


Теперь, когда мы коснулись головок внимания, давайте вернемся к нашему предыдущему примеру, чтобы увидеть, на чем фокусируются разные головки внимания, когда мы кодируем слово «это» в нашем примере предложения:

Когда мы кодируем слово «это», одна головка внимания больше всего сосредотачивается на «животном», в то время как другая сосредотачивается на «усталом» — в некотором смысле модельное представление слова «это» запекается в некоторых репрезентациях. как «животного», так и «усталого».

Однако, если мы добавим все головы к картинке, интерпретировать все будет сложнее:


Представление порядка последовательности с использованием позиционного кодирования

Одна вещь, которая отсутствует в модели, как мы ее описывали до сих пор это способ учета порядка слов во входной последовательности.

Чтобы решить эту проблему, преобразователь добавляет вектор к каждому входному встраиванию. Эти векторы следуют определенному шаблону, который изучает модель, что помогает ей определять положение каждого слова или расстояние между разными словами в последовательности. Интуиция здесь такова, что добавление этих значений к вложениям обеспечивает значимые расстояния между векторами вложений после их проецирования в векторы Q/K/V и во время скалярного произведения внимания.

Чтобы дать модели представление о порядке слов, мы добавляем векторы позиционного кодирования, значения которых следуют определенному шаблону.

Если предположить, что размерность встраивания равна 4, фактическое позиционное кодирование будет выглядеть так:

Реальный пример позиционного кодирования с игрушечным встраиванием размера 4

Как может выглядеть этот узор?

На следующем рисунке каждая строка соответствует позиционному кодированию вектора. Таким образом, первая строка будет вектором, который мы добавим к встраиванию первого слова во входную последовательность. Каждая строка содержит 512 значений, каждое со значением от 1 до -1. Мы пометили их цветом, чтобы узор был виден.

Реальный пример позиционного кодирования для 20 слов (строк) с размером встраивания 512 (столбцов). Вы можете видеть, что он кажется разделенным пополам по центру. Это потому, что значения левой половины генерируются одной функцией (использующей синус), а правой половины генерируются другой функцией (использующей косинус). Затем они объединяются для формирования каждого из векторов позиционного кодирования.

Формула позиционного кодирования описана в статье (раздел 3.5). Вы можете увидеть код для генерации позиционных кодировок в get_timing_signal_1d() . Это не единственный возможный метод позиционного кодирования. Это, однако, дает преимущество, заключающееся в возможности масштабирования последовательностей невидимой длины (например, если нашу обученную модель просят перевести предложение длиннее, чем любое из предложений в нашем обучающем наборе).

Обновление за июль 2020 г.: Позиционное кодирование, показанное выше, взято из реализации Transformer в Transformer2Transformer. Метод, показанный в статье, немного отличается тем, что он не объединяет напрямую, а переплетает два сигнала. На следующем рисунке показано, как это выглядит. Вот код для его генерации:


Остатки

Одна деталь в архитектуре кодировщика, которую мы должны упомянуть перед тем, как двигаться дальше, заключается в том, что каждый подуровень (само-внимание, ffnn) в каждом кодировщике имеет остаточную связь вокруг него и следует за ним. шаг нормализации слоя.


Если мы хотим визуализировать векторы и операцию нормы слоя, связанную с вниманием к себе, это будет выглядеть так:


Это относится и к подуровням декодера. Если бы мы подумали о преобразователе из двух сложенных кодеров и декодеров, это выглядело бы примерно так:


Сторона декодера

Теперь, когда мы рассмотрели большинство концепций на стороне кодировщика, мы в основном знаем, как работают компоненты декодеров. Но давайте посмотрим, как они работают вместе.

Энкодер начинает с обработки входной последовательности. Затем выходные данные верхнего кодировщика преобразуются в набор векторов внимания K и V. Они должны использоваться каждым декодером в его слое «внимание кодировщика-декодера», который помогает декодеру сосредоточиться на соответствующих местах во входной последовательности:

После завершения фазы кодирования мы начинаем фазу декодирования. Каждый шаг в фазе декодирования выводит элемент из выходной последовательности (в данном случае предложение английского перевода).

Следующие шаги повторяют процесс до тех пор, пока не будет достигнут специальный символ, указывающий, что декодер преобразователя завершил свой вывод. Выходные данные каждого шага подаются на нижний декодер на следующем временном шаге, и декодеры выводят результаты декодирования так же, как это делали кодеры. И точно так же, как мы делали с входными данными кодировщика, мы внедряем и добавляем позиционное кодирование к этим входным данным декодера, чтобы указать положение каждого слова.


Слои с самостоятельным вниманием в декодере работают несколько иначе, чем в кодере:

В декодере уровню самообслуживания разрешено обращать внимание только на более ранние позиции в выходной последовательности. Это делается путем маскирования будущих позиций (устанавливая их на -inf ) перед шагом softmax в расчете собственного внимания.

Слой «Внимание кодировщика-декодера» работает так же, как многоголовое самовнимание, за исключением того, что он создает свою матрицу запросов из нижнего слоя и берет матрицу ключей и значений из выходных данных стека кодировщика.

Последний линейный слой и слой Softmax

Стек декодера выводит вектор чисел с плавающей запятой. Как мы превратим это в слово? Это работа последнего линейного слоя, за которым следует слой Softmax.

Линейный слой представляет собой простую полностью связанную нейронную сеть, которая проецирует вектор, созданный стеком декодеров, в намного больший вектор, называемый логитс-вектором.

Предположим, что наша модель знает 10 000 уникальных английских слов («выходной словарь» нашей модели), которые она изучила из обучающего набора данных. Это сделало бы логит-вектор шириной 10 000 ячеек, каждая из которых соответствовала бы счету уникального слова. Вот как мы интерпретируем выходные данные модели, за которыми следует линейный слой.

Затем слой softmax превращает эти оценки в вероятности (все положительные, все в сумме дают 1,0). Выбирается ячейка с наибольшей вероятностью, и слово, связанное с ней, создается в качестве выходных данных для этого временного шага.

Этот рисунок начинается снизу с вектора, полученного в качестве выходных данных стека декодера. Затем оно превращается в выходное слово.

Итоги обучения

Теперь, когда мы рассмотрели весь процесс прямого прохода через обученный Трансформер, было бы полезно взглянуть на интуицию обучения модели.

Во время обучения необученная модель будет проходить точно такой же прямой проход. Но поскольку мы обучаем его на помеченном обучающем наборе данных, мы можем сравнить его вывод с фактическим правильным выводом.

Для наглядности предположим, что наш выходной словарь содержит только шесть слов («а», «ам», «я», «спасибо», «студент» и «<эос>» (сокращение от «конец предложения»). )).

Выходной словарь нашей модели создается на этапе предварительной обработки еще до того, как мы начнем обучение.

Как только мы определили наш выходной словарь, мы можем использовать вектор той же ширины для обозначения каждого слова в нашем словаре. Это также известно как однократное кодирование. Так, например, мы можем указать слово «ам», используя следующий вектор:

Пример: горячее кодирование нашего выходного словаря

После этого резюме давайте обсудим функцию потерь модели — показатель, который мы оптимизируем на этапе обучения, чтобы получить обученную и, надеюсь, удивительно точную модель.

Функция потерь

Допустим, мы обучаем нашу модель. Скажем, это наш первый шаг на этапе обучения, и мы тренируем его на простом примере — переводим «merci» в «спасибо».

Это означает, что мы хотим, чтобы на выходе было распределение вероятностей, указывающее слово «спасибо». Но поскольку эта модель еще не обучена, это вряд ли произойдет.

Поскольку все параметры модели (веса) инициализируются случайным образом, (необученная) модель создает распределение вероятностей с произвольными значениями для каждой ячейки/слова. Мы можем сравнить его с фактическим выходом, а затем настроить все веса модели с помощью обратного распространения, чтобы сделать результат ближе к желаемому результату.

Как сравнить два распределения вероятностей? Просто вычитаем одно из другого. Для получения дополнительной информации посмотрите на кросс-энтропию и дивергенцию Кульбака-Лейблера.

Но учтите, что это слишком упрощенный пример. Более реалистично, мы будем использовать предложение длиннее одного слова. Например, ввод: «je suis étudiant» и ожидаемый вывод: «я студент». На самом деле это означает, что мы хотим, чтобы наша модель последовательно выводила распределения вероятностей, где:

  • Каждое распределение вероятностей представлено вектором ширины vocab_size (6 в нашем игрушечном примере, но более реалистично число вроде 30 000 или 50 000) 90 142
  • Первое распределение вероятностей имеет наибольшую вероятность в ячейке, связанной со словом «i»
  • Второе распределение вероятностей имеет наибольшую вероятность в ячейке, связанной со словом «am»
  • И так далее, пока пятое выходное распределение не укажет ‘ <конец предложения> ’, с которым также связана ячейка из словаря из 10 000 элементов.

Целевые распределения вероятностей, на которых мы будем обучать нашу модель в обучающем примере для одного примерного предложения.

После обучения модели в течение достаточного времени на достаточно большом наборе данных мы надеемся, что полученные распределения вероятностей будут выглядеть следующим образом:

Надеемся, что после обучения модель выдаст правильный перевод, который мы ожидаем. Конечно, это не является реальным указанием на то, что эта фраза была частью обучающего набора данных (см.: перекрестная проверка). Обратите внимание, что каждая позиция получает небольшую долю вероятности, даже если она вряд ли будет результатом этого временного шага — это очень полезное свойство softmax, которое помогает процессу обучения.

Теперь, поскольку модель выдает выходные данные по одному, мы можем предположить, что модель выбирает слово с наибольшей вероятностью из этого распределения вероятностей и отбрасывает остальные. Это один из способов сделать это (называемый жадным декодированием). Другой способ сделать это состоит в том, чтобы удерживать, скажем, два верхних слова (например, «я» и «а»), а затем на следующем шаге запускать модель дважды: один раз, предполагая, что первая выходная позиция была слово «I», а в другой раз, предполагая, что первой выходной позицией было слово «a», и сохраняется та версия, которая дает меньше ошибок с учетом обеих позиций № 1 и № 2. Мы повторяем это для позиций № 2 и № 3… и т. д. Этот метод называется «поиск луча», где в нашем примере beam_size был равен двум (это означает, что всегда в памяти хранятся две частичные гипотезы (незавершенные переводы)), а top_beams также равен двум (это означает, что мы вернем два перевода). ). Это оба гиперпараметра, с которыми вы можете поэкспериментировать.

Иди вперед и трансформируйся

Я надеюсь, что вы нашли это полезным местом, чтобы начать растопить лед с основными концепциями Трансформера. Если вы хотите углубиться, я бы предложил следующие шаги:

  • Прочтите статью «Внимание — это все, что вам нужно», запись в блоге Transformer (Transformer: новая архитектура нейронной сети для понимания языка) и объявление Tensor2Tensor.
  • Посмотрите выступление Лукаша Кайзера, рассказывающее о модели и ее деталях
  • Играйте с Jupyter Notebook, входящим в репозиторий Tensor2Tensor
  • .
  • Изучите репозиторий Tensor2Tensor.

Последующие работы:

  • Разделимые по глубине свертки для нейронного машинного перевода
  • Одна модель, чтобы изучить их все
  • Дискретные автоэнкодеры для моделей последовательностей
  • Создание Википедии путем суммирования длинных последовательностей
  • Преобразователь изображения
  • Советы по обучению для Transformer Model
  • Самостоятельное внимание с репрезентациями относительного положения
  • Быстрое декодирование в моделях последовательности с использованием дискретных скрытых переменных
  • Adafactor: адаптивные скорости обучения с сублинейной стоимостью памяти

Благодарности

Спасибо Илье Полосухину, Якобу Ушкорейту, Ллиону Джонсу, Лукашу Кайзеру, Ники Пармар и Ноаму Шазиру за отзывы о предыдущих версиях этого поста.

Пожалуйста, напишите мне в Твиттере, чтобы узнать о любых исправлениях или отзывах.

Сочетания не обязательно должны быть произвольными — EFL Notes

«В целом, делексикализованные глаголы — хороший способ представить понятие словосочетания учащимся любого уровня подготовки L1. Я обычно начинаю с «сделай/сделай» и покажу, как один идет с домашним заданием, а другой — с ошибкой (я сделал домашнее задание, я сделал много ошибок). Почему так, а не наоборот? Поскольку у слов есть словосочетания, они предпочитают компанию некоторых других слов. » (Селиван, 2018:28, курсив мой)

Приведенная выше цитата из книги, опубликованной в 2018 году, отражает широко распространенное в литературе мнение о том, что словосочетания произвольны, то есть нет особой причины, по которой слова «предпочитают компанию определенных других слов», они просто делают это.

Лю (2010) определяет этот взгляд на словосочетание как произвольное как широко распространенный среди ученых. Он также демонстрирует, что это распространенное предположение в опубликованных учебных материалах. Из книг, исследований и веб-сайтов по обучению словосочетаниям он наблюдает, как упражнения по словосочетаниям в основном замечают и запоминают9.0331 фиксированные части или другими словами образуют целенаправленные учения.

Примеры таких упражнений:

«определение или маркировка словосочетаний в отрывке или в словарях словосочетаний; чтение отрывков с выделенными или отмеченными словосочетаниями; заполнение пропусков нужным словом в словосочетании; выбор или сопоставление правильных коллокаций; перевод словосочетаний из Я2 обратно в Я1 или наоборот; и действия типа запоминания, такие как повторение и репетиция» (Liu, 2010:21)

Было меньше упражнений на связывание словосочетаний с их значениями.

Помимо того, что учащиеся упускают из виду мотивированные аспекты словосочетаний, они также упускают возможность обобщить то, что они изучают (Wray, 2000). То есть словосочетания также необходимо анализировать, если учащиеся хотят максимально использовать их в новых ситуациях использования.

Возьмем примеры «сделать» и «сделать». Основное значение слова «сделать» — создать, то есть процесс, который является целенаправленным и/или более трудоемким, чем основное значение слова «сделать» завершения/окончания чего-то, что фокусируется на конечном результате деятельности, а не на каких-либо усилиях в процессе этой деятельности. Понимание этих основных значений может пролить свет на следующее использование слова «сделал ошибку»:

«Но я сделал ошибку, говоря об этом, знаете ли, в прошлый раз и недавно»

Более широкий контекст взят из репортажа:

Хилари Клинтон имела в виду, что в ее «истощенном» состоянии «искажение» было противоположностью преднамеренной лжи. Это было лишь одно из многих действий, которые она сделала в тот день и которые оказались ошибкой.

Это также можно увидеть в другом примере из COCA – «Если я ошибаюсь, меня жарят».

Контекст на этот раз из письменного издания, хотя речь идет в отчетной форме:

три минуты, иногда весь рулон — одиннадцать минут. У него есть преимущество: оно приводит вас к реальному темпу жизни. Большинство фильмов снимаются довольно быстро и таким образом, что вы можете манипулировать своей реальностью из-за объема охвата» — съемка сцены с разных ракурсов, чтобы режиссер мог выбирать между ними в монтажной. Здесь моя манипуляция совсем другая. Я должен дополнить его освещением, обрамлением. На этом этапе требуется гораздо больше внимания. Если я ошибусь, я прогорю, », — говорит он со смехом. # Визуальный стиль Wings может быть старомодным в глубине души, но его звук полностью соответствует высоким технологиям. Помимо шести каналов первоклассного стереозвука, транслируемого через динамики кинотеатра, зрители Wings будут слышать два канала трехмерного звука через специальную гарнитуру Personal Sound Environment (PSE), которую раздают каждому кинозрителю. Разработанный филиалом Imax Sonics Associates из Бирмингема, штат Алабама, PSE включает в себя как 3D-очки IMAX, так и крошечные динамики, установленные между ( COCA MAG: Omni, 1994, выделение добавлено)

Человек рассказывает о ряде этапов своей рутинной работы при съемке фильма. Слово «делать» здесь означает, что в любой роковой ошибке нельзя винить человека, учитывая все остальные вещи, которыми ему приходится жонглировать.

Обратите внимание, что я смог найти только 3 варианта использования слова «совершить ошибку», 2 из которых показаны здесь (о третьем я не могу высказать никаких предположений, так как подозреваю, что нужно искать больше контекста, чем тот, что предоставлен COCA). ).

Этот блог был вдохновлен вопросом студента о том, почему текст имеет «во многих отношениях», а не «во многих аспектах». Я пошел на COCA, чтобы посмотреть, но не смог найти никакого полезного объяснения. Я только что сказал студенту, что «аспекты», похоже, не предпочтительнее «во многих» по сравнению с «уважением»! Только позже, когда я подумал о корне слова в обычном «вид» (означающем «видеть»), мне представилось, возможно, полезное объяснение — «во многих отношениях» подразумевает, что [повторное видение] уже каким-то образом понято.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *