Общая схема работы редактора над текстом -Стилистика и литературное редактирование
Кто не делится найденным, подобен свету в дупле секвойи (древняя индейская пословица)
Версия для печати
Библиографическая запись: Общая схема работы редактора над текстом. — Текст : электронный // Myfilology.ru – информационный филологический ресурс : [сайт]. – URL: https://myfilology.ru//162/obshhaya-sxema-raboty-redaktora-nad-tekstom/ (дата обращения: 10.05.2023)
Содержание
Общая схема работы редактора может быть представлена следующим образом:
- • получение информации;
- • постановка задачи;
- • создание модели поведения и схемы ожидаемых результатов;
- • действия и соответствующие этим действиям результаты.
В условиях редакционной работы эта схема получает конкретное наполнение.
Первый её компонент — знакомство редактора с авторским произведением.
Второй — постановка задачи редактирования. Она может быть продиктована и уточнена как внешними обстоятельствами, так и качествами самого материала. Заранее может быть запланирован объём, жанр, необходимость подчеркнуть связь с текущими событиями, форма контакта с читателем, может быть определён вид правки.
Затем редактор решает, как он будет действовать, — так расшифровывается третий компонент схемы. Редактор может отослать материал на доработку, может работать над текстом вместе с автором или один и выбирает методику, которая, с его точки зрения, наиболее рациональна в данном случае.
Зримые действия редактора, в частности процесс правки текста, — лишь последний, завершающий этап редактирования.
Психология редакторской работы чрезвычайно сложна. Это предопределено сложностью её объекта – текста, фиксирующего результат сложнейшей деятельности человека, своеобразием коммуникативных связей, возникающих между автором, редактором и читателем, спецификой редакторского труда, в котором творческое начало сочетается с аналитическим.
В свете этих особенностей и должны быть рассмотрены психологические предпосылки редактирования.Психологические предпосылки профессионального восприятия текста
Необходимый вывод, следующий для редактора из обращения к психологической науке, – установка на осознанное отношение к пониманию текста, авторскому труду, к собственным действиям.
Контроль — важнейшая задача редактора при его работе над текстом. В обычной письменной речи он осуществляется самим пишущим, причём редко кто это осознает. В работе профессионального литератора, журналиста, редактора такой контроль недостаточен, внимание необходимо задерживать на некоторых формах языка, быстро их анализировать и соответственно решать ту или иную задачу. Надо уметь посмотреть на текст «со стороны», увидеть его глазами читателя. Каждый профессиональный литератор знает, как нужен «чужой глаз».
Для автора редактор – это читатель, который зорче других читает рукопись и вместе с ним работает над текстом. Для читателя редактор – представитель его интересов, который читает текст, предугадывая, как он может быть истолкован и оценен. Техника облегчает, но отнюдь не заменяет труд редактора, компьютеры не способны решать творческие задачи.
Существенно, что редактор на протяжении всей своей работы над текстом должен быть активен, контролировать собственное восприятие текста, уметь оценить своеобразие авторских решений. Это тем более важно, что именно эти наблюдения формируют стратегию действий редактора, процесс правки, в частности. Опытные редакторы считают, что самое сложное при редактировании – внести изменение в текст так, чтобы оно не выглядело чужеродным, чтобы вставка не выделялась, как грубая заплата. Каждое замечание редактора должно не только фиксировать недочёты рукописи, но и содержать конкретные рекомендации. Это необходимо и тогда, когда замечания адресованы автору, и тогда, когда они сделаны для памяти как программа будущих действий.
Активность восприятия текста, конкретность суждений – важнейшие психологические предпосылки редактирования и необходимые черты психологической модели поведения и действий редактора.
07.09.2016, 5879 просмотров.
Как работать с текстом на уроке английского
Знаю, что многим учителям работа с текстом кажется overwhelming. Часто мы не знаем, с какой стороны подступиться к такому объемному инструменту. Тем не менее, постараться есть ради чего.
Чтение в классе и вне его способствует:
— расширению словарного запаса
— знакомству с новым грамматическими конструкциями
— знакомству с культурой изучаемого языка
— совершенствованию речевых навыков
С чего стоит начать работу над текстом? Ключевым моментом является выбор правильного текста.
Выбор текстаУдачно подобранный текст максимально стимулирует языковую деятельность учащихся. Удачный текст должен:
• быть актуальным и современным
• соответствовать уровню студентов
• не быть слишком длинным
• соответствовать интересам учеников
• подталкивать к высказыванию мнений, мыслей, соображений и т. д.
Этапы работы над текстомРаботу с текстом можно разделить на этапы. Их всего три:
- Предтекстовый (Pre-reading)
- Текстовый (While–reading)
- Послетекстовый (Post – reading)
Pre—reading
Цель этого этапа – подготовить студентов к тексту, подвести к его теме, разобрать сложную лексику и мотивировать студентов прочесть текст.
• Напишите на доске цитату / высказывание/ крылатое выражение, которое отражает суть текста, и попросить студентов высказать мнение/ объяснить выражение/ предположить, о чем будет текст.
• Подготовьте несколько картинок, каждая из которых отражает отдельные аспекты текста, при этом изображения не должны быть явно связаны между собой. Прикрепите картинки к доске и попросите учеников в командах придумать историю, которая связывает все эти картинки. Команда, которая ближе всех к сути текста, побеждает.
На одном из уроков я со своими студентами читала текст о космонавтах, и в качестве картинок я выбрала: тюбик, телевизор, собаку, глобус. Было очень забавно слушать их истории.
• Подготовьте карточки с вопросами по тексту. Разделите класс на пары, каждой паре выдайте вопрос. Дайте студентам пару минут на обсуждение этого вопросы, после чего попросите их резюмировать свои ответы.
• Если в тексте есть сложная лексика, лучше ее разобрать перед прочтением. Для этого попробуйте один из способов объяснения новой лексики.
While –reading
Перед чтением текста студентам нужно поставить цель. Чтение ради чтения не несет в себе никаких задач. Сразу настройте учеников, что им необходимо будет выполнить задание:
• развернуто ответить на вопросы.
• подтвердить или опровергнуть утверждение
• вставить подходящее слово / фразу/ заполнить пропуски
Разнообразить процесс чтения можно с помощью таких заданий:
Find the difference
— Подготовьте 3 варианта текста. В каждом из вариантов должно быть 10 и более отличий. Например, в первом варианте героя зовут James, во втором Jack, в третьем Jim. В первом варианте он поехал на отдых, во втором в командировку, в третьем к родителям и т.д.
— Разделите группу на 3 команды.
— Каждой команде выдайте копию текста. Команде необходимо прочитать текст и запомнить как можно больше деталей.
— После этого перемешайте участников команд так, чтобы в каждой команде было как минимум по одному представителю из другой команды.
— Участники разных команд пересказывают друг другу свой вариант текста и пытаются найти 10 несоответствий. Команда, которая первой найдет все отличия, побеждает.
Act it out
— Разделите класс на команды и выдайте им текст.
— За определенное время командам необходимо прочитать текст и поставить его (да-да, как в театре).
— После этого дайте каждой команде разыграть сценку о том, что они читали.
— Попросите команды проголосовать за лучшую команду-соперника, чтобы определить победителя.
Jigsaw puzzle
— Разделите текст на столько частей, сколько учеников в вашей группе.
— Каждому ученику выдайте по одной фразе или фрагменту текста.
— Задание заключается в том, чтобы восстановить изначальный текст и выстроиться в соответствующем порядке.
Post – reading
Третий этап важно использовать для развития речевых навыков. Классические упражнения для этого этапа:
• устный или письменный пересказ текста (можно дать в качестве HW)
• характеристика героев
• придумать продолжение истории, придумать новый финал текста
• придумать новый, более удачный заголовок для текста
Чтобы разнообразить этот этап и по-максимуму разговорить студентов, используйте такие activities:
Придумать продолжение /альтернативный финал истории
— Разделите класс на команды
— Дайте задание придумать альтернативную концовку
— Поставьте таймер на 5-10 минут
— Show time!
Выскажи свое мнение
Логично просить каждого студента высказать свое мнение по поводу прочитанного текста. Но к чему эти банальности. Бросьте им вызов!
— Подготовьте карточки с утверждениями о тексте.
— Каждый студент получает карточку, но которой написано некое утверждение, которое может не совпадать с его мнением (лучше, если студент будут не согласны с тем, что написано на карточке)
— Задание студента дать как можно больше аргументов в поддержку утверждения на карточке.
Дебаты
— Разделите класс на 2 команды.
— Напишите на доске фразу, которая передает основную идею текста (например: следует запретить курение в общественных места)
— Присвойте командам роли (команда «ЗА», команда «ПРОТИВ»)
— Несмотря на то, что их мнение может не совпадать в мнением, которое вы им присвоили, их задача отстаивать позицию.
В начале дебатов обязательно скажите студентом, что каждый из них должен высказаться минимум 3 раза. Так вы можете избежать «молчунов».
И напоследок еще один совет. На послетекстовом этапе, когда студенты высказывают свое мнение, участвуют в дебатах, пересказывают текст и т. д. в качестве еще одного правила попросите их употребить 3 новых слова, фразы, конструкции из текста в своей речи. Так вы поможете ученикам сразу перенести новую лексику в активный словарный запас.
Читайте на уроках с удовольствием!
comments powered by HyperComments
Поддержите #Teachaholic, если считаете нашу работу полезной 💜
Больше 2-х лет мы развиваем журнал своими силами, и сейчас нам очень нужна ваша поддержка!
Если наши материалы хотя бы раз оказались вам полезными, если вы использовали их на своих уроках и радовали учеников свежими идеями — вы можете сказать нам «Спасибо» и сделать любой комфортный для вас вклад в нашу работу в виде доната.
В знак благодарности мы вышлем доступ к вебинару «Карьерные перспективы учителя английского» каждому, кто сделает донат, вне зависимости от суммы.
Ваш Teachaholic.
Скорая методическая помощь от #Teachaholic🧡
Привет, тичахолики! Мы запустили новый сервис для учителей английского языка под названием «Методическая помощь»👏👏
Это сервис, с помощью которого каждый учитель может получить оценку эффективности своих уроков, онлайн-консультацию опытного методиста и понятный план профессионального развития!
10 лучших алгоритмов НЛП | Шаги аналитики
Прежде чем двигаться дальше, позвольте мне прояснить несколько моментов. Позвольте мне задать вопрос. Насколько сложен человеческий язык? Многие читатели скажут, что это совсем не сложно. Но здесь я отрицаю это.
Если это не так уж сложно, то почему потребовалось столько лет, чтобы построить что-то, что могло понять и прочитать это? И когда я говорю о понимании и чтении, я знаю, что для понимания человеческого языка нужно что-то прояснить в грамматике, пунктуации и многом другом.
Но, пока я говорю это, у нас есть нечто, что понимает человеческий язык, и это тоже не только речь, но и тексты, это «Обработка естественного языка». В этом блоге мы поговорим о НЛП и алгоритмах, которые им управляют.
Обработка естественного языка (НЛП) — это область искусственного интеллекта, которая помогает компьютерам понимать, интерпретировать человеческий язык и управлять им. Чтобы преодолеть разрыв между человеческим общением и машинным пониманием, НЛП опирается на различные области, включая информатику и компьютерную лингвистику.
Обработка естественного языка — не новая тема, но она быстро развивается благодаря растущему интересу к общению человека и машины, а также доступности массивов данных, мощных вычислений и улучшенных алгоритмов.
Вы можете говорить и писать на английском, испанском или китайском языке как человек. Тем не менее естественный язык компьютера, известный как машинный код или машинный язык, в значительной степени непонятен большинству людей. На самом базовом уровне ваше устройство общается не словами, а миллионами нулей и единиц, которые производят логические действия. Вы можете кое-что понять об НЛП здесь, в руководстве по НЛП для начинающих.
Лучшие алгоритмы НЛП
Как объяснили в центре науки о данных, человеческий язык сложен по своей природе. Технология должна понимать не только грамматические правила, значение и контекст, но также разговорные выражения, сленг и аббревиатуры, используемые в языке для интерпретации человеческой речи. Алгоритмы обработки естественного языка помогают компьютерам, эмулируя понимание человеческого языка.
Вот лучшие алгоритмы НЛП, используемые повсеместно:
- Лемматизация и стемминг
Две стратегии, которые помогают нам развивать обработку задач на естественном языке, — это лемматизация и стемминг. Он хорошо работает с множеством других морфологических вариаций слова.
Эти стратегии позволяют ограничить вариативность одного слова одним корнем. Мы можем, например, сократить слова «singer», «singing», «sang» и «sang» до версии слова «sing» в единственном числе. Мы можем быстро уменьшить требуемое пространство данных и построить более мощные и надежные алгоритмы НЛП, сделав это для всех терминов в документе или тексте.
Таким образом, лемматизация и стемминг являются методами предварительной обработки, а это означает, что мы можем использовать один из двух алгоритмов НЛП в зависимости от наших потребностей, прежде чем двигаться вперед с проектом НЛП, чтобы освободить место для данных и подготовить базу данных.
И лемматизация, и стемминг — чрезвычайно разные процедуры, которые можно выполнять разными способами, но конечный результат у обеих один и тот же: сокращение области поиска проблемы, с которой мы имеем дело.
Чтобы узнать больше об этом, посмотрите это:
- Тематическое моделирование
Тематическое моделирование — это тип обработки естественного языка, при котором мы пытаемся найти «абстрактные темы», которые можно использовать для определения набора текстов. Это означает, что у нас есть корпус текстов, и мы пытаемся выявить тенденции слов и фраз, которые помогут нам в организации и классификации документов по «темам».
Одним из наиболее известных методов НЛП для тематического моделирования является скрытое распределение Дирихле. Чтобы этот метод работал, вам нужно составить список тем, к которым можно применить вашу коллекцию документов.
Сначала вы назначаете текст случайному объекту в своем наборе данных, затем несколько раз просматриваете образец, совершенствуете концепцию и переназначаете документы на разные темы.
- Извлечение ключевых слов
Извлечение ключевых слов является одной из наиболее важных задач в обработке естественного языка и отвечает за определение различных методов извлечения значительного количества слов и фраз из набора текстов. Все это делается для обобщения и помощи в соответствующей и хорошо организованной организации, хранении, поиске и извлечении контента.
Существует множество доступных алгоритмов извлечения ключевых слов, каждый из которых использует уникальный набор фундаментальных и теоретических методов для решения этого типа задач.
Существуют различные типы алгоритмов НЛП, некоторые из которых извлекают только слова, а другие извлекают и слова, и фразы. Существуют также алгоритмы НЛП, извлекающие ключевые слова на основе полного содержания текстов, а также алгоритмы, извлекающие ключевые слова на основе всего содержания текстов.
Ниже приведены некоторые из наиболее известных алгоритмов извлечения ключевых слов:
Срок Частота – Обратная частота документа (TF-IDF): полной версией TF-IDF является частота термина — обратная частота документа, которая пытается лучше определить важность термина в документе. Также примите во внимание отношения между текстами из одного корпуса.
- Диаграммы знаний
Графы знаний представляют собой набор из трех элементов: субъекта, предиката и сущности, которые объясняют метод хранения информации с использованием троек.
Предметом подходов к извлечению упорядоченной информации для получения знаний из неструктурированных документов являются графы осведомленности.
В последнее время графы знаний стали более популярными, особенно когда они используются несколькими фирмами (например, Google Information Graph) для различных товаров и услуг.
Для построения графа знаний требуются различные методы НЛП (возможно, все методы, описанные в этой статье), и использование большего количества этих подходов, скорее всего, приведет к созданию более тщательного и эффективного графа знаний.
- Облако слов
Облако слов, иногда называемое облаком тегов, представляет собой подход к визуализации данных. Слова из текста отображаются в виде таблицы, при этом наиболее значимые термины печатаются более крупными буквами, а менее важные слова отображаются более мелкими буквами или вообще не видны.
Прежде чем применять другие алгоритмы НЛП к нашему набору данных, мы можем использовать облака слов для описания наших результатов.
- Распознавание именованных объектов
Другим важным методом анализа пространства естественного языка является распознавание названных сущностей. Он отвечает за классификацию и категоризацию людей в неструктурированном тексте в набор заранее определенных групп. Сюда входят отдельные лица, группы, даты, суммы денег и так далее.
Распознавание именованных объектов состоит из двух подэтапов;
- Анализ настроений
Анализ настроений — наиболее часто используемый метод НЛП. Анализ эмоций особенно полезен в обстоятельствах, когда потребители предлагают свои идеи и предложения, такие как опросы потребителей, рейтинги и дебаты в социальных сетях.
При анализе эмоций проще всего создать трехбалльную шкалу (положительно/отрицательно/нейтрально). В более сложных случаях результатом может быть статистическая оценка, которую можно разделить на любое количество категорий.
Для анализа тональности можно использовать как контролируемые, так и неконтролируемые алгоритмы. Наиболее распространенной контролируемой моделью интерпретации настроений является Наивный Байес.
Требуется учебный корпус с маркировкой тональности, на основе которого можно обучить модель, а затем использовать для определения тональности. Наивный байесовский метод — не единственный метод машинного обучения, который можно использовать; он также может использовать случайный лес или повышение градиента.
- Обобщение текста
Как следует из названия, подходы НЛП могут помочь в обобщении больших объемов текста. Обобщение текста обычно используется в таких ситуациях, как заголовки новостей и исследования.
Обобщение текста можно выполнить двумя способами: извлечение и абстрагирование. Удаляя биты из текста, методы извлечения создают краткое изложение. Тактика абстракции создает резюме, создавая новый текст, который передает суть исходного содержания.
Для суммирования текста можно использовать различные алгоритмы НЛП, такие как LexRank, TextRank и латентный семантический анализ. Чтобы использовать LexRank в качестве примера, этот алгоритм ранжирует предложения на основе их сходства. Поскольку больше предложений идентичны, и эти предложения идентичны другим предложениям, предложение оценивается выше.
- Сумка слов
Эта парадигма представляет текст как мешок (мультимножество) слов, пренебрегая синтаксисом и даже порядком слов, но сохраняя множественность. По сути, парадигма мешка слов порождает матрицу инцидентности. Затем эти частоты или экземпляры слов используются в качестве признаков при обучении классификатора.
К сожалению, у этой парадигмы есть некоторые недостатки. Хуже всего отсутствие семантического значения и контекста, а также тот факт, что такие термины не имеют должного веса (например, в этой модели слово «вселенная» весит меньше, чем слово «они»).
- Токенизация
Это процесс разбиения текста на предложения и фразы. Работа влечет за собой разбиение текста на более мелкие фрагменты (известные как токены) с отбрасыванием некоторых символов, таких как знаки препинания.
Рассмотрим следующий пример:
Ввод текста: Вчера Поттер шел в школу.
Судя по текстовому выводу, вчера Поттер пошел в школу.
Основным недостатком этой стратегии является то, что она работает лучше с одними языками и хуже с другими. Это особенно верно, когда речь идет о тональных языках, таких как мандарин или вьетнамский.
В зависимости от произношения термин «ма» на китайском языке может означать «лошадь», «конопля», «ругать» или «мать». Алгоритмы НЛП находятся в серьезной опасности.
, в то время как обработка естественного языка (NLP) является относительно новой областью исследований и применения по сравнению с другими подходами информационных технологий, было достаточно успехов, чтобы предположить, что на основе НЛП и информация о НЛП. технологии доступа будут по-прежнему оставаться основной областью исследований и разработок в области информационных систем сейчас и в будущем.
Это были одни из лучших подходов и алгоритмов НЛП, которые могут сыграть достойную роль в успехе НЛП.
(Также читайте: 10 основных применений обработки естественного языка)
Что такое обработка естественного языка? Введение в НЛП
11 августа 2016 г.
по
DataRobot
· Чтение за 11 минут
Первоначально эта статья была опубликована на сайте Algorithimia. Компания была приобретена DataRobot в 2021 году. Эта статья может быть не совсем актуальной или относиться к продуктам и предложениям, которых больше не существует. Узнайте больше о DataRobot MLOps здесь .
В этом посте обсуждается все, что вам нужно знать о НЛП, независимо от того, являетесь ли вы разработчиком, бизнесменом или новичком, а также о том, как начать работу уже сегодня.
Введение в обработку естественного языка (NLP)
Содержание
- Краткое описание обработки естественного языка
- Что такое обработка естественного языка?
- Для чего нужна обработка естественного языка?
- Бизнес-примеры обработки естественного языка
- Как начать работу с обработкой естественного языка
- Дальнейшее чтение
Краткий обзор обработки естественного языка
Область исследований, посвященная взаимодействию между человеческим языком и компьютером, называется обработкой естественного языка, или сокращенно НЛП. Он находится на стыке информатики, искусственного интеллекта и компьютерной лингвистики (Википедия).
«Обработка естественного языка — это область, которая охватывает компьютерное понимание и манипулирование человеческим языком, и в ней полно возможностей для сбора новостей», — говорит Энтони Песке в Обработка естественного языка на кухне . «Обычно вы слышите об этом в контексте анализа больших массивов законов или других наборов документов, пытаясь обнаружить закономерности или искоренить коррупцию».
Существует множество приложений для обработки естественного языка, включая бизнес-приложения. В этом посте обсуждается все, что вам нужно знать о НЛП, независимо от того, являетесь ли вы разработчиком, бизнесменом или новичком, и как начать работу уже сегодня.
Что такое обработка естественного языка?
Обработка естественного языка (NLP) — это область искусственного интеллекта, в которой компьютеры анализируют, понимают и извлекают смысл из человеческого языка умным и полезным способом. Используя НЛП, разработчики могут систематизировать и структурировать знания для выполнения таких задач, как автоматическое обобщение, перевод, распознавание именованных объектов, извлечение отношений, анализ тональности, распознавание речи и сегментация тем.
«Помимо обычных операций текстового процессора, которые обрабатывают текст как простую последовательность символов, НЛП рассматривает иерархическую структуру языка: несколько слов составляют фразу, несколько фраз составляют предложение и, в конечном счете, предложения передают идеи», — Джон Релинг, эксперт НЛП в Meltwater Group, говорит в Как обработка естественного языка помогает выявить настроения в социальных сетях . «Анализируя язык на предмет его значения, системы НЛП уже давно выполняют полезные функции, такие как исправление грамматики, преобразование речи в текст и автоматический перевод между языками».
НЛП используется для анализа текста, что позволяет машинам понимать, как говорят люди. Это взаимодействие человека и компьютера позволяет использовать реальные приложения, такие как автоматическое суммирование текста, анализ тональности, извлечение тем, распознавание именованных сущностей, тегирование частей речи, извлечение отношений, определение корней и многое другое. NLP обычно используется для анализа текста, машинного перевода и автоматического ответа на вопросы.
НЛП характеризуется как сложная проблема в информатике. Человеческий язык редко бывает точным или простым. Чтобы понять человеческий язык, нужно понять не только слова, но и концепции и то, как они связаны вместе, чтобы создать смысл. Несмотря на то, что язык является одной из самых простых вещей для человеческого разума, двусмысленность языка делает обработку естественного языка сложной проблемой для компьютеров.
Для чего нужна обработка естественного языка?
Алгоритмы НЛП имеют множество применений. По сути, они позволяют разработчикам и предприятиям создавать программное обеспечение, которое понимает человеческий язык. Из-за сложной природы человеческого языка НЛП может быть сложно изучить и правильно реализовать. Однако, благодаря знаниям, полученным из этой статьи, вы будете лучше подготовлены к успешному использованию НЛП, независимо от вашего варианта использования.
Примеры обработки естественного языка
Алгоритмы НЛП обычно основаны на алгоритмах машинного обучения. Вместо ручного кодирования больших наборов правил НЛП может полагаться на машинное обучение для автоматического изучения этих правил путем анализа набора примеров (то есть большого корпуса, такого как книга, вплоть до набора предложений) и создания статистических выводов. . В целом, чем больше данных проанализировано, тем точнее будет модель.
Примеры алгоритмов НЛП
Почувствуйте широкий спектр вариантов использования НЛП с помощью этих примеров алгоритмов:
- Суммируйте блоки текста с помощью Summarizer , чтобы выделить наиболее важные и центральные идеи, игнорируя ненужную информацию.
- Создайте чат-бота с помощью Parsey McParseface — модели глубокого обучения для языкового синтаксического анализа, созданной Google и использующей теги речи.
- Создавайте теги ключевых слов из документа с помощью LDA (скрытого распределения дирихле), который определяет наиболее релевантные слова из документа. Этот алгоритм лежит в основе микросервисов Auto-Tag и Auto-Tag URL.
- Определите тип извлеченного объекта, например, человека, место или организацию, используя распознавание именованных объектов.
- Анализ настроений, основанный на StanfordNLP, может использоваться для определения чувства, мнения или убеждения в утверждении, от очень негативного до нейтрального и очень позитивного. Часто разработчики используют алгоритм для определения тональности термина в предложении или используют анализ тональности для анализа социальных сетей.
- Сокращайте слова до корня или основы с помощью PorterStemmer или разбивайте текст на лексемы с помощью Tokenizer.
Обработка естественного языка в бизнесе
Обработка естественного языка имеет широкий спектр применений в бизнесе.
В качестве примера можно привести анализ настроений по отношению к бренду — один из самых популярных вариантов использования НЛП в бизнесе. Многие бренды отслеживают настроения в социальных сетях и проводят анализ настроений в социальных сетях. При анализе настроений в социальных сетях бренды отслеживают разговоры в Интернете, чтобы понять, что говорят клиенты, и получить представление о поведении пользователей.
«Один из самых убедительных способов, с помощью которых НЛП предлагает ценную информацию, — это отслеживание настроения — тона письменного сообщения (твит, обновление Facebook и т. д.) — и пометка этого текста как положительного, отрицательного или нейтрального», — говорит Релинг.
Точно так же Facebook использует НЛП для отслеживания актуальных тем и популярных хэштегов.
«Хештеги и темы — это два разных способа группировки и участия в беседах», — говорит Крис Струхар, инженер-программист новостной ленты, в Как Facebook создал актуальные темы с помощью обработки естественного языка . «Поэтому не думайте, что Facebook не распознает строку как тему без хэштега перед ней. Скорее, все дело в НЛП: обработке естественного языка. Нет ничего естественного в хэштеге, поэтому Facebook вместо этого анализирует строки и выясняет, какие строки относятся к узлам — объектам в сети. Мы смотрим на текст и пытаемся понять, о чем он».
НЛП можно использовать не только в социальных сетях. Существует широкий спектр дополнительных вариантов использования NLP в бизнесе, от приложений обслуживания клиентов (таких как автоматизированная поддержка и чат-боты) до улучшения взаимодействия с пользователем (например, поиск по веб-сайту и курирование контента). Одной из областей, где НЛП представляет особенно большие возможности, являются финансы, где многие предприятия используют его для автоматизации ручных процессов и создания дополнительной ценности для бизнеса.
Другое практическое применение НЛП включает мониторинг злонамеренных цифровых атак, таких как фишинг, или обнаружение лжи. NLP также очень полезен для веб-разработчиков в любой области, поскольку предоставляет им готовые инструменты, необходимые для создания продвинутых приложений и прототипов.
Как начать работу с обработкой естественного языка
Если вы разработчик (или начинающий разработчик), который только начинает работать с обработкой естественного языка, существует множество доступных ресурсов, которые помогут вам научиться разрабатывать собственные алгоритмы НЛП.
Библиотеки НЛП с открытым исходным кодом
Эти библиотеки предоставляют алгоритмические строительные блоки НЛП в реальных приложениях.
- Apache OpenNLP: набор инструментов для машинного обучения, который обеспечивает токенизаторы, сегментацию предложений, маркировку частей речи, извлечение именованных сущностей, фрагментацию, синтаксический анализ, разрешение кореферентности и многое другое.
- Natural Language Toolkit (NLTK): библиотека Python, которая предоставляет модули для обработки текста, классификации, токенизации, определения корней, тегов, синтаксического анализа и многого другого.
- Stanford NLP: набор инструментов NLP, которые обеспечивают тегирование частей речи, распознаватель именованных сущностей, систему разрешения кореференций, анализ настроений и многое другое.
- MALLET: пакет Java, обеспечивающий скрытое выделение дирихле, классификацию документов, кластеризацию, моделирование тем, извлечение информации и многое другое.
Учебники по обработке естественного языка
- Учебник по обработке естественного языка: «Мы перейдем от токенизации к извлечению признаков и созданию модели с использованием алгоритма машинного обучения».
- Базовая обработка естественного языка: «В этом учебном конкурсе мы немного «глубже» углубимся в анализ настроений. Люди выражают свои эмоции языком, который часто скрыт сарказмом, двусмысленностью и игрой слов, которые могут ввести в заблуждение как людей, так и компьютеры».
После того, как вы освоите основы, примените полученные знания с помощью Python и NLTK, самой популярной платформы для Python NLP.
Проекты обработки естественного языка
- Начните с использования алгоритма «Извлечение твитов по ключевому слову», чтобы зафиксировать все упоминания вашего бренда в Твиттере. В нашем случае мы ищем упоминания об Algorithmia.
- Затем передайте результаты алгоритму анализа тональности, который присвоит каждой строке (твиту) рейтинг тональности от 0 до 4.
Вы можете создать программу чтения RSS с машинным обучением менее чем за 30 минут, используя следующие алгоритмы:
- ScrapeRSS для извлечения заголовка и контента из RSS-канала.
- Html2Text, чтобы сохранить важный текст, но удалить из документа весь HTML-код.
- AutoTag использует скрытое распределение Дирихле для определения релевантных ключевых слов из текста. Затем используется анализ тональности
- , чтобы определить, является ли статья положительной, отрицательной или нейтральной.
- Summarizer, наконец, используется для определения ключевых предложений.
Дополнительная литература
Книги по обработке естественного языка
- Обработка речи и языка: «Первая в своем роде, в которой подробно рассматриваются языковые технологии — на всех уровнях и со всеми современными технологиями — эта книга использует эмпирический подход к предмету, основанный на по применению статистических и других алгоритмов машинного обучения в крупных корпорациях».
- Основы статистической обработки естественного языка: «Этот основополагающий текст является первым всесторонним введением в статистическую обработку естественного языка (NLP). Книга содержит всю теорию и алгоритмы, необходимые для создания инструментов НЛП. Он обеспечивает широкий, но строгий охват математических и лингвистических основ, а также подробное обсуждение статистических методов, что позволяет студентам и исследователям создавать свои собственные реализации. Книга охватывает поиск словосочетаний, устранение неоднозначности слов, вероятностный анализ, поиск информации и другие приложения».
- Справочник по обработке естественного языка: «Второе издание представляет практические инструменты и методы реализации обработки естественного языка в компьютерных системах. Наряду с удалением устаревшего материала, в этом выпуске обновляется каждая глава и расширяется содержание, включая новые области, такие как анализ настроений».
- Статистическое изучение языка (язык, речь и общение): «Юджин Чарняк открывает новые горизонты в исследованиях искусственного интеллекта, представляя статистическую обработку языка с точки зрения искусственного интеллекта в тексте для исследователей и ученых с традиционным опытом в области компьютерных наук».
- Обработка естественного языка с помощью Python: анализ текста с помощью набора инструментов для работы с естественным языком: «Это книга об обработке естественного языка. Под «естественным языком» мы подразумеваем язык, который используется людьми для повседневного общения; языки, такие как английский, хинди или португальский. С одной стороны, это может быть так же просто, как подсчет частоты слов для сравнения разных стилей письма».
- Обработка речи и языка, 2-е издание 2-е издание: «Взрыв языковых технологий в Интернете, слияние различных полей, доступность диалоговых систем по телефону и многое другое делают это время захватывающим в обработке речи и языка. Первый в своем роде текст, подробно освещающий языковые технологии — на всех уровнях и со всеми современными технологиями — этот текст использует эмпирический подход к предмету, основанный на применении статистических и других алгоритмов машинного обучения к крупным корпорациям. Авторы охватывают области, которые традиционно преподаются на разных курсах, чтобы описать единое видение обработки речи и языка».
- Введение в поиск информации: «Еще в 1990-х годах исследования показали, что большинство людей предпочитают получать информацию от других людей, а не от информационно-поисковых систем. Однако в течение последнего десятилетия неустанная оптимизация эффективности поиска информации вывела поисковые системы в Интернете на новый уровень качества, при котором большинство людей в большинстве случаев удовлетворены, а поиск в Интернете стал стандартным и часто предпочтительным источником поиска информации. Например, интернет-опрос Pew 2004 г. (Fallows, 2004) показал, что 92% интернет-пользователей говорят, что Интернет — это хорошее место для получения повседневной информации. К удивлению многих, область информационного поиска превратилась из преимущественно академической дисциплины в основу, лежащую в основе предпочитаемых большинством людей средств доступа к информации».
Курсы обработки естественного языка
- Стэнфордское машинное обучение на Coursera: «Машинное обучение — это наука о том, как заставить компьютеры действовать без явного программирования. Многие исследователи также считают, что это лучший способ добиться прогресса в области искусственного интеллекта человеческого уровня. На этом курсе вы узнаете о наиболее эффективных методах машинного обучения, а также попрактикуетесь в их применении и заставите их работать на себя».
- Введение Udemy в обработку естественного языка: «Этот курс знакомит с обработкой естественного языка с помощью Python и набора инструментов для естественного языка. Благодаря практическому подходу вы получите практический опыт работы с текстом и его анализа. Будучи слушателем этого курса, вы будете получать обновления бесплатно, в том числе исправления лекций, новые примеры кода и новые проекты данных». Сертификат
- по технологии естественного языка: «Когда вы разговариваете со своим мобильным устройством или автомобильной навигационной системой — или она разговаривает с вами — вы испытываете плоды достижений в области обработки естественного языка. Эта область, которая фокусируется на создании программного обеспечения, способного анализировать и понимать человеческие языки, быстро развивалась в последние годы и теперь имеет множество технологических приложений. В этой сертификационной программе из трех курсов мы изучим основы вычислительной лингвистики, академической дисциплины, лежащей в основе НЛП».
- Обработка естественного языка (Википедия): «Обработка естественного языка (NLP) — это область информатики, искусственного интеллекта и компьютерной лингвистики, связанная с взаимодействием между компьютерами и человеческими (естественными) языками. В 1950 году Алан Тьюринг опубликовал статью под названием «Вычислительные машины и интеллект», в которой предложил в качестве критерия интеллекта то, что сейчас называется тестом Тьюринга. Однако начиная с конца 1980-х годов в НЛП произошла революция с введением алгоритмов машинного обучения для обработки языка».
- Схема обработки естественного языка (Википедия): «Следующая схема представлена в качестве обзора и актуального руководства по обработке естественного языка: Обработка естественного языка — компьютерная деятельность, в которой компьютеры должны анализировать, понимать, изменять или генерировать естественный язык. ».
- Apache OpenNLP: «Библиотека Apache OpenNLP представляет собой набор инструментов на основе машинного обучения для обработки текста на естественном языке».
- Natural Language Toolkit: «NLTK — это ведущая платформа для создания программ Python для работы с данными человеческого языка. Он предоставляет простые в использовании интерфейсы для более чем 50 корпусов и лексических ресурсов, таких как WordNet, а также набор библиотек обработки текста для классификации, токенизации, выделения корней, тегов, синтаксического анализа и семантического анализа, оболочки для промышленных библиотек НЛП, и активный дискуссионный форум. «Обработка естественного языка с помощью Python» представляет собой практическое введение в программирование для обработки языка».
- Тщательно подобранный список ресурсов для обработки речи и естественного языка
- Исследовательская группа НЛП в Google
- Общее введение в НЛП
- Обработка естественного языка: введение
- Stanford CS 224D Видео: глубокое обучение для обработки естественного языка
- CS 388: обработка естественного языка
- COMS W4705: обработка естественного языка
- CS 674: обработка естественного языка
- CS918 Обработка естественного языка
- r/LanguageTechnology
- Все, что вам нужно знать об обработке естественного языка
Видеообработка естественного языка
- Обработка естественного языка с помощью Python и NLTK стр. 1 Токенизация слов и предложений
Об авторе
ИИ в разных отраслях
5 ключевых выводов из отчета DataRobot State of AI Bias Report
По мере распространения ИИ во всех сферах бизнеса руководители ищут способы снизить риски и понять, как предвзятость ИИ снижает эффективность ИИ или, что еще хуже, увеличивает риск компании. К настоящему времени большинство руководителей бизнеса осознают потенциал, который ИИ может принести их организациям. На самом деле слияние сбора данных, недорогих вычислений и технологий с открытым исходным кодом сделало возможным широкое…
Подробнее
Опыт ИИ
5 советов от экспертов LinkedIn по созданию личного бренда в науке о данных
16 и 17 июня 2020 г. компания DataRobot провела AI Experience Worldwide, нашу первую виртуальную конференцию, на которой собрались клиенты, партнеры и специалисты по искусственному интеллекту, чтобы обсудить, как мы все можем ускорить внедрение решений искусственного интеллекта во всем мире.