Идентификация это простыми словами: Идентификация — что это такое и как подтверждается идентичность

Содержание

Идентификация — что это такое и как подтверждается идентичность

Обновлено 24 июля 2021 Просмотров: 448369 Автор: Дмитрий Петров

Здравствуйте, уважаемые читатели блога KtoNaNovenkogo.ru. Сейчас на многих онлайн-сервисах (особенно так или иначе связанных с деньгами) введена практика прохождения идентификации (ее еще иногда называют валидацией или верификацией, но сути это не меняет).

Так же идентификация может потребоваться, когда вы, например, захотите восстановить права на свою страницу в Контакте (по какой-то причине утерянные).

Ну, и кроме прикладного значения мы чутка затронем вопрос, а что вообще означает слово идентификация, ибо у него довольно много значений и употребляется оно в самых разных областях (не только связанных с интернетом).

Что такое идентификация

Сразу начну с конца (точнее с начала). Что означает это слово с точки зрения этимологии (языкознания). Тут все одновременно и просто, и сложно. Просто, потому что идентификация — это проверка на одинаковость (схожесть, тождественность), а идентичность — это уже окончательный результат такой проверки (сделанный вывод — идентично или нет).

Сложно же потому, что это слово используется в очень разных областях, и его значение от этого может меняться.

Например, идентификация в философии — это осознание человеком своей принадлежности к чему-то (учению, группе, идеологии). В криминалистике — это опознание человека (по отпечаткам пальцев, по голосу, по почерку и т.п.). В финансовой сфере — это сверка фото в вашем паспорте с вашим лицом.

В наш же компьютерный век данное слово в первую очередь ассоциируется с информационной средой. Идентификация в интернете нужна, чтобы понять, что вы именно тот человек, за кого себя выдаете. Чаще всего этого требуют сервисы связанные с деньгами (платежные системы, криптобиржи), но могут потребовать сверку личности и другие сервисы, чтобы, например, восстановить утерянный доступ к ним (социальные сети, сервисы электронной почты).

В качестве идентификатора (подтверждающего личность объекта) чаще всего используется скан паспорта (либо сам паспорт показанный лично) или другого документа. В качестве идентификатора адреса проживания — скан какой-нибудь квитанции об оплате, где указан ваш адрес. А в качестве идентификатора Емайл адреса или номера мобильного телефона может служить код, который присылают вам на почту или телефон, соответвенно.

Например, в Яндекс Деньгах мне пришлось пройти процесс идентификации для того, чтобы получить возможность принимать платежи с некоторых сервисов на свой кошелек. Можно работать и без нее, но так вы получите значительно больше возможностей и преференций.

Для проверки идентичности придется предъявить паспорт в их офисе, либо в салоне сотовой связи с ними сотрудничающем.

Как я уже упоминал, в некоторых сервисах (типа соцсетей или электронной почты) есть процедуры восстановления доступа к утерянным аккаунтам. Например, вы забыли пароль (либо логин) или того хуже — ваш аккаунт взломали и поменяли пароль для входа. В этом случае сервис может восстановить вам доступ, но для этого вам нужно будет пройти идентификацию.

Например, при возникновении проблем со входом Вконтакте вам потребуется пройти процедуру восстановления доступа, которая заключается в вашем опознании (подтверждении личности, т.е. идентификации — вы тот самый Вася Пупкин или не вы). Вас попросят прислать свое селфи на фоне экрана компьютера с отрытой страницей сервиса:

А так же попросят прислать скан паспорта, чтобы проверить идентичность вашей личности и ФИО в паспорте:

Идентификация в интернете и анонимность

Пока интернет можно считать хотя бы отчасти анонимным. Случай чего вас, конечно же, все равно найдут, но для этого нужны серьезные усилия (вычисление АйПи адреса и т.п.). Но, думаю, в ближайшее время (десятилетие) вход в сеть неидентифициорованных пользователей будет затруднен.

Все к этому идет и в какой-то мере это правильно. Как бы, свободу это вам не шибко ограничивает, но зато всяческих интернет-хулиганов (типа хейтеров или троллей) станет на порядок меньше.

Это не значит, что каждый встречный поперечный сможет узнать ваше ФИО или адрес. Просто интернет-провайдеры будут четко и легко идентифицировать вас, что несколько остудит горячие головы проводящие параллели между анонимностью и вседозволенностью. ИМХО (что это такое)

Удачи вам! До скорых встреч на страницах блога KtoNaNovenkogo.ru

Эта статья относится к рубрикам:

ИДЕНТИФИКАЦИЯ — это… Что такое ИДЕНТИФИКАЦИЯ?

ИДЕНТИФИКАЦИЯ
ИДЕНТИФИКАЦИЯ

(от лат. identificare -отождествлять)

установление соответствия реального объекта, товара представленной на него документации, его названию во избежание подмены одного объекта другим.

Райзберг Б.А., Лозовский Л.Ш., Стародубцева Е.Б.. Современный экономический словарь. — 2-е изд., испр. М.: ИНФРА-М. 479 с.. 1999.

Экономический словарь. 2000.

Синонимы:
  • ИДЕАЛЬНЫЙ ТОВАР
  • ИЕНА

Смотреть что такое «ИДЕНТИФИКАЦИЯ» в других словарях:

  • идентификация — 1) Уподобление (как правило, неосознанное) себя значимому другому (напр. родителю) как образцу на основании эмоциональной связи с ним. Посредством механизма И. начиная с раннего детства у ребенка формируются многие черты личности и поведенческие… …   Большая психологическая энциклопедия

  • ИДЕНТИФИКАЦИЯ — (от ср. лат. identificare отождествлять, уподоблять, устанавливать совпадение) глубинная, трудно удовлетворяемая потребность человека к уподоблению, к поиску объекта поклонения. Индивид, воспринимающий мир как систему таинственных вещей и явлений …   Философская энциклопедия

  • ИДЕНТИФИКАЦИЯ — [Словарь иностранных слов русского языка

  • Идентификация — – процесс распознавания пользователя автоматизированной системой, для чего он сообщает ей свое уникальное имя, к примеру логин. Это имя называют идентификатором. Идентификация позволяет системе отличить одного пользователя от другого, у двух… …   Банковская энциклопедия

  • ИДЕНТИФИКАЦИЯ — (на средневековой латыни identifico отождествляю), уподобление, опознание объектов, личностей в процессе сравнения, сопоставления. В психологии и социологии применяется для классификации, анализа знаковых систем, распознавания образов и др.… …   Современная энциклопедия

  • ИДЕНТИФИКАЦИЯ — (от ср. век. лат. identifico отождествляю) 1) признание тождественности, отождествление объектов, опознание2)] В криминалистике установление тождества объекта или личности по совокупности общих и частных признаков (напр., идентификация личности… …   Большой Энциклопедический словарь

  • идентификация — отождествление, опознание; опознавание, аутентификация, распознавание, отожествление, распознание Словарь русских синонимов. идентификация сущ., кол во синонимов: 11 • аутентификация (5) …   Словарь синонимов

  • идентификация — и, ж.

    identification f., >нем. Identifikation. Установление совпадения, сходства; уподобление. БАС 1. Лекс. Березин 1877: идентификация; Уш. 1934: идентифика/ция …   Исторический словарь галлицизмов русского языка

  • идентификация — Установление тождества объектов на основе совпадения их признаков. [ГОСТ 7.0 99] идентификация Присвоение субъектам и объектам доступа идентификатора и (или) сравнение предъявляемого идентификатора с перечнем присвоенных идентификаторов [4]. [4]… …   Справочник технического переводчика

  • Идентификация — (на средневековой латыни identifico отождествляю), уподобление, опознание объектов, личностей в процессе сравнения, сопоставления. В психологии и социологии применяется для классификации, анализа знаковых систем, распознавания образов и др.… …   Иллюстрированный энциклопедический словарь

  • ИДЕНТИФИКАЦИЯ — в криминалистике опознание лица или вещи на основании неизменяемых признаков. Личность обвиняемого устанавливается фотоснимками, отпечатками пальцев, измерениями и другими характеристиками (напр., записью голоса на магнитную ленту) …   Юридический словарь


Идентификация, аутентификация, авторизация — в чем разница?

Перед серией уроков по информационной безопасности нам нужно разобраться с базовыми определениями.


Сегодня мы узнаем, что такое идентификация, аутентификация, авторизация и в чем разница между этими понятиями

Что такое идентификация?

Сначала давайте прочитаем определение:

Идентификация — это процедура распознавания субъекта по его идентификатору (проще говоря, это определение имени, логина или номера).

Идентификация выполняется при попытке войти в какую-либо систему (например, в операционную систему или в сервис электронной почты).

Сложно? Давайте перейдём к примерам, заодно разберемся, что такое идентификатор.

Пример идентификатора в социальной сети ВКонтакте

Когда нам звонят с неизвестного номера, что мы делаем? Правильно, спрашиваем “Кто это”, т.е. узнаём имя. Имя в данном случае и есть идентификатор, а ответ вашего собеседника — это будет идентификация.

Идентификатором может быть:

  • номер телефона
  • номер паспорта
  • e-mail
  • номер страницы в социальной сети и т.д.

Подробнее об идентификаторах и ID рекомендую прочитать здесь.

Что такое аутентификация?

После идентификации производится аутентификация:

Аутентификация – это процедура проверки подлинности (пользователя проверяют с помощью пароля, письмо проверяют по электронной подписи и т.д.)

Чтобы определить чью-то подлинность, можно воспользоваться тремя факторами:

  1. Пароль – то, что мы знаем (слово, PIN-код, код для замка, графический ключ)
  2. Устройство – то, что мы имеем (пластиковая карта, ключ от замка, USB-ключ)
  3. Биометрика – то, что является частью нас (отпечаток пальца, портрет, сетчатка глаза)

Отпечаток пальца может быть использован в качестве пароля при аутентификации

Получается, что каждый раз, когда вы вставляете ключ в замок, вводите пароль или прикладываете палец к сенсору отпечатков пальцев, вы проходите аутентификацию.

Ну как, понятно, что такое аутентификация? Если остались вопросы, можно задать их в комментариях, но перед этим разберемся еще с одним термином.

Что такое авторизация?

Когда определили ID, проверили подлинность, уже можно предоставить и доступ, то есть, выполнить авторизацию.

Авторизация – это предоставление доступа к какому-либо ресурсу (например, к электронной почте).

Разберемся на примерах, что же это за загадочная авторизация:

  • Открытие двери после проворачивания ключа в замке
  • Доступ к электронной почте после ввода пароля
  • Разблокировка смартфона после сканирования отпечатка пальца
  • Выдача средств в банке после проверки паспорта и данных о вашем счете

Дверь открылась? Вы авторизованы!

Взаимосвязь идентификации, аутентификации и авторизации

Наверное, вы уже догадались, что все три процедуры взаимосвязаны:

  1. Сначала определяют имя (логин или номер) – идентификация
  2. Затем проверяют пароль (ключ или отпечаток пальца) – аутентификация
  3. И в конце предоставляют доступ – авторизация

Инфографика: 1 — Идентификация; 2 — Аутентификация; 3 — Авторизация


Проблемы безопасности при авторизации

Помните, как в сказке «Красная Шапочка» бабушка разрешает внучке войти в дом? Сначала бабушка спрашивает, кто за дверью, затем говорит Красной Шапочке, как открыть дверь. Волку же оказалось достаточным узнать имя внучки и расположение дома, чтобы пробраться в дом.

Какой вывод можно сделать из этой истории?

Каждый этап авторизации должен быть тщательно продуман, а идентификатор, пароль и сам принцип авторизации нужно держать в секрете.

Заключение

Итак, сегодня вы узнали, что такое идентификация, аутентификация и авторизация.

Теперь мы можем двигаться дальше: учиться создавать сложные пароли, знакомиться с правилами безопасности в Интернете, настраивать свой компьютер с учетом требований безопасности.

А в заключение, занимательная задачка для проверки знаний:

посчитайте, сколько раз проходят идентификацию, аутентификацию и авторизацию персонажи замечательного мультфильма «Петя и Красная Шапочка» (ответы в комментариях).

P.S. Самые внимательные могут посчитать, сколько раз нарушены рассмотренные в данном уроке процедуры.

Автор: Сергей Бондаренко http://it-uroki.ru/

Копирование запрещено, но можно делиться ссылками:


Поделитесь с друзьями:



Понравились IT-уроки?

Все средства идут на покрытие текущих расходов (оплата за сервер, домен, техническое обслуживание)
и подготовку новых обучающих материалов (покупка необходимого ПО и оборудования).


Много интересного в соц.сетях:

Чем отличаются друг от друга идентификация, аутентификация и авторизация

Это происходит с каждым из нас, причем ежедневно: мы постоянно идентифицируемся, аутентифицируемся и авторизуемся в разнообразных системах. И все же многие путают значение этих слов и часто употребляют термин «идентификация» или «авторизация», когда на самом деле речь идет об аутентификации.

Ничего такого уж страшного в этом нет — пока идет бытовое общение и обе стороны диалога по контексту понимают, что в действительности имеется в виду. Но всегда лучше знать и понимать слова, которые употребляешь, а то рано или поздно нарвешься на зануду-специалиста, который вынет всю душу за «авторизацию» вместо «аутентификации», кофе среднего рода и такое душевное, но неуместное в серьезной беседе слово «ихний».

Идентификация, аутентификация и авторизация: серьезные определения

Итак, что же значат термины «идентификация», «аутентификация» и «авторизация» — и чем соответствующие процессы отличаются друг от друга? Для начала проконсультируемся с «Википедией»:

  • Идентификация — процедура, в результате выполнения которой для субъекта идентификации выявляется его идентификатор, однозначно определяющий этого субъекта в информационной системе.
  • Аутентификация — процедура проверки подлинности, например проверка подлинности пользователя путем сравнения введенного им пароля с паролем, сохраненным в базе данных.
  • Авторизация — предоставление определенному лицу или группе лиц прав на выполнение определенных действий.

Объясняем идентификацию, аутентификацию и авторизацию на енотах

Выше было очень много умных слов, теперь давайте упростим до конкретных примеров. Скажем, пользователь хочет войти в свой аккаунт Google. Google подходит лучше всего, потому что там процедура входа явным образом разбита на несколько простейших этапов. Вот что при этом происходит:

  • Для начала система запрашивает логин, пользователь его указывает, система распознает его как существующий — это идентификация.
  • После этого Google просит ввести пароль, пользователь его вводит, и система соглашается, что пользователь, похоже, действительно настоящий, раз пароль совпал, — это аутентификация.
  • Скорее всего, Google дополнительно спросит еще и одноразовый код из SMS или приложения. Если пользователь и его правильно введет, то система окончательно согласится с тем, что он настоящий владелец аккаунта, — это двухфакторная аутентификация.
  • После этого система предоставит пользователю право читать письма в его почтовом ящике и все в таком духе — это авторизация.

Аутентификация без предварительной идентификации лишена смысла — пока система не поймет, подлинность чего же надо проверять, совершенно бессмысленно начинать проверку. Для начала надо представиться.

Идентификация без аутентификации — это просто глупо. Потому что мало ли кто ввел существующий в системе логин! Системе обязательно надо удостовериться, что этот кто-то знает еще и пароль. Но пароль могли подсмотреть или подобрать, поэтому лучше подстраховаться и спросить что-то дополнительное, что может быть известно только данному пользователю: например, одноразовый код для подтверждения входа.

А вот авторизация без идентификации и тем более аутентификации очень даже возможна. Например, в Google Документах можно публиковать документы так, чтобы они были доступны вообще кому угодно. В этом случае вы как владелец файла увидите сверху надпись, гласящую, что его читает неопознанный енот. Несмотря на то, что енот совершенно неопознанный, система его все же авторизовала — то есть выдала право прочитать этот документ.

А вот если бы вы открыли этот документ для чтения только определенным пользователям, то еноту в таком случае сперва пришлось бы идентифицироваться (ввести свой логин), потом аутентифицироваться (ввести пароль и одноразовый код) и только потом получить право на чтение документа — авторизоваться.

А уж если речь идет о содержимом вашего почтового ящика, то Google никогда и ни за что не авторизует неопознанного енота на чтение вашей переписки — если, конечно, он не идентифицируется с вашим логином и не аутентифицируется с вашим паролем. Но тогда это уже не будет неопознанный енот, поскольку Google однозначно определит этого енота как вас.

Теперь вы знаете, чем идентификация отличается от аутентификации и авторизации. Что еще важно понимать: аутентификация — пожалуй, самый важный из этих процессов с точки зрения безопасности вашего аккаунта. Если вы ленитесь и используете для аутентификации только слабенький пароль, то какой-нибудь енот может ваш аккаунт угнать. Поэтому:

  • Придумывайте для всех аккаунтов надежные и уникальные пароли.
  • Если испытываете трудности с их запоминанием — вам всегда придет на помощь менеджер паролей. Он же поможет их сгенерировать.
  • Обязательно включайте двухфакторную аутентификацию — одноразовые коды в SMS или приложении — во всех сервисах, которые это позволяют. Иначе какой-нибудь неопознанный енот, так или иначе заполучивший ваш пароль, сможет прочитать вашу тайную переписку или сделать что-то еще более неприятное.

Идентификация, аутентификация и авторизация

На самом деле никакого обмена не происходило. Произошли поочередно три процесса: идентификация, аутентификация и авторизация. Данная статья поможет понять, как происходят эти процессы, когда они происходят, в какой последовательности и как с их помощью защитить свои персональные данные и денежные средства.

Содержание статьи:

Определения

Идентификация, аутентификация и авторизация – три процесса защищающие Ваши данные или денежные средства от доступа посторонних лиц. Понимание процессов придет быстрее, если дать им определения.
  • Идентификация — процесс распознавания пользователя по его идентификатору.
  • Аутентификация — процедура проверки подлинности, доказательство что пользователь именно тот, за кого себя выдает.
  • Авторизация — предоставление определённых прав.
Для начала этих теоретических знаний будет достаточно. Вернемся к примеру с доступом в онлайн-банкинг. Каждое действие пользователя и системы рассмотрим подробно.

Механизмы идентификации, аутентификации и авторизации

Находясь на сайте банка, пользователь решает зайти в личный кабинет, чтобы сделать денежный перевод. На странице личного кабинета система вначале просит ввести идентификатор. Это может быть логин, имя и фамилия, адрес электронной почты или номер мобильного телефона. Какой конкретно вид данных необходимо ввести – зависит от ресурса. Данные, которые указывались при регистрации, необходимо ввести для получения доступа. Если при регистрации указывалось несколько типов данных – и логин, и адрес электронной почты, и номер мобильного, то система сама подскажет что ей конкретно нужно. Ввод этих данных необходим для идентификации человека за монитором как пользователя конкретно этого банка. Если пользователь в качестве идентификатора ввел «Александр Петров», и система нашла в своей базе запись о пользователе с таким именем, то идентификация завершилась. После идентификации следует процесс аутентификации, в котором пользователю нужно доказать, что он является человеком, который регистрировался под именем Александр Петров. Для доказательства необходимо наличие одного из типов аутентификационных данных:
  • Нечто, присущее только пользователю. Биометрические данные: сканеры лица, отпечатки пальцев или сетчатки глаза.
  • Нечто, известное только пользователю. Сюда относятся pin-коды, пароли, графические ключи, секретные слова.
  • Нечто, имеющееся у пользователя. В данном качестве может выступать токен, то есть компактное устройство, предназначенное для обеспечения информационной безопасности пользователя, также используется для идентификации владельца. Самые простые токены не требуют физического подключения к компьютеру – у них имеется дисплей, где отображается число, которое пользователь вводит в систему для осуществления входа; более сложные подключаются к компьютерам посредством USB и Bluetooth-интерфейсов.
Самый распространенный тип аутентификационных данных – это пароль. Именно поэтому так важно создавать и правильно хранить свои пароли. Подробнее об этом можно прочитать в статьях «Создание надежных паролей» и «Как правильно выбирать и хранить пароли». После ввода пользователем пароля система проверяет: соответствует ли условный пароль «Q45fp02@13» пользователю с именем Александр Петров. Таким образом происходит аутентификация. Если все верно, и пара логин-пароль верны, то система предоставит пользователю доступ к его ресурсам и совершение банковских операций, то есть произойдет авторизация. Описанные процессы всегда происходят только в таком порядке: идентификация, аутентификация, авторизация. Вся цепочка потеряет смысл, если, например, сайт сначала предоставит доступ к денежным средствам пользователя, а потом будет уточнять, он ли это на самом деле. Процессы идентификации, аутентификации и авторизации характерны не только для онлайн-банкинга, но и для электронной почты, социальных сетей и других ресурсов. В реальной жизни мы также сталкиваемся идентификацией, аутентификацией и авторизацией. Примером может служить проверка документов сотрудником полиции. Вы представились как Александр Петров, и сотрудник полиции идентифицировал Вас как Александра Петрова. Для аутентификации необходим паспорт, в котором видно, что Александр Петров выглядит так же, как и вы. Авторизацией в данном случае будет то, что сотрудник отпустит вас и пожелает счастливого пути, т.е. предоставит право свободного перемещения. Процессы идентификации, аутентификации и авторизации есть во многих сферах. Даже в простейших детских сказках. Сказка «Волк и семеро козлят» является идеальным примером для демонстрации. Здесь козлята выступают в роли системы безопасности, идентифицируя каждого, кто подходит к двери. В качестве данных для аутентификации выступает биометрия – тонкий голосок мамы-козы. И если в первый раз волк не смог пройти аутентификацию (его выдал грубый голос), то со второй попытки (после того как ему перековали горло, и он запел тонким голоском) он аутентифицировался как мама-коза и козлята «авторизовали» его в свою избу. Несмотря на то, что сказка закончилась благополучно, доступ к козлятам был получен неправомерно. Волку удалось обмануть процессы идентификации и аутентификации и тем самым пройти авторизацию. Если в старой детской сказке это оказалось возможным, то что говорить о современных злоумышленниках. Чтобы защитить свои денежные средства и персональные данные и козлят от волка от злоумышленника необходимо использовать более сложные способы аутентификации.

Многофакторная аутентификация

Многофакторная аутентификация представляет собой метод, при котором пользователю для доступа к учетной записи или подтверждения операции с денежными средствами необходимо двумя различными факторами доказать, что именно он владелец учетной записи или что именно он осуществляет вход. Среди видов многофакторной аутентификации наиболее распространена двухфакторная аутентификация (2FA — 2-factor authentication) – метод, при котором пользователю для получения доступа необходимо предоставить два разных типа аутентификационных данных, например, что-то известное только пользователю (пароль) и что-то присущее только пользователю (отпечаток пальца). Доступ к ресурсам через ввод логина и пароля, является однофакторной аутентификацией, поскольку для входа используется только один тип аутентификационных данных — известный пользователю пароль.

Однофакторная двухэтапная аутентификация

Благодаря тому, что смартфоны стали неотъемлемой частью нашей жизни, именно они стали одним из способов подтверждения личности пользователя. Они являются токенами для доступа к различным ресурсам. В этом случае одноразовый пароль генерируется или с помощью специального приложения, или приходит по SMS – это максимально простой для пользователя метод.

Аутентификация происходит следующим образом:
  1. Пользователь вводит логин и пароль, указанные при регистрации. Если данная пара корректна (логин есть в базе и соответствует паролю) система высылает одноразовый пароль, имеющий ограниченное время действия.
  2. Пользователь вводит одноразовый пароль и, если он совпадает с тем, что отправила система, то пользователь получает доступ к своей учетной записи, денежным средствам или подтверждает денежный перевод.
Даже если злоумышленник получит логин и пароль для учетной записи (с помощью вредоносной программы, кражи записной книжки с паролями или методами социальной инженерии и фишинга), то после ввода этих данных система отправит на привязанный мобильный телефон пользователя одноразовый код с ограниченным временем действия. Без одноразового кода мошенник не сможет похитить денежные средства.

Рекомендации

  1. Используйте уникальные, надежные пароли для разных учетных записей.
  2. Настройте двухэтапную однофакторную или многофакторную аутентификацию на всех ресурсах, где это возможно.

Идентификация это (в психологии)

Идентификация в психологии понимается сразу в нескольких значениях. Но в общем, простыми словами, идентификация – это процесс отождествления себя с группой, другим человеком или образом. Значения, в которых рассматривается этот психологический процесс в науке, зависят только от целей процесса.

Значение слова «идентификация» происходит от латинского «identificatio», что означает «отождествляю». Идентификация личности человека происходит с профессией, с полом, с народом. Она может являться как позитивной, так и негативной.

Благодаря идентификации человек присваивает какие-то аспекты других людей или идеальных образов. По сути, изменения происходят бессознательно, но выбор объекта, с которого человек берет пример, вполне сознателен. Во многих случаях отождествление становится основной адаптивных изменений.

Развитие

С тех пор как Фрейд предложил термин, а также назвал виды идентификации человека (эротическая и миметическая), влияние отождествления и его роль в становлении личности изучались многими философами и психологами. Фрейд, заложивший основы учения, называл эротическими идентификации с теми людьми, которыми нам хотелось бы обладать.

Второй выделенный им вид был направлен на тех людей, которыми мы бы хотели быть. Благодаря процессу миметической идентификации толпа становится управляемой, так как все её элементы отказываются от своих идеалов и принимают единый, массовый идеал, выраженный в лидере.

Скачайте бесплатно: 5 книг, которые изменят вашу жизнь! ♡

Понятие идентификации активно используют в социальной психологии. Самые оригинальные теории связаны с именами Тэджфела и Эриксона. Тэджфел разработал теорию социальной идентичности. Группы, к которым принадлежат люди, являются источником гордости и самоуважения, они интегрируют человека в социальный мир и создают ощущение принадлежности к большой группе людей.

Рекомендуем: Что такое отождествление личности?

Негативным аспектом подобного процесса является попытка повысить свою самооценку через возвеличивание группы, к которой принадлежит человек, и окрашивания черными красками других групп. Деление на «мы» и «они» приводит к уменьшению эмпатии по отношению ко вторым. При этом нам становится важно помочь и поддержать тех, кто входит в группу «мы».

Предубеждения, которые рождаются в культуре как результат этого разделения, иногда выливаются в масштабные и жестокие конфликты. Примерами являются расизм и геноцид. Социальная идентификация ведет к преувеличению различий между группами и стиранию различий внутри них. Таким образом, мы не видим за всем этим личностей, индивидуальностей, начинаем воспринимать окружающих из других групп стереотипно.

Тэджфел и Тернер выделили три стадии идентификации. Сначала мы классифицируем объекты, чтобы понять их и идентифицировать. Название этого этапа – категоризация. В самой по себе категоризации нет ничего плохого, так как без неё нам было бы довольно сложно жить, категории дают нам достаточно много информации о человеке и его ролях в группе.

Скачайте бесплатно: 5 книг, которые изменят вашу жизнь! ♡

На втором этапе мы сами начинаем приписывать себя к какой-то из групп, что определили ранее. И только этап социального сравнения таит в себе угрозы. Когда мы уже отнесли себя к определенной группе, начав сравнивать её с другими, мы можем с предубеждением относиться к их представителям, особенно если наши группы конкурируют. Для продуктивного и экологичного общения необходимо очищать свое мышление от бессознательных попыток очернить людей из других групп.

Рекомендуем: Понятие идентичности в психологии

Идентификация – важный термин в теории идентичности Эриксона. Чтобы обрести себя, стать индивидуальностью, человек должен совершить множество отождествлений с другими и интегрировать их. Обретение идентичности сопровождается осознанием своей неотрывности от социального и культурного поля, восприятием целостности личности, непрерывности её развития через идентификации с разными социальными группами. В его теории, идентификация – путь к достижению идентичности.

Конкретные аспекты

Методы идентификации, или, точнее, механизмы, благодаря которым она происходит, можно разделить на сознательные и бессознательные. Для рассматриваемого психологического процесса характерны:

  • Сравнение и сопоставление с другими.
  • Подражание примерам.
  • Эмпатия (т.е. способность вжиться в роль другого, почувствовать себя другим человеком и понять).
  • Проекция своего внутреннего мира на других.

При помощи идентификации мы усваиваем необходимые модели поведения, этические нормы, формы реагирования на происходящее. Позитивное влияние ясно, но есть и негативное, выраженное в опасности выхолащивания индивидуального. Этот психологический процесс помогает нам расширить наш опыт, эмоционально обогатиться.

Скачайте бесплатно: 5 книг, которые изменят вашу жизнь! ♡

Рекомендуем: Персонализация — это

Профессия также накладывает свой отпечаток на личность. Отождествление с профессией не может считаться чисто негативным, но и не всегда оказывает позитивное влияние. Оно проявляется в том, что человек начинает оценивать реальность и людей с профессиональной точки зрения, пользуясь теми приемами и навыками, которые обычно применяет в своей профессии. Благодаря этому человек часто может расти как профессионал не только на работе. С другой стороны, остается открытым вопрос: а хорошо ли это, полезно ли для индивидуальности и восприятия мира?

Идентификация личности человека по признакам внешности натыкается на множество курьезов. Так, понять другого человека исходя из внешних признаков часто оказывается невозможно. Мы приписываем красавцам положительные качества, незнакомцев воспринимаем похожими на себя.

Психология использует понятие в разных контекстах. Так, с одной стороны, идентификация – способ перенять какие-то свойства иных людей, с другой – это способ понять людей в процессе межличностного взаимодействия.

Сознательная работа по пониманию того, как другие люди чувствуют и думают в зависимости от своего опыта, попытки поставить себя на место другого человека – второй случай. Осуществить переход от себя к другому чрезвычайно тяжело, и такие попытки редко заканчиваются полным успехом.

Рекомендуем: Психология личности

Разобравшись с тем, что такое идентификация, определение её роли не составит труда. Субботина вполне убедительно называет её основой для формирования личности. Культурная идентификация помогает нам соответствовать времени, окружающим людям, при этом не уничтожает индивидуальности.

Профессиональная – способствует становлению специалиста. Идентификация помогает нам понимать других и становиться лучше, если мы выбираем достойные примеры для подражания. Автор: Екатерина Волкова

Если вы любите давать советы и помогать другим женщинам, пройдите бесплатное обучение коучингу у Ирины Удиловой, освойте самую востребованную профессию и начните получать от 70-150 тысяч:

Основы RFID простыми словами! | SICK

Основы RFID простыми словами! | SICK

Тип:Основы RFID простыми словами!

Артикул: 1615407

Технический паспорт изделия Русский Cesky Dansk Deutsch English Español Suomi Français Italiano 日本語 – Японский 한국어 – Корейский Nederlands Polski Portugues Svenska Türkçe Traditional Chinese Китайский

Copy shortlink
  • Радиочастотная идентификация (англ. Radio-Frequency Identification, RFID) — это технология, которая позволяет с помощью радиоволн бесконтактно идентифицировать и локализовать несколько объектов одновременно. В этой комплексной программе обучения, состоящей из пяти модулей, рассказывается об успешном использовании технологии RFID и о том, как эффективно использовать её преимущества.

    Краткий обзор
    • Структурированная учебная программа из 5 модулей
    • Прямая связь с практикой и ценные инсайдерские знания с конкретным объяснением на трёх реальных примерах применения
    • Гибкий формат электронного обучения независимо от времени и места
    • Сертификат, подтверждающий успешное завершение курса
    • Доступный язык: английский
    Ваши преимущества
    • Глубокие базовые знания обеспечивают успешное использование решений на базе RFID
    • Знания, полученные от компетентных специалистов, дают исчерпывающие ответы на ваши вопросы
    • Занимательный интерактивный дидактический учебный материал обеспечивает высокую успеваемость
    • Эффективный цифровой формат обучения по доступной цене
    Цели
    • Понимание принципа действия технологии RFID, включая её преимущества и ограничения
    • Знание основных типов и вариантов исполнения транспондеров, а также национальных предписаний
    • Способность различать свойства продуктов, а также идентифицировать случаи применения для технологии RFID и находить соответствующие решения

Пожалуйста, подождите. ..

Ваш запрос обрабатывается, это может занять несколько секунд.

Определение идентификации по Merriam-Webster

идентификация | \ ī-ˌden-tə-fə-kā-shən , ə- \

: психологическая ориентация личности в отношении чего-либо (например, человека или группы), в результате чего возникает чувство близкой эмоциональной ассоциации.

б : в значительной степени бессознательный процесс, посредством которого человек моделирует мысли, чувства и действия после тех, которые приписываются объекту, который был включен в качестве мысленного образа.

Определение и значение идентификации | Словарь английского языка Коллинза

Примеры «идентификации» в предложении

идентификационный номер

Эти примеры были выбраны автоматически и могут содержать конфиденциальный контент. Подробнее… Хотя формального опознания не проводилось, мы проинформировали его семью.

The Sun (2016)

Суды страны не позволяют полностью идентифицировать кого-либо, кто участвует в судебных процессах.

Times, Sunday Times (2016)

Полиция Северного Уэльса вчера вечером вынесла публичное предупреждение по поводу идентификации женщины.

The Sun (2016)

Конечно, нет ни фотографий, ни имен, только идентификационный номер.

Times, Sunday Times (2016)

Но в опознании его тела есть ирония.

Times, Sunday Times (2013)

Идет формальный процесс идентификации.

Times, Sunday Times (2012)

Единственное, что осталось неизменным, — это идентификационный номер автомобиля.

Христианство сегодня (2000)

Основная проблема заключалась в идентификации.

Патрик Бишоп БОЙЦЫ-МАЛЬЧИКИ: Спасение Британии 1940 (2003)

Есть еще проблема с идентификацией.

Коэн, Джулиан и Кей, Джеймс серьезно употребляют наркотики (1994)

Он поднес к камере свое военное удостоверение и жетоны, чтобы подтвердить свою личность.

Times, Sunday Times (2011)

Подробнее …

Имя жертвы вчера вечером не было названо, так как полиция ожидала официального опознания.

Times, Sunday Times (2012)

Одна группа остановила нас и попросила показать наши документы, удостоверяющие личность.

Times, Sunday Times (2011)

Человеческие останки, найденные в сарае, были настолько сильно сожжены, что формальная идентификация невозможна.

Times, Sunday Times (2006)

Велосипедисты должны иметь идентификационный номер и оплачивать огромные затраты на создание велосипедных полос и другой инфраструктуры для велосипедистов.

Солнце (2015)

Сначала мы рассмотрим обучение, а затем рассмотрим определение потребностей в обучении и формулировку целей обучения.

Торрингтон, Дерек Управление персоналом: новый подход (1991)

Их удостоверения личности были изъяты.

Times, Sunday Times (2013)

Существует идентификация между женщиной и землей, оба беспокойны во сне.

Times, Sunday Times (2013)

Одним из результатов была потребность в африканских центрах передового опыта в диагностике и выявлении заболеваний.

Times, Sunday Times (2007)

Ожидается, что полная идентификация займет не менее 12 месяцев.

Times, Sunday Times (2009)

Он понял, что отпечатки пальцев могут решить проблему идентификации, которая так беспокоила британскую правовую систему.

ОТПЕЧАТКИ ПАЛЬЦЕВ Колина Бивана: убийство и гонка за установление личности (2002)

Взятие образцов ДНК перед захоронением в море может быть обязательным для упрощения идентификации, если тело выброшено на берег.

Times, Sunday Times (2014)

В средние века кости перемещали, что затрудняет окончательную идентификацию.

Times, Sunday Times (2010)

Джентльмены — подробное описание — не нуждались в дальнейшей идентификации в нашем вагоне.

Times, Sunday Times (2011)

Он вернулся с работы, чтобы сделать это первое опознание по фотографиям, просмотренным на ноутбуке полицейского.

Times, Sunday Times (2010)

Какое возможное отличие от нынешнего мнения о короле, хорошего или плохого, может иметь идентификация его тела?

Times, Sunday Times (2013)

Полиция заявила, что коронер проведет формальную идентификацию обоих тел с помощью ДНК, хотя это ожидается. занять недели.

Times, Sunday Times (2012)

Предложение и оценка FASDIM, быстрого и простого метода деидентификации для неструктурированных клинических записей с произвольным текстом

https://doi.org/10.1016/j.ijmedinf.2013.11.005 Получить права и содержание

Основные моменты

Обычные методы деидентификации основаны либо на обработке естественного языка, либо на сопоставлении с образцом.

Эти методы требуют наличия заранее подготовленного материала на соответствующем языке, соответственно словарей или обезличенных документов.

FASDIM — это новый метод, основанный на сопоставлении с образцом, при котором не требуется заранее подготовленный материал: слова фильтруются оператором на лету.

FASDIM был протестирован на 508 французских сводках по выписке и получил: отзыв = 98,1% (без названия), точность = 79,6%, F — измерение = 87,9%.

Отчеты кодируются до и после деидентификации: 99,0% кодов (ICD10, ATC, CCAM для процедур) сохраняются.

Реферат

Цель

Медицинские записи с произвольным текстом позволяют получить обширную информацию о пациентах, но их часто необходимо деидентифицировать путем удаления защищенной медицинской информации (PHI) каждый раз, когда идентификация пациента проводится не обязательно. Для методов сопоставления с образцом требуются заранее определенные словари, а для методов машинного обучения требуется обширный обучающий набор. Методы существуют на французском языке, но либо дают слабые результаты, либо отсутствуют в свободном доступе.Цель состоит в том, чтобы определить и оценить FASDIM, быстрый и простой метод деидентификации французских медицинских записей с произвольным текстом.

Методы

FASDIM заключается в удалении всех слов, которые отсутствуют в разрешенном списке слов, и в удалении всех чисел, кроме тех, которые соответствуют списку шаблонов защиты. Соответствующие списки увеличиваются в ходе итераций метода.

Для оценки рабочая нагрузка оценивается в процессе деидентификации записей. Эффективность деидентификации оценивается независимыми медицинскими экспертами на основании 508 писем о выписке, которые случайным образом отбираются и деидентифицируются FASDIM. Наконец, буквы кодируются после деидентификации и до нее в соответствии с 3 терминологиями (ATC, ICD10, CCAM), и коды сравниваются.

Результаты

Список разрешенных слов строится постепенно: 12 часов для первых 7000 букв, 16 дополнительных часов для 20 000 дополнительных букв. Отзыв (доля удаленной защищенной медицинской информации, PHI) составляет 98.1%, точность (доля PHI в удаленном токене) составляет 79,6%, а показатель F (среднее гармоническое значение) составляет 87,9%. В среднем 30,6 терминологических кодов кодируются на букву, и 99,02% этих кодов сохраняются, несмотря на деидентификацию.

Заключение

FASDIM дает хорошие результаты на французском языке и находится в свободном доступе. Его легко реализовать, и он не требует предопределенного словаря.

Ключевые слова

Анонимизация

Деидентификация

Конфиденциальность

Свободный текст

Обработка естественного языка

Рекомендуемые статьи Цитирующие статьи (0)

Полный текст

Copyright © 2013 Elsevier Ireland Ltd. Все права защищены.

Рекомендуемые статьи

Ссылки на статьи

Определение глагольной идентификации и упражнения

Определение глагола и упражнения

Определение
Части приговора

В предложении должны быть минимум два грамматических компонента:

Подлежащее и глагол.

Пока все хорошо. Но что такое глагол?

Общее определение: Глагол показывает действие или состояние бытия.

Практически все согласны с приведенным выше определением, но полезно ли оно?

Рассмотрим следующее предложение:

Пример предложения: Опасный риск, кажется, пугает большинство трудолюбивых людей.

Какие слова относятся к словам действия? Что ж, давайте подчеркнем те, которые показывают или подразумевают некоторые действие.

Возможные слова действия: Опасный риск, кажется, пугает большинство
трудолюбивых людей.

Вы может возразить, и с полным основанием, что не все эти слова указывают на действие тебе.Но даже если вы рассматриваете принятие и трудолюбие только как действие слова, вы все равно не сможете найти глагол — потому что глагол в этом предложение — это вообще не слово действия. И это явно не состояние существование. И вообще, что такое состояние бытия? Трудно определять. Так как же найти глагол?

Рабочее определение глаголов
Глаголы всегда указывают время (также называемое временем) предложения.

Самый простой способ найти глагол в предложении — это изменить время предложения. и найдите слово, которое меняется.

Как ты делаешь это?
  1. Что ж, выберите некоторые временные слова для прошлого и будущего, например, «Прошлый год» или «В прошлое »или« В следующем году »или« В будущем.»
  2. Тогда поставьте их перед предложением, в котором вы пытаетесь найти глагол и посмотрите, какое слово изменится.

Возьмем предыдущее предложение:

(В прошлом году) Опасный риск, кажется, пугает самых трудолюбивых людей.

Не выглядит или звучит неправильно. Кажется, нужно изменить на Казалось . Это означает, что кажется — это глагол в предложении, потому что это слово переносит или указывает время.

** Важное примечание: Глаголы иногда являются словами действия, , но проблема в том, что многие слова могут указывать на действие, такие как существительные, прилагательные и т. Д. и наречия. А глаголы не всегда показывают действие. Кажется, это не слово действия.

Итак, правило действий и бесполезны при определении глаголов.

* Важное примечание: Вы заметите, что некоторые глаголы, кажется, состоят из двух слов:
Пример: я надеюсь скоро сменить работу.
Полный глагол — «я надеюсь» , но важный глагол, который нужно искать, — это часть, которая несет время предложения.

Сама по себе глагол A (глагол + ing) никогда не является главным глаголом в предложении. A (to + глагол) — это никогда — главный глагол в предложении.
Упражнения
Упражнение 1: Определение глаголов

Изменить следующие предложения к будущему или прошлому, чтобы найти слово.если ты попробуйте прошлое, и слово не изменится, тогда предложение уже может быть в прошлом, поэтому глагол не изменится. Тогда попробуйте будущее.

Примеры:

(возьму)
(в следующем году) Я сильно рискнул, подав заявку на новую работу в той же компании.

Took изменится на будет , поэтому take — это глагол.
(разыскивается)
(в прошлом) Я никогда больше не хочу видеть это выражение на ее лице.

хочу изменится на хотел , поэтому хочу — это глагол.

  1. Мы слышим много разговоров об американском плавильном котле.
  2. Вот, в нашем нынешнем районе, он существует.
  3. Но в других районах люди воспитывали детей, отвергая свою культуру.
  4. Газеты полны историй о ненависти и насилии.
  5. Старые иммигранты подозревают новых иммигрантов.
  6. Новые иммигранты считают старых фанатиками.
  7. В нашем первом районе я жил рядом со многими старыми итальянцами.
  8. Они жаловались на другие группы, проживающие в этом районе.
  9. Они ни в чем меня не винили.
  10. Я им понравился. Так что я не был одним из «других».«

Упражнение 2: Поиск глаголов

Прочтите следующий абзац, затем вернитесь, чтобы прочитать его еще раз, и подчеркните глаголы. Некоторые предложения будут содержать более одного глагола.

Супергерои из мультфильмов обладают рядом общих черт.Они обладают необычайными способностями и способностями. Они сильно различаются, но сверхчеловеческая сила, способность летать и способность проецировать энергии часто встречаются. Бэтмен и Зеленый Шершень не обладают суперспособности, но они знают боевые искусства. Большинство супергероев рискуют собственная безопасность на службе у добра. Многие отказываются убить противника, даже если они угрожают безопасности других.Многие супергерои используют описательное или символическое кодовое имя. Вспомогательный состав персонажей включает в себя друзей и семью героя. У супергероев часто бывает секретный штаб или база. Женские персонажи включают Невидимку, Черную Канарейка и Ворон. Некоторые примеры некавказских персонажей: Черная пантера, Шан Чи и Киборг.

[PDF] Идентификация родного языка: простой подход, основанный на n-граммах

ПОКАЗЫВАЕТ 1-10 ИЗ 18 ССЫЛОК

СОРТИРОВАТЬ ПО РелевантностиСамые популярные статьи Недавность

Изучение грамматик адаптера для идентификации родного языка

В этой работе исследуется расширение грамматик адаптера для определения расширения грамматик адаптера для -граммовые сочетания произвольной длины в сочетании тегов и слов PoS с использованием как maxent, так и индуцированной синтаксической языковой модели подходов к классификации.Развернуть
  • Просмотреть 2 отрывка, справочная информация

Автоматическое определение родного языка авторов

В этом исследовании используются восемь различных сборников произведений носителей восьми разных национальностей, чтобы выяснить, можно ли автоматически определить родной язык автора на основе его / ее письмо на английском языке с использованием традиционных методов машинного обучения. Развернуть
  • Просмотреть 1 отрывок, справочная информация

Обнаружение родного языка с «дешевым» корпусом учащихся

Представлен корпус учащихся Lang-8, обработанный веб-поиском, и он полезен для задачи, особенно если используются большие объемы данных , и, кажется, облегчает использование лексических функций, которых раньше избегали.Развернуть
  • Просмотреть 1 отрывок, справочная информация

Отчет об общей задаче идентификации первого родного языка

Трек слияния показал, что объединение письменных и устных ответов обеспечивает значительное повышение точности прогнозов, а системы с несколькими классификаторами оказались наиболее эффективными во всех задачах, большинство из которых основано на традиционных классификаторах с лексическими / синтаксическими особенностями. Развернуть
  • Просмотреть 1 отрывок, справочная информация

Универсальный набор тегов части речи

В этой работе предлагается набор тегов, который состоит из двенадцати универсальных категорий частей речи, и разрабатывается сопоставление 25 различных наборов тегов банка деревьев с этим универсальным набором , который в сочетании с исходными данными банка деревьев дает набор данных, состоящий из общих частей речи для 22 различных языков.Развернуть
  • Просмотреть 1 отрывок, ссылки на методы

Определение родного языка автора путем анализа текста на предмет ошибок

Показано, что стилистические особенности текста могут использоваться для определения родного языка анонимного автора с высокой точностью и служат в качестве функций для поддержки векторные машины, которые учатся классифицировать тексты по родному языку автора. Развернуть
  • Просмотреть 2 выдержки, справочную информацию и результаты

Руководство по пониманию гендерной идентичности и местоимений: NPR

«Местоимения — это в основном то, как мы идентифицируем себя помимо своего имени.Это то, как кто-то обращается к вам в разговоре, — говорит Мэри Эмили О’Хара, сотрудник по связям с общественностью GLAAD. — И когда вы разговариваете с людьми, это действительно простой способ подтвердить их личность ». Kaz Fantone для NPR скрыть подпись

переключить подпись Kaz Fantone для NPR

«Местоимения — это в основном то, как мы идентифицируем себя помимо нашего имени.Это то, как кто-то обращается к вам в разговоре, — говорит Мэри Эмили О’Хара, сотрудник по связям с общественностью GLAAD. — И когда вы разговариваете с людьми, это действительно простой способ подтвердить их личность ».

Kaz Fantone для NPR

Вопросы равенства и принятия трансгендеров и небинарных людей — наряду с вызовами их правам стали главной темой заголовков. Эти вопросы могут включать слова, идеи и идентичности, которые для некоторых являются новыми.

Вот почему мы составили глоссарий терминов, относящихся к гендерной идентичности. Наша цель — помочь людям правильно и уважительно общаться друг с другом.

Правильное использование терминов гендерной идентичности, включая местоимения, является важным способом показать вежливость и принятие. Алекс Шмидер, заместитель директора по представительству трансгендеров в GLAAD, сравнивает использование чьих-либо правильных местоимений с правильным произнесением их имени — «способом уважать их и относиться к ним так, чтобы они соответствовали и соответствовали тому, кто они есть».»

Глоссарий терминов гендерной идентичности

Это руководство было создано с помощью GLAAD. Мы также ссылались на ресурсы Национального центра трансгендерного равенства, Ассоциации трансжурналистов, NLGJA: Ассоциации ЛГБТК-журналистов, Кампании за права человека, InterAct и Американская психологическая ассоциация Это руководство не является исчерпывающим и ориентировано на Запад и США.Другие культуры могут использовать другие ярлыки и иметь другие представления о гендере.

Одно замечание: меняется язык. Некоторые из терминов, используемых в настоящее время, отличаются от терминов, которые использовались в прошлом для описания схожих идей, идентичностей и опыта. Некоторые люди могут продолжать использовать термины, которые сейчас реже используются для описания самих себя, а некоторые люди могут использовать совершенно другие термины. Что важно, так это узнавать и уважать людей как личностей.

Перейти к термину: Пол, гендерная идентичность , гендерная идентичность , гендерное выражение , цисгендер , трансгендер , agender , гендерно-экспансивный , гендерный переход , гендерная дисфория , сексуальная ориентация , интерсекс Местоимения : вопросы и ответы

Пол относится к биологическому статусу человека и обычно присваивается при рождении, обычно на основе внешней анатомии.Пол обычно делится на мужской, женский или интерсекс.

Пол часто определяют как социальную конструкцию норм, поведения и ролей, которые меняются в разных обществах и с течением времени. Пол часто разделяют на мужской, женский или небинарный.

Гендерная идентичность — это собственное внутреннее ощущение себя и своего пола, будь то мужчина, женщина, ни то, ни другое или оба вместе. В отличие от гендерного выражения, гендерная идентичность внешне не видна другим.

Для большинства людей гендерная идентичность совпадает с полом, назначенным при рождении, отмечает Американская психологическая ассоциация.У трансгендеров гендерная идентичность в разной степени отличается от пола, назначенного при рождении.

Гендерное выражение — это то, как человек представляет гендер внешне, через поведение, одежду, голос или другие воспринимаемые характеристики. Общество определяет эти сигналы как мужские или женские, хотя то, что считается мужским или женским, со временем меняется и зависит от культуры.

Цисгендер, или просто цис — это прилагательное, описывающее человека, гендерная идентичность которого совпадает с полом, присвоенным им при рождении.

Трансгендер, или просто транс, — прилагательное, используемое для описания человека, чья гендерная идентичность отличается от пола, назначенного при рождении. Например, трансгендерный мужчина — это тот, кто был указан как женщина при рождении, но чья гендерная идентичность — мужская.

Цисгендеры и трансгендеры происходят от латинских префиксов «цис» и «транс» — цис, что означает «на этой стороне» и транс, что означает «напротив» или «на другой стороне». Оба прилагательных используются для описания чьей-либо гендерной идентичности.

Недвоичный — это термин, который может использоваться людьми, которые не описывают себя или свой пол как принадлежащие к категории мужчин или женщин. Для обозначения этого опыта используется ряд терминов; небинарный и гендерный — среди терминов, которые иногда используются.

Агендер — прилагательное, которое может описывать человека, который не идентифицирует свой пол.

Gender-expansive — это прилагательное, которое может описывать кого-то с более гибкой гендерной идентичностью, чем это могло бы быть связано с типичной гендерной бинарностью.

Гендерный переход — это процесс, который может предпринять человек, чтобы привести себя и / или свое тело в соответствие со своей гендерной идентичностью. Это не просто один шаг. Переход может включать в себя любое из перечисленных ниже действий, их отсутствие или все: рассказывать друзьям, семье и коллегам; изменение имени и местоимений; обновление юридических документов; медицинские вмешательства, такие как гормональная терапия; или хирургическое вмешательство, часто называемое хирургией по подтверждению пола.

Гендерная дисфория относится к психологическому расстройству, которое возникает в результате несоответствия между полом, определенным при рождении, и гендерной идентичностью.Не все трансгендерные люди испытывают дисфорию, и те, кто ее испытывают, могут испытывать ее с разной степенью интенсивности.

Гендерная дисфория — это диагноз, включенный в Диагностическое и статистическое руководство по психическим расстройствам. Некоторые утверждают, что такой диагноз неуместно патологизирует гендерное несоответствие, в то время как другие утверждают, что диагноз облегчает трансгендерам доступ к необходимому медицинскому лечению.

Сексуальная ориентация означает стойкое физическое, романтическое и / или эмоциональное влечение к представителям того же и / или другого пола, включая лесбиянок, геев, бисексуалов и гетеросексуалов.

Людям не обязательно иметь определенный сексуальный опыт, чтобы знать свою сексуальную ориентацию. У них вообще не должно быть сексуального опыта. Им не обязательно иметь отношения, встречаться или иметь партнерские отношения с кем-либо, чтобы их сексуальная ориентация была подтверждена. Например, если бисексуальная женщина является партнером мужчины, это не означает, что она все еще бисексуальна.

Сексуальная ориентация отличается от гендерной идентичности. Как отмечает GLAAD, «трансгендеры могут быть натуралами, лесбиянками, геями, бисексуалами или гомосексуалистами.Например, человек, который переходит от мужчины к женщине и которого привлекают исключительно мужчины, обычно идентифицирует себя как гетеросексуальную женщину. Человек, который переходит от женщины к мужчине и которого привлекают только мужчины, обычно идентифицирует себя как гомосексуалист ».

Интерсекс — это общий термин, используемый для описания людей с различиями в репродуктивной анатомии, хромосомах или гормонах , которые не подходят для типичных определений мужчин и женщин.

Интерсекс может относиться к ряду естественных вариаций, некоторые из которых представлены InterAct. Быть интерсексом — это не то же самое, что быть небинарным или трансгендерным, что обычно связано с гендерной идентичностью.

Местоимения: вопросы и ответы

Какова роль местоимений в признании чьей-либо гендерной идентичности?

У всех есть местоимения, которые используются при обращении к ним, и правильное определение этих местоимений не является исключительно проблемой трансгендеров.

«Местоимения — это в основном то, как мы идентифицируем себя, помимо нашего имени. Это то, как кто-то обращается к вам в разговоре», — говорит Мэри Эмили О’Хара, специалист по связям с общественностью GLAAD. «И когда вы разговариваете с людьми, это действительно простой способ подтвердить их личность».

«Так, например, использование правильных местоимений для транс- и небинарной молодежи — это способ дать им понять, что вы их видите, вы подтверждаете их, принимаете их и позволяете им знать, что их любят в то время, когда они действительно становятся мишенью стольких дискриминационных законов и политик штатов, направленных против трансгендеров », — говорит О’Хара.

«На самом деле нужно просто дать кому-то понять, что вы принимаете его личность. И это так просто».

Правильные слова — это уважение и точность, — говорит Родриго Хенг-Лехтинен, заместитель исполнительного директора Национального центра трансгендерного равенства. Kaz Fantone для NPR скрыть подпись

переключить подпись Kaz Fantone для NPR

Правильные слова — это уважение и точность, — говорит Родриго Хенг-Лехтинен, заместитель исполнительного директора Национального центра трансгендерного равенства.

Kaz Fantone для NPR

Как правильно узнать местоимения человека?

Начните с вашего собственного — например, «Мои местоимения — она ​​/ она».

«Если бы я представился кому-то, я бы сказал:« Я Родриго. Я использую его местоимения. А ты? » — говорит Родриго Хенг-Лехтинен, заместитель исполнительного директора Национального центра трансгендерного равенства.

О’Хара говорит: «Поначалу это может показаться неловким, но в конце концов это просто становится еще одним из тех вопросов для ознакомления.»

Должны ли люди спрашивать у всех их местоимения? Или это зависит от настройки?

Знание местоимений друг друга помогает быть уверенным, что у вас есть точная информация о другом человеке.

Как человек выглядит с точки зрения гендерного выражения «ничего не говорит об их гендерной идентичности», — говорит Шмидер из GLAAD. Делясь местоимениями, «вы узнаете кого-то немного лучше».

И хотя поначалу это может быть неудобно, это может быстро стать рутиной.

Хенг-Лехтинен отмечает, что практика указания местоимений в конце электронного письма или во время представления на встрече также может облегчить некоторые головные боли для людей, чьи имена менее распространены или пол неоднозначен.

«Иногда американцы смотрят на имя и думают:« Я понятия не имею, должен ли я произносить его или ее вместо этого имени »- не потому, что этот человек трансгендер, а просто потому, что это имя принадлежит культуре, которую вы не узнаете, и вы искренне не знаете.Поэтому наличие перечисленных местоимений избавляет всех от головной боли, — говорит Хенг-Лехтинен. — Это может быть очень, очень быстро, если вы сделаете это привычкой. И я думаю, что это избавит всех от стыда ».

Может быть, некоторым людям будет неудобно делиться своими местоимениями в общественных местах? признать, что у них есть местоимения, и они знают, что они собой представляют. Другим может быть труднее использовать свои местоимения в местах, где они не знают людей.

Но, по его словам, в обмене местоимениями есть свои преимущества. «Это показатель того, что они понимают, что гендерное самовыражение не равно гендерной идентичности, что вы не судите людей только по тому, как они выглядят, и делаете предположения об их гендере помимо того, что вы на самом деле знаете о них».

Как «они» употребляются в качестве местоимения единственного числа?

«Они» уже обычно используется как местоимение единственного числа, когда мы говорим о ком-то, и мы не знаем, кто они, отмечает О’Хара.Использование местоимений они / их для кого-то, кого вы знаете, просто означает «небольшую перемену».

«Вы просто просите кого-то не вести себя так, как будто он вас не знает, а убрать гендерный язык из своего словаря, когда он говорит о вас», — говорит О’Хара.

«Я сам себя идентифицирую как небинарный, и я выгляжу женским. Люди часто предполагают, что мои местоимения — это она / она. Поэтому они будут использовать их. Я просто осторожно исправлю их и скажу: эй, знаешь что, мои местоимения они / они просто FYI, для справки в будущем или что-то в этом роде », — говорят они.

О’Хара говорит, что их семья и друзья все еще не могут правильно использовать местоимения — и иногда О’Хара изо всех сил пытается вспомнить местоимения других.

«В моем сообществе, в квир-сообществе, где много транс- и небинарных людей, мы все часто напоминаем друг другу или напоминаем себе. Это своего рода постоянная внимательность, когда вы всегда немного догоняете», — говорят они. .

«Вы можете знать кого-то 10 лет, а потом они сообщат вам, что их местоимения изменились.Вам понадобится немного времени, чтобы приспособиться, и это нормально. Это нормально — делать эти ошибки и исправлять себя, и нормально — мягко исправлять кого-то другого ».

Что делать, если я совершу ошибку и неверно введу кого-то или использую неправильные слова?

Просто извинитесь и двигайтесь дальше.

«Я считаю совершенно естественным сначала не знать правильных слов. Мы всего лишь люди. Каждому из нас требуется время, чтобы познакомиться с новой концепцией, — говорит Хенг-Лехтинен.«Важно просто быть заинтересованным в продолжении обучения. Поэтому, если вы испортили какой-то язык, вы просто скажете:« О, мне очень жаль », исправьте себя и двигайтесь вперед. Не нужно усложнять задачу. чем это. Выполнение этого действительно простого жеста быстрого извинения и движения вперед показывает другому человеку, что вы заботитесь. И это действительно имеет большое значение «.

Почему местоимения обычно даются в формате «она / она» или «они / они», а не просто «она» или «они»?

Различные итерации отражают изменение местоимений в зависимости от того, как они используются в предложении.И формат «он / он» на самом деле короче, чем ранее распространенный формат «он / он / его».

«Раньше люди говорили все три, а потом осталось два», — смеется Хенг-Лехтинен. Он говорит, что сотрудники его организации недавно задавались вопросом, сократится ли обычай до одного местоимения. «В этом нет никаких правил. Это просто привычка», — говорит он.

Но он отмечает преимущество использования он / он и она / она: он и она рифмуются.«Если кто-то просто говорит, что он или она, я могу очень легко не расслышать это, а потом все равно ошибиться».

Что означает употребление человеком местоимений «он / они» или «она / они»?

«Это означает, что человек использует оба местоимения, и вы можете чередовать их, обращаясь к ним. Таким образом, любое местоимение подойдет — и в идеале смешайте его, используйте оба. Это просто означает, что они используют оба местоимения, которые они внесены в листинг «, — говорит Хенг-Лехтинен.

Шмидер говорит, что это зависит от человека: «Некоторые люди не возражают, чтобы эти местоимения меняли местами.А некоторые люди используют одно конкретное местоимение в одном контексте и другой набор местоимений в другом, в зависимости, возможно, от безопасности или удобства ».

По словам Шмидера, лучший подход — это прислушиваться к тому, как люди относятся к себе.

Почему чье-то имя может отличаться от того, что указано в его удостоверении личности?

Хенг-Лехтинен отмечает, что есть ощущение, что когда человек выступает как трансгендер, он меняет свое имя и все. Но в реальности все намного сложнее и дорого, когда дело доходит до обновления вашего имени в правительственных документах.

«Это не тот же процесс, что и изменение фамилии при вступлении в брак. Существует странный набор правил, когда вы меняете свою фамилию в браке по сравнению с изменением имени по любой другой причине. последнее «, — говорит он.

«Если вы трансгендер, вы не сможете обновить все свои государственные удостоверения личности, даже если захотите», — говорит он. «Я отсутствовал более десяти лет. Я до сих пор не могу обновить все свои документы, потому что правила очень обременительны.Мне удалось обновить свои водительские права, карту социального страхования и паспорт, но я не могу обновить свое свидетельство о рождении. «

» Тот факт, что трансгендер не указал свое настоящее имя в удостоверении личности, не означает, что это не так. имя, которое они действительно используют каждый день, — советует он.

Многоязычный поиск с использованием идентификации языка в Elasticsearchf

Мы рады сообщить, что вместе с выпуском обработчика логических выводов машинного обучения мы выпускаем идентификацию языка в Elasticsearch 7.6. В этом выпуске мы хотели воспользоваться возможностью, чтобы описать некоторые варианты использования и стратегии поиска в многоязычных корпусах, а также то, какую роль играет идентификация языка. Мы уже обсуждали некоторые из этих тем в прошлом, и мы будем использовать их в некоторых из следующих ниже примеров.

Мотивация

В сегодняшнем сильно взаимосвязанном мире мы обнаруживаем, что документы и другие источники информации доступны на разных языках. Это создает проблему для многих поисковых приложений.Нам необходимо понимать язык этих документов как можно лучше, чтобы правильно их проанализировать и обеспечить наилучший возможный поиск. Введите идентификацию языка.

Идентификация языка используется для повышения общей релевантности поиска для этих многоязычных корпусов. Учитывая набор документов, на которых мы еще не знаем, на каком языке (ах) они содержатся, мы хотим эффективно выполнять поиск по ним. Документы могут быть написаны на одном или нескольких языках. Первый распространен в таких областях, как информатика, где английский является преобладающим языком общения, в то время как последний обычно встречается в биологических и медицинских текстах, где латинская терминология часто перемежается с английской.

Применяя специфичный для языка анализ, мы можем улучшить релевантность (как точность, так и отзывчивость), гарантируя, что термины документа понятны, проиндексированы и найдены соответствующим образом. Используя набор языковых анализаторов в Elasticsearch (как встроенных, так и с помощью дополнительных плагинов), мы можем улучшить токенизацию, фильтрацию токенов и фильтрацию терминов:

По схожим причинам мы находим идентификацию языка в конвейерах более общей обработки естественного языка (NLP) как один из первых шагов обработки, использующих высокоточные алгоритмы и модели, специфичные для языка.Например, предварительно обученные модели НЛП, такие как Google BERT и ALBERT или OpenAI GPT-2, обычно обучаются на языковых корпусах или корпусах с преобладающим языком и точно настраиваются для таких задач, как классификация документов, анализ настроений, распознавание именованных сущностей. (NER) и т. Д.

Для следующих примеров и стратегий, если не указано иное, мы будем предполагать, что документы содержат либо единственный, либо преобладающий язык.

Преимущества языкового анализа

Чтобы еще больше мотивировать это, давайте кратко рассмотрим несколько преимуществ языковых анализаторов.

Decompounding: В немецком языке существительные часто образуются путем соединения других существительных вместе, чтобы создать красивые длинные и трудные для чтения составные слова. Простым примером является объединение «Яр» («год») с другими словами, такими как «Jahrhunderts» («век»), «Jahreskalender» («годовой календарь») или «Schuljahr» («учебный год»). Без специального анализатора, который может разложить эти слова, мы не смогли бы найти «jahr» и получить обратно документы о школьных годах, «Schuljahr».Кроме того, в немецком языке существуют другие правила, чем в других латинских языках для форм множественного и дательного падежа, а это означает, что поиск «jahr» также должен соответствовать «Jahre» (множественное число) и «Jahren» (множественное число дательного падежа).

Общий термин: В некоторых языках также используется общая или предметно-ориентированная терминология. Например, «компьютер» — это слово, которое часто используется в других языках как есть. Если мы хотим выполнить поиск по слову «компьютер», нас могут также заинтересовать неанглоязычные документы. Возможность выполнять поиск по известному набору языков и при этом находить общие термины может быть интересным вариантом использования.Снова используя немецкий в качестве примера, у нас могут быть документы о компьютерной безопасности на нескольких языках. На немецком языке это «Computersicherheit» («sicherheit», что означает «безопасность» или «безопасность»), и только с помощью немецкого анализатора поиск совпадения «компьютер» выполняется на английском и немецком языках.

Нелатинские шрифты: Стандартный анализатор неплохо работает с большинством языков с латинским алфавитом (западноевропейские языки). Однако он начинает быстро разрушаться с нелатинскими шрифтами, такими как кириллица или CJK (китайский / японский / корейский).В предыдущей серии блогов мы увидели, как формируются языки CJK, и узнали о необходимости иметь анализаторы, специфичные для языка. Например, в корейском языке есть послелоги — суффиксы, добавляемые к существительным и местоимениям, которые изменяют их значение. Иногда при использовании стандартного анализатора анализатор соответствует поисковым запросам, но не дает точных результатов. Это означает, что вы можете хорошо запомнить документы, но страдает ваша точность. В других случаях стандартный анализатор не соответствует ни одному термину, и страдают как точность, так и отзывчивость.

Давайте посмотрим на рабочий пример для «Зимних Олимпийских игр». По-корейски это «동계 올림픽 대회 는», которое состоит из «동계», означающего «зимний сезон», «올림픽 대회», означающего «Олимпийские игры» или «Олимпийские соревнования», и, наконец, «는», которое является послелогом темы с добавленным суффиксом. к слову, обозначающему тему. Поиск этой точной строки с помощью стандартного анализатора дает идеальное совпадение, но поиск «올림픽 대회», означающего просто «Олимпийские игры», не дает результатов. Однако при использовании корейского анализатора nori мы получаем совпадение, потому что «동계 올림픽 대회 는» / «Зимние Олимпийские игры» были правильно токенизированы во время индексирования.

Начало работы с идентификацией языка

Демо-проект

Чтобы помочь проиллюстрировать варианты использования и стратегии идентификации языка в поиске, мы создали небольшой демонстрационный проект. Он содержит все примеры из этого сообщения в блоге, а также некоторые инструменты для индексации и поиска по многоязычному корпусу WiLI-2018, который вы можете использовать в качестве справочного и рабочего примера для экспериментов с многоязычным поиском. Чтобы следовать примерам, полезно (но не обязательно) запустить и запустить демонстрационный проект с проиндексированными документами на случай, если вы захотите продолжить.

Для этих экспериментов вы можете установить Elasticsearch 7.6 локально или запустить бесплатную пробную версию Elasticsearch Service.

Первые эксперименты

Идентификация языка — это предварительно обученная модель, которая поставляется в дистрибутиве Elasticsearch по умолчанию. Он используется вместе с процессором ввода логического вывода путем указания lang_ident_model_1 как model_id при настройке процессора вывода в конвейере приема.

 {
  "вывод": {
    "model_id": "lang_ident_model_1",
    "inference_config": {},
    "field_mappings": {}
  }
}
 

Остальная часть конфигурации такая же, как и в других моделях, что позволяет вам указать такие параметры, как количество высших классов для вывода, поле вывода, которое будет содержать прогноз, и, что наиболее важно для наших случаев использования, поле ввода использовать.По умолчанию модель ожидает, что поле с именем текст будет содержать ввод. В следующем примере мы используем API конвейера _simulate с некоторыми документами с одним полем. Он сопоставляет поле входного содержимого с текстовым полем для вывода — это сопоставление не влияет на другие процессоры в конвейере. Затем он выводит для проверки три верхних класса.

 # имитировать базовую настройку вывода
POST _ingest / pipeline / _simulate
{
  "трубопровод": {
    "процессоры": [
      {
        "вывод": {
          "model_id": "lang_ident_model_1",
          "inference_config": {
            "классификация": {
              «num_top_classes»: 3
            }
          },
          "field_mappings": {
            "содержимое": "текст"
          },
          "target_field": "_ml.lang_ident "
        }
      }
    ]
  },
  "документы": [
    {
      "_источник": {
        "contents": "Das Leben ist kein Ponyhof"
      }
    },
    {
      "_источник": {
        "contents": "Дождь в Испании идет в основном на равнинах"
      }
    },
    {
      "_источник": {
        "contents": "Это в основном английский, но с легким оттенком латыни, поскольку мы часто говорим просто Carpe diem"
      }
    }
  ]
}
 

Вывод показывает нам каждый документ, а также некоторую дополнительную информацию в поле _ml.lang_ident .Это включает вероятность каждого из трех основных языков и основного языка, который хранится в _ml.lang_ident.predicted_value .

 {
  "документы": [
    {
      "doc": {
        "_index": "_index",
        "_type": "_doc",
        "_я сделал",
        "_источник" : {
          "contents": "Das leben ist kein Ponyhof",
          "_ml": {
            "lang_ident": {
              "top_classes": [
                {
                  "имя_класса": "де",
                  "class_probability": 0.9996006023972855
                },
                {
                  "имя_класса": "эль-Латн",
                  "class_probability": 2.625873919853074E-4
                },
                {
                  "class_name": "ru-Latn",
                  "class_probability": 1.130237050226503E-4
                }
              ],
              "predicted_value": "de",
              "model_id": "lang_ident_model_1"
            }
          }
        },
        "_ingest": {
          "timestamp": "2020-01-21T14: 38: 13.810179Z "
        }
      }
    },
    {
      "doc": {
        "_index": "_index",
        "_type": "_doc",
        "_я сделал",
        "_источник" : {
          "contents": "Дождь в Испании идет преимущественно на равнинах",
          "_ml": {
            "lang_ident": {
              "top_classes": [
                {
                  "имя_класса": "ru",
                  "class_probability": 0.9988809847231199
                },
                {
                  "имя_класса": "га",
                  "class_probability": 7.764148026288316E-4
                },
                {
                  "имя_класса": "gd",
                  "class_probability": 7.968926766495827E-5
                }
              ],
              "predicted_value": "ru",
              "model_id": "lang_ident_model_1"
            }
          }
        },
        "_ingest": {
          "отметка времени": "2020-01-21T14: 38: 13.810185Z"
        }
      }
    },
    {
      "doc": {
        "_index": "_index",
        "_type": "_doc",
        "_я сделал",
        "_источник" : {
          "contents": "Это в основном английский, но с легким оттенком латыни, поскольку мы часто говорим просто Carpe diem",
          "_ml": {
            "lang_ident": {
              "top_classes": [
                {
                  "имя_класса": "ru",
                  "class_probability": 0.99978317939
                },
                {
                  "имя_класса": "я",
                  "class_probability": 8.756250766054857E-5
                },
                {
                  "имя_класса": "фил",
                  "class_probability": 1.6980752372837307E-5
                }
              ],
              "predicted_value": "ru",
              "model_id": "lang_ident_model_1"
            }
          }
        },
        "_ingest": {
          "timestamp": "2020-01-21T14: 38: 13.810189Z "
        }
      }
    }
  ]
}
 

Выглядит хорошо! Мы определили немецкий язык для первого документа и английский для второго и третьего документов, даже с легким оттенком латыни в третьем документе.

Стратегии определения языка в поиске

Теперь, когда мы рассмотрели базовый пример языковой идентификации, пора начать использовать его в стратегии индексации и поиска.

Мы будем использовать две основные стратегии индексирования: язык по полю и язык по индексу.В стратегии для каждого поля языка мы создадим единый индекс с набором специфичных для языка полей и будем использовать анализатор, адаптированный для каждого языка. Во время поиска мы можем выбрать либо поиск по полю известного языка, либо поиск по всем языковым полям и выбор наиболее подходящего поля. В стратегии для каждого индекса мы создадим набор индексов для конкретного языка с различными сопоставлениями, где в индексируемом поле есть анализатор для этого языка. Во время поиска мы можем применить аналогичный подход к языку для каждого поля и выбрать поиск по одному языковому индексу или по нескольким индексам с шаблоном индекса в поисковом запросе.

Сравните эти две стратегии с тем, что вам нужно было бы сделать сегодня — проиндексировать одну и ту же строку несколько раз, каждую по полю или по индексу с помощью анализатора для конкретного языка. Хотя этот подход может работать, он вызывает очень много дублирования, вызывая более медленные запросы и используя значительно больше места для хранения, чем необходимо.

Индексирование

Давайте разберемся с этим и рассмотрим каждую из двух стратегий индексирования, поскольку они определяют стратегии поиска, которые мы можем использовать.

По полю

В стратегии «язык по полю» мы будем использовать вывод идентификации языка и ряд процессоров в конвейере приема для сохранения поля ввода в поле, зависящем от языка. Мы будем поддерживать только ограниченный набор языков (немецкий, английский, корейский, японский и китайский), так как нам нужно настроить отдельный анализатор для каждого языка. Любые документы, написанные не на одном из поддерживаемых нами языков, будут проиндексированы в поле по умолчанию стандартным анализатором.

Полное определение конвейера можно найти в демонстрационном проекте: config / pipelines / lang-per-field.json

Сопоставление для поддержки этой стратегии индексирования будет выглядеть так:

 {
  "настройки": {
    "показатель": {
      "number_of_shards": 1,
      "number_of_replicas": 0
    }
  },
  "mappings": {
    "динамический": "строгий",
    "характеристики": {
      "contents": {
        "характеристики": {
          "язык": {
            "тип": "ключевое слово"
          },
          "поддерживается": {
            "тип": "логическое"
          },
          "дефолт": {
            "тип": "текст",
            "анализатор": "по умолчанию",
            "fields": {
              "icu": {
                "тип": "текст",
                "анализатор": "icu_analyzer"
              }
            }
          },
          "en": {
            "тип": "текст",
            "анализатор": "английский"
          },
          "de": {
            "тип": "текст",
            "analyzer": "german_custom"
          },
          "ja": {
            "тип": "текст",
            "анализатор": "куромодзи"
          },
          "ko": {
            "тип": "текст",
            "анализатор": "нори"
          },
          "zh": {
            "тип": "текст",
            "анализатор": "smartcn"
          }
        }
      }
    }
  }
}
 

(Обратите внимание, что конфигурация анализатора для Германии была исключена из приведенного выше примера для краткости и может быть найдена в: config / mappings / de_analyzer.json)

Как и в предыдущем примере, мы будем использовать API конвейера _simulate , чтобы исследовать:

 # смоделировать язык для каждого поля и вывести 3 лучших языковых класса для проверки
POST _ingest / pipeline / _simulate
{
  "трубопровод": {
    "процессоры": [
      {
        "вывод": {
          "model_id": "lang_ident_model_1",
          "inference_config": {
            "классификация": {
              «num_top_classes»: 3
            }
          },
          "field_mappings": {
            "содержимое": "текст"
          },
          "target_field": "_ml.lang_ident "
        }
      },
      {
        "переименовать": {
          "поле": "содержимое",
          "target_field": "contents.default"
        }
      },
      {
        "переименовать": {
          "field": "_ml.lang_ident.predicted_value",
          "target_field": "contents.language"
        }
      },
      {
        "script": {
          "lang": "безболезненно",
          "источник": "ctx.contents.supported = (['de', 'en', 'ja', 'ko', 'zh']. contains (ctx.contents.language))»
        }
      },
      {
        "установленный": {
          «если»: «ctx.content.supported ",
          "поле": "содержимое. {{contents.language}}",
          "значение": "{{contents.default}}",
          "переопределить": ложь
        }
      }
    ]
  },
  "документы": [
    {
      "_источник": {
        "contents": "Das leben ist kein Ponyhof"
      }
    },
    {
      "_источник": {
        "contents": "Дождь в Испании идет в основном на равнинах"
      }
    },
    {
      "_источник": {
        "contents": "オ リ ン ピ ッ ク 大会"
      }
    },
    {
      "_источник": {
        "contents": "로마 는 하루 아침 에 이루어진 것이 아니다"
      }
    },
    {
      "_источник": {
        "contents": "授 人 以 鱼 不如 授 人 以 渔"
      }
    },
    {
      "_источник": {
        "contents": "Qui court deux lievres a la fois, n’en prend aucun"
      }
    },
    {
      "_источник": {
        "contents": "Lupus non timet canem latrantem"
      }
    },
    {
      "_источник": {
        "contents": "Это в основном английский, но с легким оттенком латыни, поскольку мы часто говорим просто Carpe diem"
      }
    }
  ]
}
 

А вот результат с языком для каждого поля:

 {
  "документы": [
    {
      "doc": {
        "_index": "_index",
        "_type": "_doc",
        "_я сделал",
        "_источник" : {
          "contents": {
            "de": "Das leben ist kein Ponyhof",
            "default": "Das leben ist kein Ponyhof",
            "язык": "де",
            "поддерживается": правда
          },
          "_ml": {
            "lang_ident": {
              "top_classes": [
                {
                  "имя_класса": "де",
                  "class_probability": 0.9996006023972855
                },
                {
                  "имя_класса": "эль-Латн",
                  "class_probability": 2.625873919853074E-4
                },
                {
                  "class_name": "ru-Latn",
                  "class_probability": 1.130237050226503E-4
                }
              ],
              "model_id": "lang_ident_model_1"
            }
          }
        },
        "_ingest": {
          "отметка времени": "2020-01-22T12: 40: 03.218641Z"
        }
      }
    },
    {
      "doc": {
        "_index": "_index",
        "_type": "_doc",
        "_я сделал",
        "_источник" : {
          "contents": {
            "ru": "Дождь в Испании идет в основном на равнинах",
            "default": "Дождь в Испании идет преимущественно на равнинах",
            "language": "en",
            "поддерживается": правда
          },
          "_ml": {
            "lang_ident": {
              "top_classes": [
                {
                  "имя_класса": "ru",
                  "class_probability": 0.9988809847231199
                },
                {
                  "имя_класса": "га",
                  "class_probability": 7.764148026288316E-4
                },
                {
                  "имя_класса": "gd",
                  "class_probability": 7.968926766495827E-5
                }
              ],
              "model_id": "lang_ident_model_1"
            }
          }
        },
        "_ingest": {
          "отметка времени": "2020-01-22T12: 40: 03.218646Z"
        }
      }
    },
    {
      "doc": {
        "_index": "_index",
        "_type": "_doc",
        "_я сделал",
        "_источник" : {
          "contents": {
            "default": "オ リ ン ピ ッ ク 大会",
            "язык": "я",
            "ja": "オ リ ン ピ ッ ク 大会",
            "поддерживается": правда
          },
          "_ml": {
            "lang_ident": {
              "top_classes": [
                {
                  "имя_класса": "я",
                  "class_probability": 0.9993823252841599
                },
                {
                  "имя_класса": "эль",
                  "class_probability": 2.6448654791599055E-4
                },
                {
                  "имя_класса": "SD",
                  "class_probability": 1.4846805271384584E-4
                }
              ],
              "model_id": "lang_ident_model_1"
            }
          }
        },
        "_ingest": {
          "отметка времени": "2020-01-22T12: 40: 03.218648Z"
        }
      }
    },
    {
      "doc": {
        "_index": "_index",
        "_type": "_doc",
        "_я сделал",
        "_источник" : {
          "contents": {
            "default": "로마 는 하루 아침 에 이루어진 것이 아니다",
            "язык": "ко",
            «ко»: «로마 는 하루 아침 에 이루어진 것이 아니다»,
            "поддерживается": правда
          },
          "_ml": {
            "lang_ident": {
              "top_classes": [
                {
                  "имя_класса": "ко",
                  "class_probability": 0.9999939196272863
                },
                {
                  "имя_класса": "ка",
                  "class_probability": 3.0431805047662344E-6
                },
                {
                  "имя_класса": "я",
                  "class_probability": 1.710514725818281E-6
                }
              ],
              "model_id": "lang_ident_model_1"
            }
          }
        },
        "_ingest": {
          "отметка времени": "2020-01-22T12: 40: 03.218649Z"
        }
      }
    },
    {
      "doc": {
        "_index": "_index",
        "_type": "_doc",
        "_я сделал",
        "_источник" : {
          "contents": {
            "default": "授 人 以 鱼 不如 授 人 以 渔",
            "язык": "ж",
            «ж»: «授 人 以 鱼 不如 授 人 以 渔»,
            "поддерживается": правда
          },
          "_ml": {
            "lang_ident": {
              "top_classes": [
                {
                  "имя_класса": "ж",
                  "class_probability": 0.9999810103320087
                },
                {
                  "имя_класса": "я",
                  "class_probability": 1.03

083183788E-5 }, { "имя_класса": "ка", "class_probability": 2.6302271562335787E-6 } ], "model_id": "lang_ident_model_1" } } }, "_ingest": { "отметка времени": "2020-01-22T12: 40: 03.21865Z" } } }, { "doc": { "_index": "_index", "_type": "_doc", "_я сделал", "_источник" : { "contents": { "default": "Qui court deux lievres a la fois, n’en prend aucun", "язык": "фр", "поддерживается": ложь }, "_ml": { "lang_ident": { "top_classes": [ { "имя_класса": "фр", "class_probability": 0.9999669852240882 }, { "имя_класса": "gd", "class_probability": 2.3485226102079597E-5 }, { "имя_класса": "ht", "class_probability": 3.536708810360631E-6 } ], "model_id": "lang_ident_model_1" } } }, "_ingest": { "отметка времени": "2020-01-22T12: 40: 03.218652Z" } } }, { "doc": { "_index": "_index", "_type": "_doc", "_я сделал", "_источник" : { "contents": { "default": "Lupus non timet canem latrantem", "язык": "ля", "поддерживается": ложь }, "_ml": { "lang_ident": { "top_classes": [ { "имя_класса": "ля", "class_probability": 0.614050940088811 }, { "имя_класса": "фр", "class_probability": 0.32530021315840363 }, { "имя_класса": "sq", "class_probability": 0,03353817054854559 } ], "model_id": "lang_ident_model_1" } } }, "_ingest": { "отметка времени": "2020-01-22T12: 40: 03.218653Z" } } }, { "doc": { "_index": "_index", "_type": "_doc", "_я сделал", "_источник" : { "contents": { "en": "Это в основном английский, но с латынью, потому что мы часто говорим просто Carpe diem", "default": "Это в основном английский, но с легким оттенком латыни, поскольку мы часто говорим просто Carpe diem", "language": "en", "поддерживается": правда }, "_ml": { "lang_ident": { "top_classes": [ { "имя_класса": "ru", "class_probability": 0.99978317939 }, { "имя_класса": "я", "class_probability": 8.756250766054857E-5 }, { "имя_класса": "фил", "class_probability": 1.6980752372837307E-5 } ], "model_id": "lang_ident_model_1" } } }, "_ingest": { "отметка времени": "2020-01-22T12: 40: 03.218654Z" } } } ] }

Как и ожидалось, мы получаем немецкие поля, хранящиеся в содержимом .de , английский — contents.en , корейский — contents.ko и т. д. Обратите внимание, что мы также смешали несколько примеров неподдерживаемых языков — французский и латынь. Мы видим, что у них нет флага поддержки, и они доступны для поиска только в поле по умолчанию. Посмотрите также на лучшие предсказуемые классы на примере латинского языка. Похоже, модель считает, что это латынь, и это правильно, но модель сомнительна и предсказывает сильное второе место французскому языку.

Это всего лишь базовый пример конвейера загрузки с идентификацией языка, но, надеюсь, он дает вам представление о том, что возможно.Благодаря гибкости конвейеров приема мы можем реализовать множество различных сценариев. В конце поста мы рассмотрим несколько альтернатив. Некоторые из шагов в этом примере могут быть объединены или опущены в производственном конвейере, но помните, что хороший конвейер обработки данных — это тот, который можно легко прочитать и понять, а не тот, который имеет наименьшее возможное количество строк.

Per-Index

Наша стратегия «язык для каждого индекса» использует те же базовые строительные блоки, что и конвейер для языка для каждого поля.Большая разница в том, что вместо сохранения в поле, зависящее от языка, мы используем другой индекс. Это возможно, потому что во время загрузки мы можем установить поле _index документа, что позволяет нам переопределить значение по умолчанию и установить для него имя индекса, зависящее от языка. Если мы не поддерживаем язык, мы пропускаем этот шаг, и документ будет проиндексирован в индексе по умолчанию. Простой!

Полное определение конвейера можно найти в демонстрационном проекте: config / pipelines / lang-per-index.json

Отображение для поддержки этой стратегии индексирования будет выглядеть следующим образом.

 {
  "настройки": {
    "показатель": {
      "number_of_shards": 1,
      "number_of_replicas": 0
    }
  },
  "mappings": {
    "динамический": "строгий",
    "характеристики": {
      "contents": {
        "характеристики": {
          "язык": {
            "тип": "ключевое слово"
          },
          "text": {
            "тип": "текст",
            "анализатор": "по умолчанию"
          }
        }
      }
    }
  }
}
 

Обратите внимание, что в этом сопоставлении мы не указали пользовательский анализатор, а вместо этого используем этот файл в качестве шаблона.Когда мы создаем каждый индекс для конкретного языка, мы устанавливаем анализатор для этого языка.

Моделирование этого трубопровода:

 # смоделировать язык по индексу и вывести 3 лучших языковых класса для проверки
POST _ingest / pipeline / _simulate
{
  "трубопровод": {
    "процессоры": [
      {
        "вывод": {
          "model_id": "lang_ident_model_1",
          "inference_config": {
            "классификация": {
              «num_top_classes»: 3
            }
          },
          "field_mappings": {
            "содержимое": "текст"
          },
          "target_field": "_ml.lang_ident "
        }
      },
      {
        "переименовать": {
          "поле": "содержимое",
          "target_field": "contents.text"
        }
      },
      {
        "переименовать": {
          "field": "_ml.lang_ident.predicted_value",
          "target_field": "contents.language"
        }
      },
      {
        "установленный": {
          "if": "['de', 'en', 'ja', 'ko', 'zh']. contains (ctx.contents.language)",
          "поле": "_index",
          "значение": "{{_index}} _ {{contents.language}}",
          "переопределить": истина
        }
      }
    ]
  },
  "документы": [
    {
      "_источник": {
        "contents": "Das leben ist kein Ponyhof"
      }
    },
    {
      "_источник": {
        "contents": "Дождь в Испании идет в основном на равнинах"
      }
    },
    {
      "_источник": {
        "contents": "オ リ ン ピ ッ ク 大会"
      }
    },
    {
      "_источник": {
        "contents": "로마 는 하루 아침 에 이루어진 것이 아니다"
      }
    },
    {
      "_источник": {
        "contents": "授 人 以 鱼 不如 授 人 以 渔"
      }
    },
    {
      "_источник": {
        "contents": "Qui court deux lievres a la fois, n’en prend aucun"
      }
    },
    {
      "_источник": {
        "contents": "Lupus non timet canem latrantem"
      }
    },
    {
      "_источник": {
        "contents": "Это в основном английский, но с легким оттенком латыни, поскольку мы часто говорим просто Carpe diem"
      }
    }
  ]
}
 

А вот результат с языковым индексом:

 {
  "документы": [
    {
      "doc": {
        "_index": "_index_de",
        "_type": "_doc",
        "_я сделал",
        "_источник" : {
          "contents": {
            "язык": "де",
            "text": "Das leben ist kein Ponyhof"
          },
          "_ml": {
            "lang_ident": {
              "top_classes": [
                {
                  "имя_класса": "де",
                  "class_probability": 0.9996006023972855
                },
                {
                  "имя_класса": "эль-Латн",
                  "class_probability": 2.625873919853074E-4
                },
                {
                  "class_name": "ru-Latn",
                  "class_probability": 1.130237050226503E-4
                }
              ],
              "model_id": "lang_ident_model_1"
            }
          }
        },
        "_ingest": {
          "отметка времени": "2020-01-21T14: 41: 48.486009Z"
        }
      }
    },
    {
      "doc": {
        "_index": "_index_en",
        "_type": "_doc",
        "_я сделал",
        "_источник" : {
          "contents": {
            "language": "en",
            "text": "Дождь в Испании идет в основном на равнинах"
          },
          "_ml": {
            "lang_ident": {
              "top_classes": [
                {
                  "имя_класса": "ru",
                  "class_probability": 0.9988809847231199
                },
                {
                  "имя_класса": "га",
                  "class_probability": 7.764148026288316E-4
                },
                {
                  "имя_класса": "gd",
                  "class_probability": 7.968926766495827E-5
                }
              ],
              "model_id": "lang_ident_model_1"
            }
          }
        },
        "_ingest": {
          "отметка времени": "2020-01-21T14: 41: 48.486037Z"
        }
      }
    },
    {
      "doc": {
        "_index": "_index_ja",
        "_type": "_doc",
        "_я сделал",
        "_источник" : {
          "contents": {
            "язык": "я",
            "текст": "オ リ ン ピ ッ ク 大会"
          },
          "_ml": {
            "lang_ident": {
              "top_classes": [
                {
                  "имя_класса": "я",
                  "class_probability": 0.9993823252841599
                },
                {
                  "имя_класса": "эль",
                  "class_probability": 2.6448654791599055E-4
                },
                {
                  "имя_класса": "SD",
                  "class_probability": 1.4846805271384584E-4
                }
              ],
              "model_id": "lang_ident_model_1"
            }
          }
        },
        "_ingest": {
          "отметка времени": "2020-01-21T14: 41: 48.486039Z"
        }
      }
    },
    {
      "doc": {
        "_index": "_index_ko",
        "_type": "_doc",
        "_я сделал",
        "_источник" : {
          "contents": {
            "язык": "ко",
            "текст": "로마 는 하루 아침 에 이루어진 것이 아니다"
          },
          "_ml": {
            "lang_ident": {
              "top_classes": [
                {
                  "имя_класса": "ко",
                  "class_probability": 0.9999939196272863
                },
                {
                  "имя_класса": "ка",
                  "class_probability": 3.0431805047662344E-6
                },
                {
                  "имя_класса": "я",
                  "class_probability": 1.710514725818281E-6
                }
              ],
              "model_id": "lang_ident_model_1"
            }
          }
        },
        "_ingest": {
          "отметка времени": "2020-01-21T14: 41: 48.486041Z"
        }
      }
    },
    {
      "doc": {
        "_index": "_index_zh",
        "_type": "_doc",
        "_я сделал",
        "_источник" : {
          "contents": {
            "язык": "ж",
            "текст": "授 人 以 鱼 不如 授 人 以 渔"
          },
          "_ml": {
            "lang_ident": {
              "top_classes": [
                {
                  "имя_класса": "ж",
                  "class_probability": 0.9999810103320087
                },
                {
                  "имя_класса": "я",
                  "class_probability": 1.03

083183788E-5 }, { "имя_класса": "ка", "class_probability": 2.6302271562335787E-6 } ], "model_id": "lang_ident_model_1" } } }, "_ingest": { "отметка времени": "2020-01-21T14: 41: 48.486043Z" } } }, { "doc": { "_index": "_index", "_type": "_doc", "_я сделал", "_источник" : { "contents": { "язык": "фр", "text": "Qui court deux lievres a la fois, n’en prend aucun" }, "_ml": { "lang_ident": { "top_classes": [ { "имя_класса": "фр", "class_probability": 0.9999669852240882 }, { "имя_класса": "gd", "class_probability": 2.3485226102079597E-5 }, { "имя_класса": "ht", "class_probability": 3.536708810360631E-6 } ], "model_id": "lang_ident_model_1" } } }, "_ingest": { "отметка времени": "2020-01-21T14: 41: 48.486044Z" } } }, { "doc": { "_index": "_index", "_type": "_doc", "_я сделал", "_источник" : { "contents": { "язык": "ля", "text": "Lupus non timet canem latrantem" }, "_ml": { "lang_ident": { "top_classes": [ { "имя_класса": "ля", "class_probability": 0.614050940088811 }, { "имя_класса": "фр", "class_probability": 0.32530021315840363 }, { "имя_класса": "sq", "class_probability": 0,03353817054854559 } ], "model_id": "lang_ident_model_1" } } }, "_ingest": { "отметка времени": "2020-01-21T14: 41: 48.486046Z" } } }, { "doc": { "_index": "_index_en", "_type": "_doc", "_я сделал", "_источник" : { "contents": { "language": "en", "text": "Это в основном английский, но с легким оттенком латыни, поскольку мы часто говорим просто Carpe diem" }, "_ml": { "lang_ident": { "top_classes": [ { "имя_класса": "ru", "class_probability": 0.99978317939 }, { "имя_класса": "я", "class_probability": 8.756250766054857E-5 }, { "имя_класса": "фил", "class_probability": 1.6980752372837307E-5 } ], "model_id": "lang_ident_model_1" } } }, "_ingest": { "отметка времени": "2020-01-21T14: 41: 48.48605Z" } } } ] }

Как и следовало ожидать, результаты идентификации языка такие же, как и в случае стратегии для отдельных полей, с той лишь разницей, что мы используем эту информацию в конвейере для направления документа по правильному индексу.

Поиск

Каков наилучший способ поиска с учетом двух стратегий индексации? Как упоминалось выше, у нас есть несколько вариантов для каждой стратегии индексации. Один из распространенных вопросов: как указать анализатор, зависящий от языка, для строки запроса, чтобы он соответствовал индексированному полю? Не волнуйтесь, вам не нужно указывать специальный анализатор во время поиска. Если вы не укажете search_analyzer в DSL запроса, строка запроса будет проанализирована тем же анализатором, что и поле, для которого выполняется сопоставление.Как и в примерах языка для каждого поля, если у вас есть поля en и de, строка запроса будет проанализирована анализатором английского языка при сопоставлении в поле en и анализатором german_custom при сопоставлении в поле de.

Язык запроса

Прежде чем мы углубимся в поисковые стратегии, важно сначала установить некоторый контекст идентификации языка в самой строке запроса пользователя. Вы можете подумать: «Хорошо, теперь, когда мы знаем (преобладающий) язык проиндексированных документов, почему бы просто не выполнить идентификацию языка в строке запроса и не выполнить обычный поиск в соответствующем поле или индексе?».К сожалению, поисковые запросы обычно короткие. Типа, очень коротко! Еще в 2001 году исследование [1] старой доброй поисковой системы Excite показало, что средний пользовательский запрос содержал только 2,4 термина! Это было некоторое время назад, и хотя многое изменилось с разговорным поиском и запросами на естественном языке (например, «как мне использовать Elasticsearch для поиска в многоязычных корпусах»), поисковые запросы, как правило, все еще слишком короткие, чтобы их можно было использовать для определения языка. Многие алгоритмы языковой идентификации лучше всего работают с более чем 50 символами [2].Чтобы усугубить эту проблему, у нас часто есть поисковые запросы, которые являются именами собственными, именами сущностей или научными названиями, такими как «Джастин Трюдо», «Foo Fighters» или «подошвенный фасциит» соответственно. Пользователь может захотеть документы на произвольном языке, но невозможно узнать это, просто проанализировав такие строки запроса.

Таким образом, мы не рекомендуем использовать идентификацию языка (любого вида) только для строк запроса. Если вы с по хотите использовать язык запросов пользователя для выбора поля поиска или индекса, лучше всего рассмотреть другие подходы, которые используют неявную или явную информацию о пользователе.Например, неявный контекст может использовать домен веб-сайта (например, .com или .de) или языковой стандарт магазина приложений, из которого было загружено ваше приложение (например, магазин в США или магазин в Германии). Однако в большинстве случаев лучше всего просто спросить своего пользователя! Многие сайты имеют возможность выбора языкового стандарта при первом посещении сайта новым пользователем. Вы также можете рассмотреть возможность использования фасетирования (с агрегированием терминов) по языкам документа, чтобы помочь пользователю направить вас к интересующим его языкам.

По полю

В стратегии по полю у нас есть подполя на нескольких языках, поэтому нам нужно искать по всем из них одновременно и выбирать поле с наивысшей оценкой.Это относительно просто, поскольку в конвейере индексации мы устанавливаем только одно языковое поле. Итак, пока мы ищем по нескольким полям, фактически заполнено только одно из них. Для этого мы будем использовать запрос multi_match с типом best_fields (по умолчанию). Эта комбинация выполняется как запрос dis_max, и мы используем эту комбинацию, поскольку нас интересуют совпадения всех терминов в одном поле, а не в нескольких полях.

 GET язык на поле / _search
{
  "запрос": {
    "multi_match": {
      "query": "jahr",
      "тип": "лучшие_поля",
      "поля": [
        "содержимое.де ",
        "contents.en",
        "contents.ja",
        "content.ko",
        "content.zh"
      ]
    }
  }
}
 

Если мы хотим выполнить поиск по всем языкам, мы также можем добавить в поле content.default в запрос multi_match . Одним из преимуществ стратегии для отдельных полей является также возможность использовать указанный язык для повышения качества документов, например, тех, которые соответствуют языку или языку пользователя, как обсуждалось выше. Это может улучшить как точность, так и отзывчивость, поскольку может напрямую влиять на релевантность.Точно так же, если мы хотим выполнить поиск на одном языке, например, когда мы знаем язык запроса пользователя, мы можем просто использовать запрос на сопоставление в языковом поле для этого языка, например contents.de .

По индексу

При использовании стратегии по индексу у нас есть несколько языковых индексов, но каждый индекс имеет одинаковые имена полей. Это означает, что мы можем использовать один простой запрос и просто указать шаблон индекса при выполнении поискового запроса:

 ПОЛУЧИТЬ язык по индексу _ * / _ поиск
{
  "запрос": {
    "соответствие": {
      "содержимое.text ":" jahr "
    }
  }
}
 

Если мы хотим искать по всем языкам, мы используем шаблон индекса, который также соответствует индексу по умолчанию: lang-per-index * (обратите внимание на отсутствие подчеркивания). Если мы хотим выполнить поиск на одном языке, мы можем просто использовать индекс для этого языка, например lang-per-index_de .

Примеры

Используя те же примеры, которые мы описали в разделе «Мотивация», мы можем попробовать выполнить поиск в нашем корпусе WiLI-2018. Попробуйте эти команды с демонстрационным проектом и посмотрите, что произойдет.

Разложение:

 # только точное совпадение по термину "jahr"
bin / search - стратегия по умолчанию jahr
 
 # соответствует: jahr, jahre, jahren, jahrhunderts и т. Д.
bin / search - стратегия для каждого поля jahr
 

Общий термин:

 # точное совпадение только с термином "компьютер", в результатах есть несколько языков
bin / search - стратегия компьютера по умолчанию
 
 # также соответствует составным немецким словам: "Computersicherheit" (компьютерная безопасность).
bin / search - стратегия для каждого поля компьютера
 

Нелатинские шрифты:

 # стандартный анализатор получает низкую точность и возвращает нерелевантные / несоответствующие результаты с "сеть" / "Интернет": "网络"
bin / search - стратегия по умолчанию 网络
 
 # Анализ интенсивной терапии и языковой анализ дает правильные ответы, но обратите внимание на разные оценки
bin / search - стратегия icu 网络
bin / search - стратегия для каждого поля 网络
 

Сравнение

Основываясь на двух стратегиях, какую из них вам следует использовать? Смотря как.Вот несколько плюсов и минусов каждого подхода, которые помогут вам принять решение.

Плюсы Минусы
По полю
  • Простота управления одним индексом
  • Поддерживает несколько языков в одном документе
  • , даже когда один документ несколько языков
  • Позволяет увеличивать количество документов на языке
  • Более сложные сопоставления и запросы
  • Более низкая производительность по мере увеличения количества поддерживаемых языков и полей
Per-Index
    • Быстрый поиск, поскольку каждый индекс получает запрос
    • Может масштабировать индексы индивидуально в зависимости от использования языка
  • Управление несколькими индексами
  • Непросто поддерживает индексацию одного документа в несколько индексов при смешанном языке использовать в документе

Если вы все еще не можете решить, мы рекомендуем попробовать оба варианта и посмотреть, как каждая стратегия выглядит с вашим набором данных.Если у вас есть набор данных меток релевантности, вы также можете использовать API оценки ранжирования, чтобы увидеть, есть ли различия в релевантности между различными стратегиями.

Дополнительные подходы

Мы рассмотрели две основные стратегии использования языковой идентификации и индексации и поиска в многоязычном корпусе. Благодаря мощности конвейеров приема мы можем реализовать множество дополнительных подходов и модификаций. Вот несколько примеров для изучения:

  • Отображение общих языков сценария в одно поле, e.грамм. сопоставление китайского, японского и корейского языков с полем cjk и использование анализатора cjk , а также сопоставление en и fr в поле latin с помощью стандартного анализатора (см .: examples / olympics.txt ).
  • Сопоставьте неизвестные языки или нелатинские сценарии с полем icu и используйте анализатор icu (см .: config / mappings / lang-per-field.json).
  • Используя условный процессор или обработчик сценариев, установите несколько основных языков выше порогового значения в поле (для фасетирования / фильтрации).
  • Объедините несколько полей документа в одно поле, чтобы идентифицировать язык, и при необходимости использовать его для поиска (например, в поле all_contents ) или просто продолжайте следовать стратегии «язык для каждого поля» после идентификации язык (см .: examples / simulate-concatenation.txt и examples / simulate-concatenation.out.json).
  • Используя процессор сценариев, выберите преобладающий язык только в том случае, если верхний класс превышает пороговое значение (например, 60% или 50%) или значительно превышает прогнозируемый второй класс (например.грамм. выше 50% и более чем на 10% выше второго класса).

Завершение

Надеюсь, этот пост в блоге даст вам отправную точку и некоторые идеи о том, как успешно использовать языковую идентификацию для многоязычного поиска! Мы будем рады услышать от вас, поэтому, пожалуйста, не стесняйтесь и присоединяйтесь к нашему дискуссионному форуму.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *