Понятие идентификация: Идентификация — Психологос

Статья 2. Основные понятия, используемые в настоящем Федеральном законе \ КонсультантПлюс

Статья 2. Основные понятия, используемые в настоящем Федеральном законе

В настоящем Федеральном законе используются следующие основные понятия:

1) аккредитованные государственные органы — государственные органы, владеющие информационными системами, обеспечивающими аутентификацию физических лиц с использованием векторов единой биометрической системы, и (или) осуществляющие функции их оператора, прошедшие аккредитацию на право владения такими информационными системами и (или) осуществления функций их операторов в порядке, установленном в соответствии с настоящим Федеральным законом;

2) аутентификация — совокупность мероприятий по проверке лица на принадлежность ему идентификаторов посредством сопоставления их со сведениями о лице, которыми располагает лицо, проводящее аутентификацию, и установлению правомерности владения лицом идентификаторами посредством использования аутентифицирующих признаков в рамках процедуры аутентификации, в результате чего лицо считается установленным;

3) вектор единой биометрической системы — персональные данные, полученные в результате математического преобразования биометрических персональных данных физического лица, содержащихся в единой биометрической системе, которое произведено с использованием информационных технологий и технических средств, соответствующих требованиям, определенным в соответствии с подпунктом «е» пункта 1 части 2 статьи 6 настоящего Федерального закона;

4) единая биометрическая система — государственная информационная система «Единая система идентификации и аутентификации физических лиц с использованием биометрических персональных данных», которая содержит биометрические персональные данные физических лиц, векторы единой биометрической системы и иную предусмотренную в соответствии с частью 16 статьи 4 настоящего Федерального закона информацию, которая используется в целях осуществления идентификации, аутентификации с использованием биометрических персональных данных физических лиц, а также в иных правоотношениях в случаях, установленных законодательством Российской Федерации, и оператором которой является определенная Правительством Российской Федерации организация;

5) единая система идентификации и аутентификации — федеральная государственная информационная система «Единая система идентификации и аутентификации в инфраструктуре, обеспечивающей информационно-технологическое взаимодействие информационных систем, используемых для предоставления государственных и муниципальных услуг в электронной форме», обеспечивающая санкционированный доступ к информации, содержащейся в информационных системах;

6) идентификатор — уникальное обозначение сведений о лице, необходимое для определения такого лица;

7) идентификация — совокупность мероприятий по установлению сведений о лице и их проверке, осуществляемых в соответствии с федеральными законами и принимаемыми в соответствии с ними нормативными правовыми актами, и сопоставлению данных сведений с идентификатором;

8) мобильное приложение единой биометрической системы — российская программа для электронных вычислительных машин, предназначенная для обработки биометрических персональных данных, входящая в состав единой биометрической системы, предоставляемая на безвозмездной основе ее оператором, функционирующая с применением шифровальных (криптографических) средств, указанных в части 1 статьи 19 настоящего Федерального закона;

9) оператор регионального сегмента единой биометрической системы — орган исполнительной власти субъекта Российской Федерации или подведомственное ему государственное учреждение либо государственное унитарное предприятие, определяемые высшим исполнительным органом субъекта Российской Федерации, осуществляющие создание, развитие, модернизацию и эксплуатацию регионального сегмента единой биометрической системы и являющиеся владельцами технических средств, в том числе программно-технических средств, а также программ для электронных вычислительных машин, предназначенных для обработки биометрических персональных данных, векторов единой биометрической системы, используемых в региональном сегменте единой биометрической системы;

10) организации, осуществляющие аутентификацию на основе биометрических персональных данных физических лиц, — организации, владеющие информационными системами, обеспечивающими аутентификацию на основе биометрических персональных данных физических лиц, и (или) оказывающие услуги по аутентификации на основе биометрических персональных данных физических лиц, применяющие для этих целей векторы единой биометрической системы и прошедшие аккредитацию в порядке, установленном в соответствии с настоящим Федеральным законом;

11) региональный сегмент единой биометрической системы — элемент единой биометрической системы, который содержит предусмотренную в соответствии с частью 16 статьи 4 и статьей 5 настоящего Федерального закона информацию, оператором которого является орган исполнительной власти субъекта Российской Федерации или подведомственное ему государственное учреждение либо государственное унитарное предприятие, осуществляющие создание, развитие, модернизацию, эксплуатацию и иные полномочия оператора такого сегмента, который используется для осуществления аутентификации и в котором используются предназначенные для обработки биометрических персональных данных, векторов единой биометрической системы технические средства, в том числе программно-технические средства, и программы для электронных вычислительных машин.

Принципы идентификации в сети призвали закрепить законодательно

11 мая, 15:24

Петербургский международный юридический форум

САНКТ-ПЕТЕРБУРГ, 11 мая. /ТАСС/. Идентификация пользователей в сети нуждается в совершенствовании, в том числе с помощью законодательного определения ее принципов. Такой подход позволит снизить риски неправомерного использования персональных данных граждан в цифровой среде, сообщила директор Центра правовой помощи гражданам в цифровой среде Людмила Куровская.

По словам Куровской, в настоящее время существует правовая неопределенность, вызванная тем, что у процесса идентификации гражданина нет единого понятия в законодательстве. «Сегодня у нас все еще нет соответствующей нормативно-правовой базы, которая позволяла бы нам избежать тех издержек, с которыми сталкиваются большинство граждан. <…> Это допускает возможность использования мошенниками разных схем незаконного использования персональных данных граждан. Идентификация и персональные данные взаимосвязаны, поэтому их нельзя отдельно рассматривать», — сказала она на сессии Петербургского международного юридического форума (ПМЮФ).

Куровская отметила, что с вступлением в силу федерального закона «Об осуществлении идентификации и (или) аутентификации физических лиц с использованием биометрических персональных данных» утратил статью, в которой давалось определение идентификации. «Однако, новый закон регулирует только те правоотношения, которые связаны с использованием биометрических данных. Но идентификация не всегда проходит с использованием биометрических данных».

Эксперт уточнила, что существует федеральный закон «О противодействии легализации (отмыванию) доходов, полученных преступным путем, и финансированию терроризма». Однако, документ имеет узкую сферу применения и распространяется на правоотношения, связанные с переводом денежных средств. Поэтому законодателю необходимо исправить эту ситуацию и принять решение об определении в законе единого правового понятия индентификации.

К принципам индентификации, которые нужно закрепить в законодательстве, можно отнести осознание и добровольное участие в идентификации, достоверность результатов, устойчивое и бесперебойное функционирование информационной инфраструктуры идентификации, считают в Центре.

«Правовой режим идентификации тесно взаимодействует с режимом охраны персональных данных. Лица, неправомерно получившие доступ к персональным данным граждан, могут использовать такие сведения не только для мошенничества, но и для совершения иных общественно опасных действий», — пояснила Куровская в кулуарах форума.

Как отметила эксперт, в целях защиты пользователя от несанкционированного использования данных, необходимо сделать обязательным прохождение процедуры подтверждения действий в учетной записи Единой системы идентификации и аутентификации (ЕСИА). Также должна стать обязательной процедура «второго ключа» — подтверждение входа в личный кабинет, о которой ранее заявляли в Минцифры РФ. «С целью повышения безопасности учетных записей граждан в ЕСИА предлагается установить критерии определения подозрительной активности и механизм отслеживания и блокирования такой активности. А также предусматривать возможность прерывания текущей сессии при подозрительной активности. Такой системный подход позволит снизить риски неправомерного использования персональных данных граждан в цифровой среде», — заключила она.

Петербургский международный юридический форум — крупнейшая площадка для диалога между представителями юридического, предпринимательского, политического и правоохранительного сообществ по вопросам права в интересах граждан, бизнеса, совершенствования правоприменительной практики, продвижения законодательных инициатив в целях развития правовой культуры и регулирования социально-экономической сферы в современных условиях. Форум проводится Минюстом России и фондом Росконгресс в соответствии с указом президента РФ. Он продлится до 13 мая.

ТАСС выступает генеральным информационным партнером ПМЮФ. 

Теги:

РоссияПетербургский международный юридический форум

Читайте ТАСС

Новости

Дзен

Исследование идентификации биомедицинских концепций: MetaMap vs. People

  • Список журналов
  • AMIA Annu Symp Proc
  • v. 2003; 2003 г.
  • PMC1479976

Являясь библиотекой, NLM предоставляет доступ к научной литературе. Включение в базу данных NLM не означает одобрения или согласия с содержание NLM или Национальных институтов здравоохранения. Узнайте больше о нашем отказе от ответственности.

AMIA Annu Symp Proc. 2003 г.; 2003: 529–533.

, к.т.н. 1, 2 и, М.С. 2

Информация об авторе Информация об авторских правах и лицензиях Отказ от ответственности

Несмотря на то, что огромные объемы неструктурированного текста доступны как богатый источник биомедицинских знаний, для обработки этих неструктурированных знаний требуются инструменты, которые идентифицируют понятия из текста произвольной формы. MetaMap является одним из инструментов, который разработчики систем в области биомедицины обычно используют для такой задачи, но мало кто изучал, насколько хорошо он выполняет эту задачу в целом. В этой статье мы сообщаем об исследовании, в котором производительность MetaMap сравнивается с эффективностью шести человек. Такие исследования сложны, потому что задача по своей сути субъективна и достижение консенсуса затруднено. Тем не менее, для тех понятий, с которыми участники в целом согласились, MetaMap смогла идентифицировать большинство понятий, если они были представлены в UMLS. Тем не менее, MetaMap выявил множество других понятий, которые люди не знали. Мы также сообщаем о нашем анализе типов сбоев, которые продемонстрировал MetaMap, а также о тенденциях в том, как люди выбирают для определения концепций.

Большая часть биомедицинских знаний представлена ​​в текстовой форме; тем не менее, такие неструктурированные представления информации трудно обрабатывать компьютерами последовательным и осмысленным образом. Чтобы решить эту проблему, многие системы, которые полагаются на текст как на источник информации, используют инструмент для идентификации понятий как фраз из одного или нескольких слов внутри текста. Поскольку этап идентификации концепций имеет решающее значение для преобразования текста в произвольной форме в вычислимое представление, нам необходимо понять, как люди идентифицируют концепции из текста и насколько хорошо инструменты могут соответствовать этому процессу идентификации концепций. В этом исследовании мы предлагаем начало для достижения такого понимания. Мы сообщаем как о том, как люди идентифицируют биомедицинские понятия из текста, так и о том, насколько хорошо MetaMap, широко используемый инструмент для определения биомедицинских понятий, работает по сравнению с людьми.

Исследователи из Национальной медицинской библиотеки создали инструмент под названием MetaMap , который идентифицирует биомедицинские концепции из произвольного текстового ввода и отображает их в концепции из метатезауруса Единой медицинской языковой системы (UMLS). 1 , 2

MetaMap сначала разбивает текст на фразы, а затем для каждой фразы возвращает варианты сопоставления, ранжированные по силе сопоставления.

Исследователи использовали MetaMap для различных задач, включая поиск информации, 3 5 интеллектуальный анализ текста, 6 , 7 и извлечение определенных видов понятий, таких как анатомические термины, 8 и молекулярные сайты связывания. 9 Хотя MetaMap является важным компонентом этих систем, никто не опубликовал оценку способности MetaMap идентифицировать биомедицинские концепции в целом.

Для проведения такой оценки мы решили сравнить результаты MetaMap с результатами нескольких людей, идентифицирующих биомедицинские концепции из одного и того же текста.

Субъекты

По запросу по электронной почте мы набрали субъектов, которые имели некоторый клинический опыт. Субъекты были добровольцами и не получали никакой компенсации за участие в опросе. В наших пилотных исследованиях испытуемые тратили на задание от 30 до 60 минут, но, поскольку мы использовали веб-инструмент для опроса, мы не смогли записать время, которое окончательные испытуемые потратили на определение понятий.

Тестовый текст

Мы выбрали для оценки задачу идентификации концепций заголовков статей из MEDLINE. На мотивацию нашего выбора повлияло несколько факторов. Во-первых, из документов в коллекции MEDLINE можно получить широкий спектр информации, а их заголовки часто являются информативным отражением содержания этих документов. Во-вторых, наша работа по интеллектуальному анализу текста опирается на концепции, определенные из заголовков, и нам нужно было оценить, насколько хорошо MetaMap будет работать для этой задачи 9.0017 7 . Наконец, никто другой не оценивал идентификацию понятий в этом общем и широко используемом типе текста. Чтобы получить широкий охват, не перегружая испытуемых, мы использовали 20 заголовков о болезни (т. е. мигрень ), 20 заголовков о лечении (т. , ЭКГ ) всего 60 наименований. Для каждого из наших поисковых запросов, указанных в скобках выше, наш тестовый набор состоял из первых 20 заголовков из поиска MEDLINE по этому запросу, но письма, рекомендации и редакционные статьи были исключены.

Процедуры

Мы запустили MetaMap для каждого заголовка и сохранили результаты в базе данных MySQL для последующего сравнения с ответами испытуемых.

Для сбора идентифицированных субъектом биомедицинских понятий мы проинструктировали каждого субъекта использовать анонимный веб-вопросник, чтобы указать его/ее выбор понятий из заголовков. В онлайн-опросе испытуемых сначала просили указать как свое медицинское образование, так и область специализации (необязательно для сохранения анонимности). Затем опрос представлял каждый заголовок как отдельный вопрос, за которым следовало пустое текстовое поле под каждым заголовком. Субъекты могли отправить онлайн-опрос только после того, как они ввели хотя бы одно понятие для каждого заголовка. Испытуемым давались следующие инструкции по идентификации понятий:

Для каждого из следующих заголовков (обозначаемых в этой форме как вопросы 3–62), пожалуйста, перечислите все биомедицинские концепции (отдельные слова или фразы из нескольких слов) в поле под каждым заголовком. ЗАПИСЫВАЙТЕ КАЖДОЕ ПОНЯТИЕ С НОВОЙ СТРОКИ. Обратите внимание, что вы можете ввести название понятия, которое не совсем соответствует фразе в заголовке. Например, если в названии есть «Рак молочной железы и яичников», вы можете указать два понятия «Рак молочной железы» и «Рак яичников». Не стесняйтесь вырезать и вставлять слова или фразы из заголовка в текстовое поле, если это проще всего.

Параметры MetaMap

Многие параметры конфигурации влияют на выполнение MetaMap, а также на отображение его выходных данных. В частности, MetaMap предоставляет три разных типа моделей данных, которые отличаются друг от друга уровнем фильтрации, которую они выполняют в источниках знаний UMLS. Мы использовали их строгую модель, которая включает все типы фильтрации и которую они считают наиболее подходящей моделью для приложений семантической обработки 1 . Мы использовали только его высокопоставленные термины из выходных данных.

После сбора данных от испытуемых мы заметили, что они часто идентифицировали одни и те же медицинские понятия, но представляли их немного по-разному. Эти синтаксические вариации затрудняли автоматическое определение консенсуса для любого из указанных понятий. Таким образом, для уменьшения вариативности ответов испытуемых мы проверили и очистили все ответы испытуемых посредством следующих действий:

  • Исправление орфографических ошибок

  • Устранение лишних знаков препинания и пробелов

  • Устранение определителей (например, удаление a из экспериментального исследования или из экспериментального исследования ) 9001 3

  • Устранение посторонних определений, не входивших в состав исходного текста (например, удаление в качестве целевого местоположения из Испания в качестве целевого местоположения или удаление в качестве целевого десятилетия из 1990–2000 гг. в качестве целевого десятилетия )

  • Разделение понятий, связанных союзом и (например, удаление и из Мигрень и остановка сердца и уточнение его как двух разных понятий Мигрень и 900 69 Остановка сердца )

Один человек выполнил очистку всех данных в соответствии с указанными рекомендациями, а второй человек дважды проверил все результаты очистки на согласованность и точность.

После очистки данных для каждого названия мы обозначили эталонный стандарт или золотой стандарт как те понятия, которые указаны не менее чем в половине субъектов. Чтобы оценить производительность MetaMap по сравнению с нашими субъектами, нам нужно было указать, что составляет соответствие между терминами. Учитывая разнообразие выявленных понятий, мы решили отметить два типа совпадений: точное совпадение и частичное совпадение.

Точное совпадение

Мы считали понятие точным соответствием , если оно было идентифицировано MetaMap, и оно точно соответствовало эталонному стандарту или любому из его синонимов из метатезауруса UMLS. Например, мигрень и головная боль, мигрень являются синонимами в UMLS. Таким образом, это будет точное совпадение, даже если эталонным стандартом будет мигрень , а MetaMap перечислит головная боль, мигрень в качестве извлеченного понятия. Для других понятий, которые не были определены в Метатезаурусе UMLS, мы использовали только формы множественного и единственного числа понятий в качестве их синонимов. Мы проигнорировали регистровые различия.

Частичное совпадение

Мы считали концепт частичным совпадением , если MetaMap идентифицировал его и являлся подмножеством эталонного стандарта. Все слова концепции MetaMap, состоящей из нескольких слов, должны появиться в эталонном стандартном понятии, чтобы оно было частичным совпадением. Например, когда эталонным стандартом был лептоменингеальный ангиоматоз , а MetaMap идентифицировал ангиоматоз в качестве концепции, это считалось частичным совпадением. Кроме того, чтобы квалифицироваться как частичное совпадение, слова из концепции MetaMap должны стоять в том же порядке, что и в эталонном стандарте, без каких-либо дополнительных слов между ними. Например, когда эталонный стандарт был нейронов тройничного нерва , если MetaMap идентифицировал нейронов тройничного нерва в качестве концепта, это считалось частичным совпадением, но если вместо этого MetaMap выбирал концепт нейронов тройничного нерва , он вообще не считался совпадением.

Мы изучили результаты шести испытуемых (трех медсестер и трех врачей) и сравнили их с результатами MetaMap. Мы исключили результаты двух из восьми наших первоначальных субъектов (одной медсестры и одного врача), потому что они не следовали указаниям. Один субъект перефразировал название, а не определил отдельные понятия. Другой испытуемый подходил к проблеме радикально иначе, чем все остальные испытуемые. Вместо выбора понятий, которые явно содержались в заголовке или упоминались в нем, исключенный субъект читал заголовок и генерировал все понятия, которые можно было обсудить в документе с таким заголовком.

Шесть субъектов определили 492 понятия во всех заголовках. Из этого общего количества 151 квалифицируется как эталонный стандарт. Некоторые понятия из эталонного стандарта фигурировали более чем в одном заголовке. Например, концепция мигрени была выбрана в качестве эталонного стандарта для 12 различных наименований. Если бы мы исключили такие дубликаты, в нашем эталонном стандартном наборе оказалось бы 133 уникальных концепта. Из этих 133 понятий 73 находились в Метатезаурусе UMLS; 60 понятий не было в UMLS.

Основная цель нашего исследования состояла в том, чтобы определить, насколько хорошо MetaMap функционирует как инструмент идентификации понятий. Таким образом, метриками, на которых мы сосредоточились, были точность и полнота MetaMap, а не использование метрики, такой как статистика Каппа, для оценки согласия между субъектами. Будущие исследования будут изучать такие аспекты межэкспертной надежности.

Отзыв MetaMap

Чтобы определить, насколько хорошо MetaMap смогла идентифицировать все соответствующие биомедицинские концепции, мы рассчитали две версии отзыва. Для каждого названия отзыв с точным соответствием был рассчитан как количество терминов, которые были идентифицированы MetaMap и точно соответствуют эталонному стандарту, деленное на общее количество эталонных терминов. Отзыв частичного совпадения был рассчитан таким же образом, за исключением того, что числитель включал частичные совпадения, а также точные совпадения. (Обратите внимание, что отзыв эквивалентен чувствительности.) См. графическое представление результатов точного и частичного совпадения для каждого заголовка. Средние результаты MetaMap представлены в таблице. Мы заметили, что производительность MetaMap хуже для последней трети названий.

Открыть в отдельном окне

Отзыв и точность MetaMap.

Темные столбцы показывают, насколько хорошо MetaMap работал, когда учитывались только точные совпадения. Светлые столбцы (поверх темных) показывают, насколько увеличивается производительность MetaMap, если мы также учитываем частичные совпадения.

MetaMap Precision

Чтобы определить, насколько хорошо MetaMap смогла идентифицировать только понятия, которые были в тексте заголовка, мы рассчитали несколько вариантов точности. Для каждого названия Точность точного соответствия была рассчитана как количество терминов, которые были идентифицированы MetaMap и точно соответствуют эталонному стандарту, деленное на общее количество терминов, определенных MetaMap.

Точность частичного совпадения была рассчитана таким же образом, за исключением того, что числитель включал в себя частичные совпадения, а также точные совпадения. (Обратите внимание, что точность эквивалентна положительной прогностической ценности.) См. графическое представление результатов для каждого заголовка. Средние результаты MetaMap представлены в файлах .

Открыть в отдельном окне

Средняя точность и полнота MetaMap —

Результаты производительности MetaMap, усредненные по всем заголовкам. 95% доверительные интервалы представлены в виде планок погрешностей в каждом столбце.

Для точности мы решили, что для учета различий в ответах испытуемых необходима более слабая версия расчета. Было бы несправедливо наказывать MetaMap, если небольшое количество испытуемых также идентифицировало ту же концепцию. Таким образом, мы также вычислили то, что мы называем

слабая точность, , когда понятие, идентифицированное в MetaMap, считалось совпадающим, если хотя бы один субъект также идентифицировал это понятие, а не требовалось совпадение с эталонным стандартом по крайней мере для половины субъектов. С этим более слабым определением средняя точность точного соответствия MetaMap увеличилась.

Способы, которыми MetaMap потерпел неудачу, также могут предоставить ценную информацию для разработчиков MetaMap при определении того, где необходимы улучшения, а также для пользователей MetaMap при принятии решения о том, следует ли и где использовать MetaMap.

Из 151 концепта эталонного стандарта MetaMap точно сопоставила 81 концепт, 60 частично, а десять не сопоставила вообще. Большинство сбоев было вызвано отсутствием концепций в UMLS. Однако семь из 60 частично совпадающих понятий и четыре из десяти несопоставленных понятий были в UMLS. Для этих одиннадцати ненайденных понятий UMLS мы заметили четыре типа ошибок: (1) четыре случая, когда MetaMap неправильно разделил именное словосочетание, (2) три случая, когда он извлек правильное понятие в качестве фразы-кандидата, но не смог ранжировать его достаточно высоко, (3) три случая, когда он правильно разделил именное словосочетание, но по-прежнему не смог идентифицировать его как понятие, и (4) один случай, когда MetaMap изменил исходное именное словосочетание таким образом, что идентифицированное понятие полностью отличалось от исходного словосочетания.

.

Наше исследование также дало представление о том, как люди определяют биомедицинские понятия. Длинные фразы, состоящие из нескольких слов, могут стать проблемой для определения концепции, потому что люди по-разному выбирают, следует ли разбивать фразу и как ее разбивать. Например, рассмотрим заголовок «

Использование статинов и функционирование ног у пациентов с заболеванием периферических артерий нижних конечностей и без него ». Испытуемые выбрали следующие способы разделения длинных фраз (количество испытуемых, сделавших такой выбор, указано в скобках):

  • заболевание периферических артерий нижних конечностей (1)

  • нижних конечностей (2)

  • периферических болезнь артерий (4)

  • болезнь артерий нижних конечностей ( 1)

  • заболевание периферических сосудов (1)

Субъекты также по-разному выбирали, включать ли общий термин в качестве биомедицинской концепции.

Например, предметы 1, 3, 4 и 6 включали общий термин 9.0069 лечение как понятие или как часть других понятий, таких как лечение мигрени , для некоторых из четырех заголовков, содержащих слово лечение; два других субъекта не включали лечение ни по одному из четырех названий. MetaMap не делает различий между общими и конкретными терминами; он идентифицирует любой термин, который он распознает, и выбирает обработку в качестве термина во всех четырех заголовках.

Один испытуемый иногда был непоследователен в своем выборе включения общих терминов. Например, субъект 6 идентифицировал лечение мигрени и медицинское лечение в качестве медицинских понятий для двух случаев лечения, но не идентифицировали какое-либо понятие, связанное с лечением, для двух других случаев.

Необходимы дальнейшие исследования, чтобы определить, существуют ли другие устойчивые закономерности в том, как люди идентифицируют понятия, и как мы можем использовать эти знания для разработки более эффективных инструментов идентификации понятий.

Многие другие системы извлекают биомедицинские понятия из текста, но большинство систем пытаются извлекать только определенные типы понятий, в зависимости от поставленной задачи или относящихся к определенной области медицины. Например, MedLEE использовался для определения диагностических кодов для радиологических отчетов, 10 GENIES (модифицированная версия MedLEE) использовался для идентификации молекулярных путей, 11 проект Linguistic String использовался для определения параметров обеспечения качества в выписных сводках для случаев лечения астмы, 12 и SPRUS использовался для выявления закодированных заключения рентгенологических отчетов.

13

В отличие от этого, MetaMap пытается идентифицировать все биомедицинских понятия из произвольного текстового ввода. Эту более общую цель гораздо труднее эффективно оценить, потому что существует такая изменчивость в том, что идентифицируется как биомедицинская концепция, когда задача идентификации концепции считается независимой от цели приложения или медицинской специализации. При разработке нашего исследования мы основывали свои идеи на методах и критериях, описанных Фридманом и Хрипчаком. 14 За исключением расчета межэкспертной надежности, наше исследование соответствовало их 20 критериям хорошо спланированного исследования инструментов естественного языка. Поскольку наша задача идентификации общих понятий была гораздо более открытой, чем задачи на естественном языке, о которых они сообщали, такие как определение диагнозов, мы не могли предоставить испытуемым исчерпывающий список всех возможных понятий. Таким образом, наша оценка привела к значительно большей вариабельности ответов испытуемых. Однако это исследование также дало нам возможность изучить стратегии людей в идентификации понятий более тщательно, чем в предыдущих исследованиях.

Хотя достижение полного и точного консенсуса по задаче идентификации концепции оказалось невозможным, наша оценка ясно показывает, что MetaMap отлично справляется с извлечением общих биомедицинских концепций из текста произвольной формы. Большинство понятий из справочного стандарта, которые MetaMap не идентифицировал, были терминами, которых не было в UMLS. Таким образом, эффективность припоминания в MetaMap во многом определяется охватом биомедицинских терминов в UMLS и может быть существенно увеличена только за счет соответствующего увеличения словарного запаса UMLS.

Самое слабое место MetaMap — отсутствие точности. Тем не менее, люди показали большие различия в понятиях, которые они идентифицировали, и когда использовалась более слабая версия точности, производительность MetaMap увеличивалась.

Одним из ограничений этого исследования является то, что оно изучало производительность MetaMap только на заглавных фразах; у нас нет данных для проверки его эффективности на других типах текста. Тем не менее, поскольку заголовки MEDLINE содержат такое разнообразие понятий и формулировок, наше исследование дает убедительные доказательства того, что MetaMap выполняет свои задачи по выявлению большинства биомедицинских понятий из текста произвольной формы без выявления слишком большого количества посторонних понятий.

Это исследование также расширило наши знания о том, как люди выбирают биомедицинские понятия из текста. Мы узнали, что люди соглашаются по значительной части биомедицинских концепций, но эта задача очень субъективна. Полное и точное согласие всегда будет трудно найти, но дальнейшие исследования в этой области могут помочь нам разработать еще более точные инструменты для идентификации биомедицинских концепций.

Мы благодарим врачей и медсестер, принявших участие в этом исследовании. Спасибо также Лелии Арнхейм за ввод данных и проверку согласованности. Эта работа была поддержана грантом Национального научного фонда.

1. Аронсон, А. Эффективное сопоставление биомедицинского текста с метатезаурусом UMLS: программа MetaMap в Proc AMIA Symp 2001. 17–21. [Бесплатная статья PMC] [PubMed]

2. Аронсон А.Р., MetaMap: Mapping Text to the UMLS Metathesaurus 1996. [Бесплатная статья PMC] [PubMed]

3. Аронсон А.Р., Rindflesch TC. Расширение запроса с использованием метатезауруса UMLS. Proc AMIA Symp. 1997;36(1):485–9. [Бесплатная статья PMC] [PubMed] [Google Scholar]

4. Пратт В. и Х. Вассерман. QueryCat: автоматическая категоризация запросов MEDLINE в Proc AMIA Symp 2000. Лос-Анджелес, Калифорния. п. 655–659. [Бесплатная статья PMC] [PubMed]

5. Wright LW, et al. Иерархическая концепция индексации полнотекстовых документов в Единой медицинской языковой системе Карта источников информации. Журнал Американского общества информационных наук. 1998;50(6):514–523. [Google Scholar]

6. Weeber, M., et al. Текстовые открытия в биомедицине: архитектура DAD-системы в Proc AMIA Symp 2000. 903–7. [Бесплатная статья PMC] [PubMed]

7. Pratt, W. and M. Yetisgen-Yildiz. Основанный на знаниях, текстовый подход к поиску связей в биомедицинской литературе в SIGIR-03: Международная конференция ACM по исследованиям и разработкам в области информационного поиска 2003 г. (представлена). Торонто, Канада.

8. Снейдерман К., Т. Риндфлеш и К. Бин. Идентификация анатомической терминологии в медицинском тексте в Proc AMIA Symp 1998. 428–32. [Бесплатная статья PMC] [PubMed]

9. Риндфлеш, Т., Л. Хантер и А. Аронсон. Добыча терминологии молекулярного связывания из биомедицинского текста. в Proc AMIA Symp 1999. 127–31. [Бесплатная статья PMC] [PubMed]

10. Hripcsak G, et al. Исследование надежности для оценки извлечения информации из рентгенологических отчетов. J Am Med Inf Assoc. 1999; 6: 143–150. [Бесплатная статья PMC] [PubMed] [Google Scholar]

11. Friedman, C., et al. GENIES: система обработки на естественном языке для извлечения молекулярных путей из журнальных статей в Bioinformatics suppl 2001. 74–82. [PubMed]

12. Sager N, et al. Обработка естественного языка и представление клинических данных. J Am Med Inf Assoc. 1994;1(2):142–60. [Бесплатная статья PMC] [PubMed] [Google Scholar]

13. Хауг П., Ранум Д., Фредерик П. Компьютеризированное извлечение закодированных результатов из рентгенологического отчета в произвольном формате. Радиология. 1990;174:543–548. [PubMed] [Google Scholar]

14. Friedman C, Hripsak G. Оценка процессоров естественного языка в клинической области. Методы Inf Med. 1998;37(4–5):334–44. [PubMed] [Google Scholar]


Статьи с материалов ежегодного симпозиума AMIA предоставлены здесь с разрешения Американской ассоциации медицинской информатики


Понимание идентификации концепций как согласованной кластеризации данных в нескольких пространствах функций

  • Ланферманн, Феликс
  • ;
  • Шмитт, Себастьян
  • ;
  • Вольштадт, Патрисия
Аннотация

Выявление значимых концепций в больших наборах данных может дать ценную информацию о проблемах инженерного проектирования. Идентификация концепций направлена ​​на выявление непересекающихся групп экземпляров проекта, которые сходны в общем пространстве всех функций, но которые также аналогичны при рассмотрении только подмножеств функций. Эти подмножества обычно содержат признаки, характеризующие конструкцию в отношении одного конкретного контекста, например, конструктивные параметры конструкции, значения производительности или режимы работы. Желательно оценивать качество концепций дизайна, рассматривая несколько из этих подмножеств функций по отдельности. В частности, осмысленные концепции должны не только идентифицировать плотные, хорошо разделенные группы экземпляров данных, но также предоставлять непересекающиеся группы данных, которые сохраняются при отдельном рассмотрении предопределенных подмножеств признаков. В этой работе мы предлагаем рассматривать идентификацию понятий как особую форму алгоритма кластеризации с широким спектром потенциальных приложений, выходящих за рамки инженерного проектирования. Чтобы проиллюстрировать различия между идентификацией понятий и классическими алгоритмами кластеризации, мы применяем недавно предложенный алгоритм идентификации понятий к двум синтетическим наборам данных и показываем различия в найденных решениях. Кроме того, мы вводим меру взаимной информации в качестве метрики для оценки того, возвращают ли решения согласованные кластеры в соответствующих подмножествах. Чтобы поддержать новое понимание идентификации концепции, мы рассматриваем смоделированный набор данных из задачи принятия решений в области управления энергопотреблением и показываем, что идентифицированные кластеры более интерпретируемы в отношении соответствующих подмножеств признаков, чем кластеры, найденные с помощью обычных алгоритмов кластеризации, и таким образом, больше подходит для поддержки лиц, принимающих решения.


Публикация:

Электронные распечатки arXiv

Дата публикации:
Январь 2023
DOI:
10. 48550/архив.2301.05525
архив:
архив: 2301.05525
Биб-код:
2023arXiv230105525L
Ключевые слова:
  • Информатика – машинное обучение;
  • Информатика — искусственный интеллект
Электронная печать:
10 страниц, 6 рисунков, которые будут опубликованы в материалах Международной конференции IEEE по семинарам по интеллектуальному анализу данных (ICDMW) 2022 г.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *