Изучение распознавания именованных сущностей с помощью Википедии

  1. Что такое NER?
  2. Википедия как база знаний в исследованиях и структурах
  3. Заключение
  4. Оставьте свои комментарии ниже

Обработка естественного языка (NLP) - это область, где кто-то хочет развернуть связанные с языком задачи в вычислительных системах. Поскольку аудио и текст являются основным форматом информации, в НЛП представлен ряд алгоритмов и концепций для их решения. Одним из таких концептуальных модулей является извлечение информации (IE). Эта область НЛП связана с задачей автоматического извлечения информации из метаданных машинного уровня или даже неструктурированных данных.

Обычно неструктурированные данные являются сложными и большими. Это требует эффективной читабельности наряду с быстротой. Это где IE входит в картину. Методы, такие как распознавание именованных объектов (NER) В процессе IE эффективно организует текстовую информацию. В этой статье мы рассмотрим, что такое NER, и увидим, как в ходе научных исследований были разработаны алгоритмы NER с базой данных Wikipedia.

Что такое NER?

NER является процесс в которых системы или алгоритмы идентифицируют, классифицируют и связывают объекты в тексте с объектами в других базах знаний. Эта часть, связывающая сущности, является основной задачей NER. В основном это означает, что загроможденный (неструктурированные данные) текст связан с базами знаний (структурированные данные), чтобы сделать его понятным.

Например, если мы введем предложение типа «Кристина работает над новым проектом», алгоритм NER, разработанный для идентификации существительных, распознает и классифицирует «Кристина» и «проект» как существительные. Столь большие наборы существительных, которые действуют как сущности для баз знаний, уже собраны для алгоритма. Все, что теперь делает алгоритм - это связывает существительные в предложении из базы знаний.

То, что мы видели здесь, известно как «алгоритмы связывания сущностей». Эти концептуальные алгоритмы вызвали интерес у исследователей НЛП. Ряд аналитических исследований был проведен и проверен на различных базах знаний, таких как Википедия , щебет и другие сайты.

Википедия как база знаний в исследованиях и структурах

Как упоминалось ранее, многие исследования, связанные с NER, использовали Википедию (и ее API!) Для разработки эффективных алгоритмов связывания сущностей. Один изучение Милан Дойчиновски и команда из Университета экономики в Праге разработали системы NER, основанные на API поиска Википедии, а также API поиска Apache Lucene ( entityclassifier.eu это одна основа).

Они также работали с другими вариантами связывания сущностей, такими как наиболее частый метод , связывание на основе совпадения а также явное семантическое связывание на основе анализа , чтобы проанализировать эффективность на Википедии Поиск и Lucene Search. Их исследование было представлено в текстовой конференции по анализу населения базы знаний (TAC KBP) 2013.

Вышеупомянутое исследование работало с вариантами и комбинациями понятий в NER. Однако в предыдущем анализе использовались такие иллюстрации, как диаграммы для связывания сущностей. Исследование X Хан и команды является одним из примеров. Они разрабатывают метод, основанный на графах, «который может моделировать и использовать глобальную взаимозависимость между решениями, связывающими разные сущности» с использованием Википедии в качестве базы знаний.

Это означает, что объекты, основанные на ссылочных выводах, в более широкой перспективе, то есть объекты, связывающие другие объекты. Рассматривая пример из результатов Википедии, они устанавливают семантические отношения, необходимые для сущностей для составления схемы ссылок. Теперь этот метод сравнивается с обычными методами связывания, такими как Wikify! среди других, и показал лучшие результаты с точки зрения точности по сравнению со словом.

С другой стороны, существуют различные структуры для связывания сущностей с использованием Википедии, с правый , Babelfy а также DBpedia быть популярным среди них.

  • Декстер: Ан Открытый исходный код структура связывания сущностей, разработанная исследователи в ISTI-CNR, Италия , Декстер идентифицирует фрагменты текста в документе, ссылаясь на сущности, присутствующие в Википедии. Процесс связывания разделен на три этапа: идентификация фрагмента текста, устранение неоднозначности и ранжирование, которые образуют основной модуль в программном обеспечении. Поскольку Декстер является открытым исходным кодом, становится легко измерять и анализировать различные существующие алгоритмы связывания сущностей.
Архитектура Декстера (Изображение предоставлено ISTI CNR)
  • Babelfy: многоязычная платформа с открытым исходным кодом, Babelfy имеет веб-интерфейс и RESTful API для выполнения связывания сущностей, а также неоднозначность смысла слова (WSD) решать различные проблемы компьютерной лингвистики. Одно примечательное преимущество, которое он обеспечивает, - это интеграция с Java, наиболее используемым языком программирования в ИТ. Разработан исследователи из университета Сапиенца в Риме Италия, Babelfy предназначена для всех и предоставляет простой, удобный интерфейс. Вы можете проверить Babelfy Вот ,
  • DBPedia: больше базы знаний, DBPedia - это проект сообщества с открытым исходным кодом, разработанный и поддерживаемый многочисленными исследователями из разных областей. Википедия формирует основную информационную базу в DBPedia и поддерживает более 100 языковых версий. Он также используется для связывания сущностей и других приложений НЛП посредством взаимодействий на основе браузера. SQL - это средство взаимодействия в DBPedia. С веб-запросами, пронизывающими онлайн-пространство, DBPedia, безусловно, помогает в сложных задачах анализа текста.

Заключение

NER существует в течение последних двух десятилетий. С ростом достижений НЛП анализ текста, безусловно, значительно улучшится, будь то с точки зрения языков, жаргонов, контекстов и так далее. Текстовые приложения больше не требуют сложных вычислений или сложных разработок, поскольку NLP упрощает все эти процессы.

Текстовые приложения больше не требуют сложных вычислений или сложных разработок, поскольку NLP упрощает все эти процессы

Оставьте свои комментарии ниже

Комментарии

Что такое NER?
Что такое NER?
 
Карта