- Что такое NER?
- Википедия как база знаний в исследованиях и структурах
- Заключение
- Оставьте свои комментарии ниже
Обработка естественного языка (NLP) - это область, где кто-то хочет развернуть связанные с языком задачи в вычислительных системах. Поскольку аудио и текст являются основным форматом информации, в НЛП представлен ряд алгоритмов и концепций для их решения. Одним из таких концептуальных модулей является извлечение информации (IE). Эта область НЛП связана с задачей автоматического извлечения информации из метаданных машинного уровня или даже неструктурированных данных.
Обычно неструктурированные данные являются сложными и большими. Это требует эффективной читабельности наряду с быстротой. Это где IE входит в картину. Методы, такие как распознавание именованных объектов (NER) В процессе IE эффективно организует текстовую информацию. В этой статье мы рассмотрим, что такое NER, и увидим, как в ходе научных исследований были разработаны алгоритмы NER с базой данных Wikipedia.
Что такое NER?
NER является процесс в которых системы или алгоритмы идентифицируют, классифицируют и связывают объекты в тексте с объектами в других базах знаний. Эта часть, связывающая сущности, является основной задачей NER. В основном это означает, что загроможденный (неструктурированные данные) текст связан с базами знаний (структурированные данные), чтобы сделать его понятным.
Например, если мы введем предложение типа «Кристина работает над новым проектом», алгоритм NER, разработанный для идентификации существительных, распознает и классифицирует «Кристина» и «проект» как существительные. Столь большие наборы существительных, которые действуют как сущности для баз знаний, уже собраны для алгоритма. Все, что теперь делает алгоритм - это связывает существительные в предложении из базы знаний.
То, что мы видели здесь, известно как «алгоритмы связывания сущностей». Эти концептуальные алгоритмы вызвали интерес у исследователей НЛП. Ряд аналитических исследований был проведен и проверен на различных базах знаний, таких как Википедия , щебет и другие сайты.
Википедия как база знаний в исследованиях и структурах
Как упоминалось ранее, многие исследования, связанные с NER, использовали Википедию (и ее API!) Для разработки эффективных алгоритмов связывания сущностей. Один изучение Милан Дойчиновски и команда из Университета экономики в Праге разработали системы NER, основанные на API поиска Википедии, а также API поиска Apache Lucene ( entityclassifier.eu это одна основа).
Они также работали с другими вариантами связывания сущностей, такими как наиболее частый метод , связывание на основе совпадения а также явное семантическое связывание на основе анализа , чтобы проанализировать эффективность на Википедии Поиск и Lucene Search. Их исследование было представлено в текстовой конференции по анализу населения базы знаний (TAC KBP) 2013.
Вышеупомянутое исследование работало с вариантами и комбинациями понятий в NER. Однако в предыдущем анализе использовались такие иллюстрации, как диаграммы для связывания сущностей. Исследование X Хан и команды является одним из примеров. Они разрабатывают метод, основанный на графах, «который может моделировать и использовать глобальную взаимозависимость между решениями, связывающими разные сущности» с использованием Википедии в качестве базы знаний.
Это означает, что объекты, основанные на ссылочных выводах, в более широкой перспективе, то есть объекты, связывающие другие объекты. Рассматривая пример из результатов Википедии, они устанавливают семантические отношения, необходимые для сущностей для составления схемы ссылок. Теперь этот метод сравнивается с обычными методами связывания, такими как Wikify! среди других, и показал лучшие результаты с точки зрения точности по сравнению со словом.
С другой стороны, существуют различные структуры для связывания сущностей с использованием Википедии, с правый , Babelfy а также DBpedia быть популярным среди них.
- Декстер: Ан Открытый исходный код структура связывания сущностей, разработанная исследователи в ISTI-CNR, Италия , Декстер идентифицирует фрагменты текста в документе, ссылаясь на сущности, присутствующие в Википедии. Процесс связывания разделен на три этапа: идентификация фрагмента текста, устранение неоднозначности и ранжирование, которые образуют основной модуль в программном обеспечении. Поскольку Декстер является открытым исходным кодом, становится легко измерять и анализировать различные существующие алгоритмы связывания сущностей.
- Babelfy: многоязычная платформа с открытым исходным кодом, Babelfy имеет веб-интерфейс и RESTful API для выполнения связывания сущностей, а также неоднозначность смысла слова (WSD) решать различные проблемы компьютерной лингвистики. Одно примечательное преимущество, которое он обеспечивает, - это интеграция с Java, наиболее используемым языком программирования в ИТ. Разработан исследователи из университета Сапиенца в Риме Италия, Babelfy предназначена для всех и предоставляет простой, удобный интерфейс. Вы можете проверить Babelfy Вот ,
- DBPedia: больше базы знаний, DBPedia - это проект сообщества с открытым исходным кодом, разработанный и поддерживаемый многочисленными исследователями из разных областей. Википедия формирует основную информационную базу в DBPedia и поддерживает более 100 языковых версий. Он также используется для связывания сущностей и других приложений НЛП посредством взаимодействий на основе браузера. SQL - это средство взаимодействия в DBPedia. С веб-запросами, пронизывающими онлайн-пространство, DBPedia, безусловно, помогает в сложных задачах анализа текста.
Заключение
NER существует в течение последних двух десятилетий. С ростом достижений НЛП анализ текста, безусловно, значительно улучшится, будь то с точки зрения языков, жаргонов, контекстов и так далее. Текстовые приложения больше не требуют сложных вычислений или сложных разработок, поскольку NLP упрощает все эти процессы.
Оставьте свои комментарии ниже
Комментарии
Что такое NER?Что такое NER?