В статье проанализированы существующие технологии обработки естественного языка. Представлена математическая модель маски поиска релевантной информации.
Математическая модель маски поиска предложена использоваться, как поисковой шаблон по отнесению содержания электронных документов к различным категориям.
Данная модель представления релевантной информации лежит в основе программы для электронно-вычислительных машин (далее – ЭВМ). Программа работает под управлением операционных систем Windows и Linux и способна к самораспространению на другие ЭВМ, находящихся в одной локальной сети.
Особенностью реализации данного подхода является возможность определения лицом, принимающим решение, релевантных документов в информационно-поисковом массиве, возможность поиска информации в архивах, сохранение маски поиска, восстановление и анализ файлов, которые были удалены с компьютера.
С помощью программного средства осуществляется поиск необходимой информации. Затем, на основании полученных данных, у лица, принимающего решение, вырабатывается решение об отнесении (или нет) информации к информации ограниченного распространения.
Ключевые слова: поиск релевантной информации, искусственный интеллект, нейронная сеть, задачи обработки естественного языка.
Цель статьи – предложение и описание математической модели маски поиска релевантной информации.
Сложно представить современного человека без какого-либо электронного средства обработки информации. В 2023 году электронно-вычислительные машины есть, практически, в каждом доме.
Они помогают нам выполнять самые разнообразные задачи: начиная от помощи в принятии решения, каким образом лучше добраться до работы, заканчивая вычислением самых трудоемких математических уравнений, которые человек не сможет решить за всю свою жизнь.
В условиях стремительного развития и расширения информационной сферы существенно возрастает роль теоретических знаний и доля их использования в различных сферах человеческой деятельности, а информация превращается в ведущий фактор общественного развития.
Обработка естественного языка (англ. Natural Language Processing, NLP) является важным инструментом для понимания и обработки огромного объема неструктурированных данных в современном мире.
В последнее время глубокое обучение широко применяется в NLP, потому что алгоритмы глубокого обучения чрезвычайно эффективно решают задачи классификации изображений, текста, распознавания речи и генерации реалистичных текстов. Ее цель – научить компьютер понимать нашу разговорную и письменную речь.
Основные задачи обработки естественного языка: устранение неоднозначности слов, выделение именованных сущностей, морфологическая разметка, классификация предложений/синопсисов, генерация естественного языка, вопросно-ответные системы, машинный перевод и другие.
Набор задач делится на две широкие категории: генерация нового текста и анализ существующего текста. Структура задач обработки естественного языка представлена на рисунке 1.
Механизмы классификации и структурирования у человека базируются на той картине мира, которая существует у него на текущий момент развития, то есть новую информацию он воспринимает соответственно тем категориям образов, которые постепенно устанавливаются после рождения.
В динамике развития психики человека вначале формируется образная система, а потом понятийно-логическая. Психология достоверно показала, что при восприятии новой информации у человека сначала возникает единый образ – денотат, а затем происходит его детализация.
Базой служат врожденные общие алгоритмы, относящиеся ко всем модальностям и основанные на принципах равновесия и простоты (например, квадрат и круг – эталоны простых форм).
Классификация предложений или синопсисов (например, обзоров фильмов) имеет множество вариантов использования, таких как обнаружение спама, классификация новостных статей (например, политические, технологические и спортивные), классификации документов ограниченного распространения, распознавание отзывов о продукте. (например, положительные или отрицательные) и другие. Это достигается обучением модели классификации на обучающей выборке (то есть на обзорах, аннотированных людьми).
Для выделения именованных сущностей в тексте используются как особенности их записи, так и словарные ресурсы: словари имен, географических названий, химических веществ, денежных единиц, родов занятий и тому подобное. Во многих случаях составление полного словаря именованных сущностей определенной категории не представляется возможным, поэтому приходится учитывать особенности их написания.
Также, для выявления именованных сущностей нередко привлекают контекст:
как локальный, то есть соседние слова (такие как город, улица и другие), так и глобальный, то есть общую информацию об анализируемом тексте (его тематика, структура). Учет локального контекста нередко позволяет определить категорию именованной сущности и ее референт, что особо важно для многозначных наименований (например, ключ, перо, рукав и коса).
Так, на основе контекста, при обработке предложения:
Из-под земли бил горячий ключ,
слово "ключ" означает естественный выход подземных вод на земную поверхность, на основании предваряющего словосочетания "из-под земли", а при обработке предложения:
Ключ для амбарного замка находится на столе,
будет выявлена именованная сущность "ключ" в значении инструмента для открытия замков, согласно словосочетанию "для замка".
Релевантная информация (A3) определяется с помощью сюръективного отображения f0 из множества основ лексем A1 во множество денотатов A2 из которого, отображением f1 и определяется эта информация.
Рассмотрим два примера электронных документов (далее – ЭД), имеющих одни и те же ключевые лексемы, но один документ является релевантный, другой – нет.
Пример 1
Первая часть ЭД – заголовок:
"Нормы продовольствия смазочных материалов в в/ч 00000"
Вторая часть ЭД – основная часть:
"Масло О-32 – 100 литр/год, смазка К-12У – 150 литр/год"
Третья часть ЭД – заключение:
"при эксплуатации ВВСТ ВС РФ".
Пример 2
Первая часть ЭД – заголовок:
"Наименования для норм продовольствия ВС РФ в в/ч 00000"
Вторая часть ЭД – основная часть:
"Масло О-32 (для ВВСТ), смазка К-12У (для ВВСТ)".
Третья часть ЭД – заключение:
"Количественные значения смазочных материалов (в литр/год) при эксплуатации ВВСТ ВС РФ представлены в Приложении 1".
В примере 1 присутствуют "сведения, раскрывающие нормы расхода масла и смазки", а в примере 2 – они отсутствуют. В первом случае лексема, которая предназначена для обозначения количественной характеристики масла и смазки (литр/год) находится во 2-й части документа, а во втором примере она находится в 3-й части, и формирует другой смысл.
Так как расположение лексем в тексте может изменить его смысл, была сформулирована математическая модель общей маски поиска. В качестве формализма для представления модели была выбрана булева алгебра (дискретная математика).
Пусть M(M1, M2, …, Mn) = {false, true} – булева функция маски поиска (математическая модель);
Так как расположение (не порядок) лексем в тексте может изменить его смысл, была сформулирована математическая модель общей маски поиска М (1), которая является результатом логических операций конъюнкций или дизъюнкций над подмасками М_n (2), которые также являются результатами логических операций. Подмаска представляет собой дизъюнктивную нормальную форму лексем из множества A1. Если лексема в тексте принадлежит множеству A1, тогда логическая переменная l_i принимает значение "Истины", иначе "Лжи".
В случаях, когда все дизъюнктивные нормальные формы принимают такие значения, при которых общая маска принимает значение Истины, можно сказать, что в данном документе может присутствовать релевантная информация.
В системах искусственного интеллекта знания являются основным объектом формирования, обработки и исследования. Они проходят путь от внутренних представлений в сознании человека к описанию на языке представления знаний и базам знаний на различных носителях информации.
Вывод: предложена математическая модель маски поиска релевантной информации в электронных документах, которая является основой для формирования поискового образа нейронной сети.