Морфологический анализ

При вводе документов в базу данных слова документов автоматически нормализуются - приводятся к именительному падежу, единственному числу и мужскому роду (для прилагательных), глагольные формы, в том числе причастия, представлены инфинитивом.

Нормализация производится по морфологическим словарям, позволяющим распознать намного более трех млн. словоформ русского языка. Поэтому, например, слова "таможни", "таможню", "таможня" представлены в словаре одним словом "таможня", слова "представленный", "представляется", "представляли", словом "представлять" и т.д. Слова, отсутствующие в морфологическом словаре, вводятся в словарь базы данных во всех встреченных формах.

При морфологическом анализе производится автоматическое распознавание приставок, имеющих самостоятельное смысловое значение - префиксоидов.

Приставки преобразуются в ключевые слова, которые также вводятся в базу данных. Именно поэтому, если, например, задан запрос "авиационные перевозки", то на него будет найден и документ, в котором есть слово "авиаперевозки".

Также автоматически производится распознавание дат, представленных в следующих формах:

ММ.ГГГГ
ДД.ММ.ГГГГ
ДД.ММ.ГГ
ДД <месяц> ГГГГ
<месяц> ГГГГ

В словаре базы всегда есть и некоторое "сорняков", например, обрывки слов, порожденные нераспознанными переносами в таблицах, лишние омонимы, числа, ошибочно принятые за даты и т.п. Заметим, однако, что, с одной стороны, наличие таких слов в словаре никак не влияет на качество поиска, а, с другой стороны, в некоторых случаях их использование является единственным средством найти нужные документы.

Слова запроса перед выполнением поиска также проходят морфологический анализ. Слова с приставками при этом автоматически преобразуются в фразы запроса, так, чтобы получить оптимальный результат поиска.