При вводе документов в базу данных слова документов автоматически нормализуются - приводятся к именительному падежу, единственному числу и мужскому роду (для прилагательных), глагольные формы, в том числе причастия, представлены инфинитивом.
Нормализация производится по морфологическим словарям, позволяющим распознать намного более трех млн. словоформ русского языка. Поэтому, например, слова "таможни", "таможню", "таможня" представлены в словаре одним словом "таможня", слова "представленный", "представляется", "представляли", словом "представлять" и т.д. Слова, отсутствующие в морфологическом словаре, вводятся в словарь базы данных во всех встреченных формах.
При морфологическом анализе производится автоматическое распознавание приставок, имеющих самостоятельное смысловое значение - префиксоидов.
Приставки преобразуются в ключевые слова, которые также вводятся в базу данных. Именно поэтому, если, например, задан запрос "авиационные перевозки", то на него будет найден и документ, в котором есть слово "авиаперевозки".
Также автоматически производится распознавание дат, представленных в следующих формах:
ММ.ГГГГ
ДД.ММ.ГГГГ
ДД.ММ.ГГ
ДД <месяц> ГГГГ
<месяц> ГГГГ
В словаре базы всегда есть и некоторое "сорняков", например, обрывки слов, порожденные нераспознанными переносами в таблицах, лишние омонимы, числа, ошибочно принятые за даты и т.п. Заметим, однако, что, с одной стороны, наличие таких слов в словаре никак не влияет на качество поиска, а, с другой стороны, в некоторых случаях их использование является единственным средством найти нужные документы.
Слова запроса перед выполнением поиска также проходят морфологический анализ. Слова с приставками при этом автоматически преобразуются в фразы запроса, так, чтобы получить оптимальный результат поиска.