Принцип аналогии в морфологии

Принцип аналогии в морфологииВ работе Белоногова Г. Г. и ЗеленковаЮ. Г. описывается принцип построения алгоритма морфологического анализа текстовна основе принципа аналогии. Данный принцип используется в системахорфографического контроля русских текстов, системах автоматическогоиндексирования документов и системах машинного перевода текстов с русскогоязыка на английский и с английского языка на русский. Производительностьпрограммы на компьютере с процессором

от 386 и выше составляет около 400слов с.При автоматической обработке текставозникает проблема новых слов. Для синтаксического анализа и синтезанеобходимо знать грамматические характеристики слов. Если слова в словаре нет,то морфологический анализ не может быть выполнен, а следовательно не могут бытьопределены грамматические характеристики слова.Для того, чтобы определитьграмматические характеристики слов без словаря,

Белоногов предложил принципаналогии. Он основан на том, что существует сильная корреляционная связь междуграмматическими характеристиками слов и буквенным составом их концов. Например организация, приватизация, концентрация имеют ж. р им. п. и ед. ч. работают,понимают, привлекают – это глаголы в 3-ем лице мн. ч. и т. д.Принцип аналогии проверялся на рядеиндоевропейских языков русский, болгарский, латышский, испанский, английский и оказался эффективным.

Сначала он применялся для определения грамматическиххарактеристик слов, не включенных в машинный словарь. Затем возникла идея припроведении морфологического анализа отказаться от машинного словаря.Если по текстам большого объемасоставить словарь словоформ и назначить каждой словоформе некоторыеграмматические признаки, а затем преобразовать данный словарь в обратныйсловарь словоформ, то можно обнаружить, что многие участки словаря имеютодинаковые наборы признаков.
Обратный словарь словоформ представляетсобой список словоформ с такими характеристиками как признак длинныграмматического окончания, номер флективного класса типа словоизменения ичисловой индекс, характеризующий такие признаки как глагольность , местоименность , сравнительная степень . Например масштаба 01 001 01служба 01 056 01возникшие 02 105 10батальон 00 021 01рассчитывая 10Обратный словарь используется дляавтоматического морфологического анализа текстов, если составляющие ихсловоформы

отождествлять со словоформами словаря и приписывать имграмматическую информацию, указанную в словаре. Словоформам текста, которые ненаходятся в словаре, можно приписывать грамматическую информацию тех словоформсловаря, концы которых в максимальной степени совпадают с концами этих новыхсловоформ текста.Объем обратного словаря можносократить, если на всех его участках оставить по две словоформы начальную иконечную. Более того из этих двух словоформ можно оставить только одну, и еслисловоформа текста не

совпадет ни с одной словоформой обратного словаря, то ейприписывается информация непосредственно предшествующей словоформы этогословаря.Данный сокращенный словарь можно ещесократить, если исключить из него начальные буквы словоформ, не оказывающиевлияние на результаты морфологического анализа. При этом у каждой пары рядомстоящих словоформ оставляются справа совпадающие конечные буквосочетания и ещепо одной букве, которые не совпадают. Например аба 01 001 01еба 01 044 01неба 01 071 01 авшие 02 105 10

тальон 00 021 01 тывая 10После выполнения всех операций объемсловаря сокращается в 8 раз. На точность первоначально включенных в словарьсловоформ это не повлияет, а точность анализа остальных словоформ русскогоязыка будет достаточно высокой.Для морфологического анализа текстов наоснове метода аналогии достаточно располагать обратным словарем концов слов. Ноавторы разработки сделали еще Словарь служебных и коротких слов .
В этотсловарь были включены сначала предлоги, местоимения, частицы, союзы и короткиеслова до 5 букв. Затем в него вошли также словоформы, которые по методуаналогии анализировались неверно. В результате этот словарь увеличился до 11тысяч словоформ.Таким образом, в процессеморфологического анализа словоформы ищутся в словаре Служебных и короткихслов , а затем в словаре концов словоформ.

Результаты анализа, полученные попервому словарю, считаются более надежными, и словоформы, найденные в этомсловаре, дальнейшей обработке не подвергаются.В настоящее время вероятностьправильного анализа слов при обработке текстов любой тематики превышает 99 . В разработке данной системы наряду савторами данной статьи принимали участие научные сотрудники отделалингвистических исследований ВИНИТИ А. П. Новоселов, Е. Ю. Рыжова,

С. А.Самоделкина, Ал-др А. Хорошилов, Ал-сей А. Хорошилов, Е. Г. Дружинина.