Взаимодействие морфологии и орфографических ошибок.
Нежелательные побочные эффекты при исправлении орфографических ошибок могут возникнуть в тех случаях, когда анализатор предусматривает начальный этап морфологического анализа, который приводит слова к их исходной форме.
Например, анализатор может хранить в памяти исходную форму слова directory и на этапе морфологического анализа произвести разложение directories на directory плюс показатель множественного числа. Этот процесс в общем случае протекает так: система не может распознать форму с окончанием как слово, имеющееся в словаре, и применяет стандартные морфологические правила (например, -ies =^+У) Для выведения исходной формы. Если выведенная таким способом исходная форма (или основа) содержится в словаре, то входное слово рассматривается как соответствующая форма с окончанием.Встречается несколько случаев, когда эта процедура может взаимодействовать с исправлением орфографических ошибок.
1. Один и тот же сигнал, а именно отсутствие слова в словаре, используется для запуска как программы морфологического анализа, так и программы исправления орфографических ошибок, и возникает вопрос, какая из них должна быть запущена первой.
2. В корневой части слова может содержаться ошибка (например, dirctories), хотя окончание правильное, и поэтому после отсечения окончания в словаре по-прежнему не находится соответствующего слова.
3. Ошибка может быть в самом окончании (например, directo- rise), поэтому стандартные морфологические трансформации оказываются неприменимыми.
Первый вид взаимодействия обычно не вызывает больших сложностей. Учитывая, что окончания встречаются чаще, чем ошибки, наиболее непосредственной и, вероятно, наилучшей стратегией следует считать подход, при котором для незнакомых слов проводится сначала морфологический анализ, а затем, если в словаре не будет найдена соответствующая форма, используется программа исправления офрографических ошибок. Сопоставление только со словами, приемлемыми в данном контексте, позволит избежать таких случаев, при которых орфографическая ошибка порождает словоформу другого слова.
Если ошибка содержится в корне слова, то придется проводить исправления всех (а, возможно, их несколько) форм без окончания, что может оказаться нерациональным. Здесь опять же может помочь учет контекста.
Третий случай взаимодействия наиболее сложный. Большинство окончаний слишком коротки для того, чтобы исправление ошибок было эффективным,— трудно идентифицировать замещение или пропуск буквы, рассматривая последовательности из двух букв. Более того, обычно при обработке окончаний вместо явного списка окончаний используется сеть различительных признаков, в которой окончания содержатся имплицитно. Одним из решений может быть использование списка всех форм с ошибочным написанием окончания, однако даже при использовании схем хэш-кодирования [7] поиск в этом множестве был бы неэффективен.
Более простое решение всей проблемы взаимодействия между исправлением ошибок и морфологическим анализом заключается в упразднении морфологического анализа и хранении всех форм с окончаниями в словаре. Такое решение имеет свои минусы: оно неэстетично и не позволяет обрабатывать новые окончания, однако ни то, ни другое не является серьезным осложнением для естественноязыковых интерфейсов, функционирующих в ограниченной предметной области. Существует также проблема второго порядка, заключающаяся в том, что в процессе исправления орфографических ошибок в качестве кандидата на правильную форму для одного и того же слова может быть найдено более одной форлїьі с окончанием, но эту трудность можно преодолеть благодаря эксплицитной группировке в словаре различных окончаний данного корня в одно гнездо.
1.2.