<<
>>

Взаимодействие морфологии и орфографических ошибок.

Нежелательные побочные эффекты при исправлении орфографи­ческих ошибок могут возникнуть в тех случаях, когда анализа­тор предусматривает начальный этап морфологического анализа, который приводит слова к их исходной форме.

Например, анали­затор может хранить в памяти исходную форму слова directory и на этапе морфологического анализа произвести разложение di­rectories на directory плюс показатель множественного числа. Этот процесс в общем случае протекает так: система не может распознать форму с окончанием как слово, имеющееся в словаре, и приме­няет стандартные морфологические правила (например, -ies =^+У) Для выведения исходной формы. Если выведенная таким способом исходная форма (или основа) содержится в словаре, то входное слово рассматривается как соответствующая форма с окончанием.

Встречается несколько случаев, когда эта процедура может взаимодействовать с исправлением орфографических ошибок.

1. Один и тот же сигнал, а именно отсутствие слова в словаре, используется для запуска как программы морфологического ана­лиза, так и программы исправления орфографических ошибок, и возникает вопрос, какая из них должна быть запущена первой.

2. В корневой части слова может содержаться ошибка (напри­мер, dirctories), хотя окончание правильное, и поэтому после отсе­чения окончания в словаре по-прежнему не находится соответ­ствующего слова.

3. Ошибка может быть в самом окончании (например, directo- rise), поэтому стандартные морфологические трансформации ока­зываются неприменимыми.

Первый вид взаимодействия обычно не вызывает больших слож­ностей. Учитывая, что окончания встречаются чаще, чем ошибки, наиболее непосредственной и, вероятно, наилучшей стратегией сле­дует считать подход, при котором для незнакомых слов прово­дится сначала морфологический анализ, а затем, если в словаре не будет найдена соответствующая форма, используется программа исправления офрографических ошибок. Сопоставление только со словами, приемлемыми в данном контексте, позволит избежать таких случаев, при которых орфографическая ошибка порождает словоформу другого слова.

Если ошибка содержится в корне слова, то придется проводить исправления всех (а, возможно, их несколько) форм без оконча­ния, что может оказаться нерациональным. Здесь опять же может помочь учет контекста.

Третий случай взаимодействия наиболее сложный. Большинство окончаний слишком коротки для того, чтобы исправление оши­бок было эффективным,— трудно идентифицировать замещение или пропуск буквы, рассматривая последовательности из двух букв. Бо­лее того, обычно при обработке окончаний вместо явного списка окончаний используется сеть различительных признаков, в которой окончания содержатся имплицитно. Одним из решений может быть использование списка всех форм с ошибочным написанием окон­чания, однако даже при использовании схем хэш-кодирования [7] поиск в этом множестве был бы неэффективен.

Более простое решение всей проблемы взаимодействия между исправлением ошибок и морфологическим анализом заключается в упразднении морфологического анализа и хранении всех форм с окончаниями в словаре. Такое решение имеет свои минусы: оно неэстетично и не позволяет обрабатывать новые окончания, однако ни то, ни другое не является серьезным осложнением для естествен­ноязыковых интерфейсов, функционирующих в ограниченной пред­метной области. Существует также проблема второго порядка, заключающаяся в том, что в процессе исправления орфографи­ческих ошибок в качестве кандидата на правильную форму для одного и того же слова может быть найдено более одной форлїьі с окончанием, но эту трудность можно преодолеть благодаря экспли­цитной группировке в словаре различных окончаний данного кор­ня в одно гнездо.

1.2.

<< | >>
Источник: Б.Ю. Городец­кий. Новое в зарубежной лингвистике: Вып. XXIV. Компьютерная лингвистика: Пер. с англ./Сост., ред. и вступ, ст. Б. Ю. Городец­кого.— М.: Прогресс,1989.—432 с.. 1989

Еще по теме Взаимодействие морфологии и орфографических ошибок.:

  1. 2.6. Виды норм
  2. ПРОГРАММА 1*
  3. БИБЛИОГРАФИЯ
  4. Истоки моей творческой деятельности.
  5. О СВЯЗИ ПРОЦЕССОВ РАЗВИТИЯ ЛИТЕРАТУРНОГО ЯЗЫКА И СТИЛЕЙ ХУДОЖЕСТВЕННОЙ ЛИТЕРАТУРЫ
  6. 3.7. Поликодовые тексты в учебно-педагогическом дискурсе
  7. ИЗ ИСТОРИИ ИЗУЧЕНИЯ РУССКОЙ ФОНЕТИКИ
  8. Взаимодействие морфологии и орфографических ошибок.
  9. Анализатор DYPAR.
  10. выводы