ФОНЕТИЧЕСКИЙ звуко-буквенный разбор слов онлайн
 <<
>>

Орфографические ошибки.

Неудачи, связанные с орфографическими ошибками, возникают тогда, когда в распознаваемой лексеме имеются пропущенные или неправильные буквы, перестановка букв или лишние буквы. Орфо­графические ошибки являются наиболее распространенной формой неграмматичности, с которой имеют дело интерфейсы, работающие на естественном языке.

Обычно ошибка превращает слово в нерас­познаваемую цепочку букв. Но иногда неверно написанное слово совпадает с другим словом, содержащимся в словаре системы, которое нарушает семантические и синтаксические ожидания. На­пример:

Copy the flies from the accounts directory to my directory.

‘Скопировать этих мух из справочника расчетов в мой спра­вочник.’

Хотя flies ‘мухи’ может быть вполне нормальным словом для предметной области некоторого конкретного интерфейса (напри­мер, в файлах могут храниться статистические данные об инва­зии средиземноморской плодовой мухи в Калифорнию), читателю очевидно, что в этом предложении имеется слово с орфографи­ческой ошибкой.

Существуют широкоизвестные алгоритмы соотнесения неправиль­но написанного слова с множеством возможных исправлений (Dur­ham, Lamb and Saxe, 1983), и наиболее простая стратегия преодоления заключается в соотнесении незнакомого слова с мно­жеством всех слов, содержащихся в словаре интерфейса. Однако очевидно, что этот метод дает неверный результат в том случае, когда ошибка привела к совпадению с уже имеющимся в слова­ре словом, и, далее, это может вызвать нежелательную неодно­значность в других случаях.

Наилучшие результаты достигаются тогда, когда исправление ошибок происходит с учетом синтаксических и семантических ожи­даний. В следующем примере:

Add two fixed haed dual prot disks to the order

haed может быть исправлено на had ‘имел’, head ‘головка’, hand ‘рука’, heed ‘забота’ и hated ‘ненавидел’. Два слова отбрасываются на основе синтаксических ожиданий и два других — на основе семантических ограничений проблемной области; в качестве подхо­дящего исправления остается ‘fixed head disk’ ‘диск с фиксирован­ными головками’.

С вычислительной точки зрения существуют два способа организации такого анализа. Можно либо сравнивать ожи­дания анализатора со всеми возможными исправлениями по те­кущему словарю анализатора и отбраковывать ложные исправ­ления, либо использовать ожидания анализатора для порождения множества возможных слов, которые могут быть распознаны в текущей точке разбора, и затем уже использовать это множество в качестве входа алгоритма исправления орфографических ошибок. С точки зрения эффективности второй способ, если он может быть осуществлен, безусловно, предпочтительнее. Порождение всех воз­можных исправлений при словаре в 10 000 слов только ради отбра­ковки всех единиц, кроме одного или двух нужных слов,— интен­сивный вычислительный процесс, тогда как использование пол­ностью индексированных (конкретизированных) ожиданий анализа­тора — гораздо более ограниченный процесс и с меньшей веро­ятностью порождает неоднозначность. В вышеприведенном примере prot имеет 16 возможных исправлений в небольшом оперативном словаре. Однако семантические ожидания позволяют использовать в той же позиции, что и prot, только одно слово [6]; таким образом, процесс исправления наиболее эффективен в том случае, когда вначале порождается список возможных слов.

1.1.

<< | >>
Источник: Б.Ю. Городец­кий. Новое в зарубежной лингвистике: Вып. XXIV. Компьютерная лингвистика: Пер. с англ./Сост., ред. и вступ, ст. Б. Ю. Городец­кого.— М.: Прогресс,1989.—432 с.. 1989

Еще по теме Орфографические ошибки.: