Юридическая
консультация:
+7 499 9384202 - МСК
+7 812 4674402 - СПб
+8 800 3508413 - доб.560
 <<
>>

Орфографические ошибки.

Неудачи, связанные с орфографическими ошибками, возникают тогда, когда в распознаваемой лексеме имеются пропущенные или неправильные буквы, перестановка букв или лишние буквы. Орфо­графические ошибки являются наиболее распространенной формой неграмматичности, с которой имеют дело интерфейсы, работающие на естественном языке.

Обычно ошибка превращает слово в нерас­познаваемую цепочку букв. Но иногда неверно написанное слово совпадает с другим словом, содержащимся в словаре системы, которое нарушает семантические и синтаксические ожидания. На­пример:

Copy the flies from the accounts directory to my directory.

‘Скопировать этих мух из справочника расчетов в мой спра­вочник.’

Хотя flies ‘мухи’ может быть вполне нормальным словом для предметной области некоторого конкретного интерфейса (напри­мер, в файлах могут храниться статистические данные об инва­зии средиземноморской плодовой мухи в Калифорнию), читателю очевидно, что в этом предложении имеется слово с орфографи­ческой ошибкой.

Существуют широкоизвестные алгоритмы соотнесения неправиль­но написанного слова с множеством возможных исправлений (Dur­ham, Lamb and Saxe, 1983), и наиболее простая стратегия преодоления заключается в соотнесении незнакомого слова с мно­жеством всех слов, содержащихся в словаре интерфейса. Однако очевидно, что этот метод дает неверный результат в том случае, когда ошибка привела к совпадению с уже имеющимся в слова­ре словом, и, далее, это может вызвать нежелательную неодно­значность в других случаях.

Наилучшие результаты достигаются тогда, когда исправление ошибок происходит с учетом синтаксических и семантических ожи­даний. В следующем примере:

Add two fixed haed dual prot disks to the order

haed может быть исправлено на had ‘имел’, head ‘головка’, hand ‘рука’, heed ‘забота’ и hated ‘ненавидел’. Два слова отбрасываются на основе синтаксических ожиданий и два других — на основе семантических ограничений проблемной области; в качестве подхо­дящего исправления остается ‘fixed head disk’ ‘диск с фиксирован­ными головками’. С вычислительной точки зрения существуют два способа организации такого анализа. Можно либо сравнивать ожи­дания анализатора со всеми возможными исправлениями по те­кущему словарю анализатора и отбраковывать ложные исправ­ления, либо использовать ожидания анализатора для порождения множества возможных слов, которые могут быть распознаны в текущей точке разбора, и затем уже использовать это множество в качестве входа алгоритма исправления орфографических ошибок. С точки зрения эффективности второй способ, если он может быть осуществлен, безусловно, предпочтительнее. Порождение всех воз­можных исправлений при словаре в 10 000 слов только ради отбра­ковки всех единиц, кроме одного или двух нужных слов,— интен­сивный вычислительный процесс, тогда как использование пол­ностью индексированных (конкретизированных) ожиданий анализа­тора — гораздо более ограниченный процесс и с меньшей веро­ятностью порождает неоднозначность. В вышеприведенном примере prot имеет 16 возможных исправлений в небольшом оперативном словаре. Однако семантические ожидания позволяют использовать в той же позиции, что и prot, только одно слово [6]; таким образом, процесс исправления наиболее эффективен в том случае, когда вначале порождается список возможных слов.

1.1.

<< | >>
Источник: Б.Ю. Городец­кий. Новое в зарубежной лингвистике: Вып. XXIV. Компьютерная лингвистика: Пер. с англ./Сост., ред. и вступ, ст. Б. Ю. Городец­кого.— М.: Прогресс,1989.—432 с.. 1989

Еще по теме Орфографические ошибки.:

  1. Средство первое ПРОГУЛКИ В ОРФОГРАФИЧЕСКОМ САДУ
  2. Средство пятое ПОДНИМЕМ ОРФОГРАФИЧЕСКИЕ ПАРУСА!
  3. ОШИБКА
  4. Соотношение орфографической нормы и практики письма
  5. Орфограмма и орфографическое правило. Типы орфограмм
  6. ОРФОГРАФИЧЕСКАЯ ТЕОРИЯ ТРЕДИАКОВСКОГО*
  7. 7. Правотворческая техника и правотворческие ошибки
  8. 8. Современные орфографические нормы.
  9. § 3. Основные этапы подготовки текста сочинения-рассуждения в соответствии с заданием части С ЕГЭ
  10. ПИСЬМО И ОРФОГРАФИЯ
  11. 1. Необозначение позиционных чередований при морфологическом принципе правописания
  12. § 105. ОРФОЭПИЧЕСКИЕ И ОРФОГРАФИЧЕСКИЕ СЛОВАРИ
  13. § 154. ОРФОГРАММА
  14. §3. Типы норм. Понятие речевой ошибки
  15. Орфографические ошибки.