Неверная сегментация.
Цепочка, подаваемая на вход естественноязыкового интерфейса, сегментируется на слова с помощью пробелов и знаков препинания. Оба типа сегментных показателей, особенно второй, могут быть ошибочно пропущены или ошибочно вставлены.
Неверная сегментация на лексическом уровне приводит к тому, что два или более слов пишутся слитно, как в runtogether ‘действовать вместе’; одно слово расщепляется на два (и более) сегмента, как в tog ether ‘вместе’ или (что особенно неприятно) to get her [8]; могут, наконец, присутствовать оба варианта, как в runto geth er.Во всех этих случаях ошибки могут быть устранены на основе дальнейшего развития механизма исправления орфографических ошибок, с тем чтобы в начальных сегментах незнакомых слов он мог распознавать ожидаемые слова, и наоборот. Например, исправляя орфографическую ошибку в сегменте portdisks с учетом требований к занимаемой им позиции в цепочке
Add two dual portdisks to the order
‘Добавьте к заказу два диска с двойными портами’,
мы должны уметь распознать начальный сегмент port как ожидаемое слово, а оставшийся сегмент disks оставить во входной цепочке после исправленного слова для дальнейшей обработки, которая и приведет к правильному результату. Далее, в цепочке
Add two dual port disks to the ord er
не поддающееся распознаванию (и исправлению) слово ег, следующее за словом ord, распознанным в качестве начальной части слова, должно побудить систему к попытке присоединить незнакомое слово к концу предыдущего сокращения и посмотреть, не дополняет ли оно данное сокращение до полного слова. Исправление ошибки в цепочке
Add two du alport disks to the order будет несколько сложнее. После того как вышеуказанные методы преодоления ошибок приведут к неудаче, от второго нераспознанного слова (alport) будут по очереди отсекаться начальные буквы и присоединяться к концу первого нераспознанного слова (du). Этот процесс приведет к успеху лишь в том случае, если на каком-то шаге оба слова окажутся распознаваемыми и обработка сможет быть продолжена. Между двумя незнакомыми словами следует также попробовать перемещать границу (пробел) как назад, так и вперед, пока оба слова не окажутся распознаваемыми. Конечно, сочетание нескольких лексических отклонений (например, наличие в одном и том же сегменте орфографических ошибок, слитно написанных или, наоборот, расщепленных слов) требует применения неэффективных комбинаторных стратегий преодоления ошибок. Использование анализатором сильных предсказаний может частично облегчить решение этой проблемы, однако на практике для преодоления сочетаний нескольких ошибок потребуется компромисс между гибкостью и эффективностью.