<<
>>

2.4. Методика распознавания рукопечатных форм'  

Несмотря на длительную историю, проблема автоматического ввода текстовой информации (результатов заполнения опросных карт экспертизы) не потеряла своей актуальности. Объемы обрабатываемых на предприятиях и в организациях текстовых, в том числе рукопечатных, документов постоянно увеличиваются, а существующие системы машинного чтения удовлетворительно работают лишь с печатными документами хорошего качества.

Одним из самых эффективных методов повышения точности распознавания является одновременное использование нескольких различных распознающих модулей и последующее объединение полученных результатов.

При этом очень важно, чтобы алгоритмы, используемые этими модулями, были как можно более независимыми. Это может быть достигнуто как за счет использования распознающих модулей, • использующих принципиально различные алгоритмы распознавания, так и специальным подбором обучающих данных, а также за счет использования баз данных (БД), соответствующих конкретным предметным областям.

78

В работе предлагается система распознавания, реализующая следующие основные принципы:

•              многоуровневая система распознавания, уровни которой

различаются по * трудоемкости и времени распознавания, с

возможностью осуществления запроса на поиск по базе данных с

альтернативной информацией на каждом этапе распознавания и

прекращения текущего процесса распознавания при удачном поиске по

БД;

  • использование специально созданных и пополняемых в процессе эксплуатации БД относительно части или всех полей рукопечатной формы, содержащих точную однозначную и альтернативную многозначную информацию;
  • применение открытой системы распознавания на основе нейронных сетей с возможностью переобучения и адаптации в конкретной области.

'              Предположим, что в системе РРФ заложены N методов (алгоритмов)

распознавания: Mi,...,MN, отличающиеся следующими показателями: сложностью алгоритмов, временем обработки, глубиной обработки и упорядоченные в порядке возрастания указанных показаний.

Грубо говоря,

!              методы распознавания  в системе РРФ упорядочиваются по уменьшению

скорости.

В процессе распознавания полей формы на вход системы подаются рукопечатные символы. На первом уровне с помощью самого быстрого (и соответственно самого простого) алгоритма Mi определяется принадлежность входных символов к одному из известных классов. Затем по определенным классам выполняют поиск по соответствующему альтернативному ключевому полю в БД. Если удается найти уникальную запись, то результатом распознавания принимается значение точного поля, и на этом процесс распознавания прекращается. В противном случае, когда не удается  найти  уникальную  запись  или  найдется  несколько  записей,  то

« і

79

результаты распознавания передаются на второй уровень. Здесь с помощью более «тонких» методов и алгоритмов делается попытка точно определить символы внутри класса и, как и в предыдущем уровне, выполняется поиск в БД по распознанным символам, но по другому альтернативному ключевому полю, соответствующему этому уровню. Если опять не удается найти нужную запись, то результаты распознавания передаются на следующие уровни более глубокой» обработки и т.д.

В последнем уровне, если поиск не дает результатов, то поле формы отмечается как нераспознанное и нуждающееся в ручной проверке со стороны оператора, а процесс распознавания прекращается (рис.2.П.). Очевидно, что эффективность всей системы РРФ будет существенно зависеть от полноты БД, которая может пополняться для конкретной предметной области.

Преимущество предлагаемого подхода заключается в том, что при распознавании полей формы со справочными данными значение поляlt; определяется не распознаванием всех символов, а чаще всего, определением всего лишь нескольких, достаточных для однозначного определения значения поля по справочной базе. Особенностью этого метода является и то, что использование справочной базы и нахождение нужного значения возможно уже на первом уровне распознавания при неточной информации о распознаваемом поле.

Конечно, важное значение приобретает содержание самой, БД'* относительно полей формы, в которой одному точному образу могут быть поставлены в * соответствие различные многозначные прообразы, построенные по ассоциативному принципу.

При построении многоуровневой системы, в процессе распознавания внутри кластера целесообразно использовать не все изображения символа, а только наиболее информативные области (ИО) каждого кластера. При разработке систем распознавания огромное значение имеет выбор алгоритма выделения признаков. В работе предлагается метод выделения признаков, полученных в результате скелетизации изображения символов.

80

Структура многоуровневой системы распознавания рукопечатных форм

Метод М |

Поиск но БЗ

Успешный поиск-

Неуспешный поиск

Метод М2

Поиск по БЗ

Успешный поиск

Неуспешный поиск

Метод Мп

Поиск по БЗ

Успешный поиск

Неуспешный поиск

Неуверенное

распознавание

ноля

Успешное

распознавание

поля

Рис.   2.11.

Алгоритм построения скелета или алгоритм «утонынения» представляет собой итеративный процесс. На каждой итерации последовательно просматриваются все точки изображения, и те из них, которые принадлежат границе области черных точек, удаляются, т.е. помечаются как 0 (рис.2.12.). Исключение составляют точки, нарушающие 8-связность области черных точек и концы линий толщиной в одну точку. Процесс заканчивается, если на некоторой итерации не удалось удалить ни одной точки.

Решение об удалении той или иной точки принимается на основе значений соседних точек, т.е. изображение сканируется окном 3x3. Существует несколько вариаций критерия удаления точки р; здесь мы рассмотрим один из наиболее используемых критериев.

Пронумеруем соседние точки, как показано на рис.2.13.  и обозначим множество всех

81 соседей X], х2, хз, X4, Х5, Хб, Х7, х8 как N(p). Количество черных точек в N(p) обозначим как Ь(р).

Итеративный процесс построения скелета

mm

ът

Рис.   2.12.

Сканированное окно

Х6

Х7

Х8

Х5

Р

XI

Х4

ХЗ

Х2

Рис.   2.13.

Для удаления точки необходимо выполнение следующих условий.

•              Точка принадлежит границе области единичных точек, что

равносильно условию - среди 4-связных соседей есть белые точки. Данное

условие можно записать как:

х,х3х5Х7 = 0              (2-64)

•              Удаление точки не нарушает 8-связность области, что равносильно

условию - количество 8-связных областей черных точек в N(p) равно 1.

Данное условие можно записать как:

?(х2и-х2Мх2іх2і+І)=1              (2.65)

  • Точка не является концом линии черных точек. Данное условие можно записать как Ь(р)gt;1.
  • Для предотвращения «разрушения» области черных точек белыми точками необходимо также условие Ь(р)lt;7.

82

После построения скелета обычно требуется дополнительная предобработка:

  • выделение цепей по полученному скелету;
  • аппроксимация цепей;
  • удаление случайных отростков.

Кратко опишем признаки, используемые при распознавании по полученному скелетному представлению.

Для каждой особой точки скелетного представления вычисляются следующие топологические признаки:
  • нормированные координаты особой точки (вершины графа);
  • длина ребра»до следующей вершины в процентах от длины всего графа;
  • нормированное направление из данной точки на следующую особую точку;
  • нормированное направление входа в точку,' выхода из точки (для триодов эти значения различаются, для точек индекса 1 совпадают с точностью до знака);
  • кривизна дуги, точнее «левая» и «правая» кривизна дуги, соединяющей особую точку со следующей вершиной (кривизна слева и справа).

На рис.2.14. условно показаны некоторые из топологических признаков. Граф имеет 4 особые точки - аО, al, а2, аЗ. При обходе графа по маршруту аО—»al—gt;а2—gt;... в вершине al условно показаны следующие признаки: вектор rl - направление входа в точку, вектор г2 — направление выхода из точки, гЗ - глобальное направление на следующую особую точку. Двунаправленный вектор h показывает величину «левого» отклонения дуги (al,a2) от прямой; «правое» отклонение равно нулю.


83 Примеры скелетных признаков

Рис.   2.14.

Как видно из приведенного описания, число признаков равняется восьмикратному числу вершин. Оно различается для разных топологических кодов, и признаки с одинаковым номером для разных топологических кодов могут иметь разный смысл. Для некоторых кодов число особых точек и, соответственно, число топологических признаков слишком мало. Так, для кода, соответствующего символу «О», топологических признаков вообще нет, т.к. нет ни одной особой точки. Поэтому могут вычисляться и использоваться следующие дополнительные признаки:

  • размеры и положение компонент и дыр;
  • «черная» и «белая» ширина верхней половины символа;
  • модифицированные прямые прогибы (прогибы вычисляются как расстояния от точек скелетного представления до выпуклой оболочки построенного представления).

Дополнительно запоминается положение точек максимального прогиба.

Для некоторых топологических кодов число топологических признаков может быть достаточно велико, что может потребовать слишком большого набора эталонов для обучения, поэтому в ряде случаев в распознавании используется часть признаков.

На основе принципов и подходов, описанных выше, была разработана двухуровневая   система   РРФ.   Надежность   распознавания   и   потребность

84

программы в вычислительных ресурсах во многом зависят от выбора структуры и параметров нейронной, сети. В качестве аппарата распознавания в системе использовались двухслойные полносвязные искусственные нейронные сети (НС). Поступающие на распознавание изображения символов преобразуются к единому-размеру 32x32 пикселей. Отличительной чертой реализованного алгоритма является использование нейронной сети с достаточно большим числом входных признаков. Из. исходного изображения выделяются. 2312 первичных признаков. В набор распознаваемых символов' входят буквы вьетнамского алфавита и цифры (всего 40 символов). НС имеет один внутренний уровень, содержащий 100 узлов и является полносвязанной, т.е. каждый узел внутреннего уровня соединен со всеми входными узлами, а каждый узел верхнего уровня соединен со всеми узлами внутреннего уровня. Таким образом, НС имеет более 200 тысяч весов. Для уменьшения объема вычислений при распознавании для каждого распознаваемого изображения-символа-используются не все входные признаки, а только-часть, т.е. вектор входных параметров НС является сильно разреженным.

Таблица      2.3.

Результаты распознавания рукописных символов

Распознано-

Отклонено

Ошибка

МСР

93,0%

4,6%

2,4%

ОСР

90,6%

6,6%

2,8%-

FineReader 4.0 Handprint

84,0%

12,6%

3,4%

Таблица      2.4. Результаты распознавания рукопечатных форм,1

Распознано

Отклонено

Ошибка

Расп. полей

Расп. форм

ОС

83,0%

12,3%

4,7%

53,7%

0%

ОС с БД

96,6%

2,1%

1,3%

87,4%

40%

85

Обучение НС происходит с помощью алгоритма обратного распространения ошибки. Программа обучения получает на вход файл с изображениями символов. Модификация весов сети при обучении производится после каждого символа. Шаг изменения весов, сети постоянный. Обучение было проведено на наборе из 7300 символов, тестирование на наборе из 2000 символов.

В таблицах 2.3. и 2.4. приведены сравнительные результаты распознавания одноуровневой (ОСР) и многоуровневой (МСР) системы распознавания с FineReader Handprint на символах английского алфавита, а также результаты распознавания рукопечатных форм вьетнамского языка для ОСР и МСР с использованием и без использования БД. В результате экспериментов было выявлено, что разработанная многоуровневая система имеет более высокие показатели распознавания.

 

<< | >>
Источник: ПАРШИН ДМИТРИЙ АЛЕКСАНДРОВИЧ. АВТОМАТИЗАЦИЯ СИСТЕМЫ ЭКСПЕРТНОГО ОЦЕНИВАНИЯ КАЧЕСТВА ТЕХНОЛОГИЧЕСКИХ ПРОЦЕССОВ В НЕПРЕРЫВНОМ ПРОИЗВОДСТВЕННОМ ЦИКЛЕ ПРОМЫШЛЕННЫХПРЕДПРИЯТИЙ.  ДИССЕРТАЦИЯна соискание ученой степени кандидата технических наук.Москва - 2008. 2008

Еще по теме 2.4. Методика распознавания рукопечатных форм'  :