Исаева Л.В. г
Учебные материалы


Исаева Л.В. г



Карта сайта protectbodys.com

ТЕХНОЛОГИЯ ИМПОРТА ДАННЫХ ОБ УСПЕВАЕМОСТИ СТУДЕНТОВ С БУМАЖНЫХ НОСИТЕЛЕЙ В АВТОМАТИЗИРОВАННУЮ ИНФОРМАЦИОННУЮ СИСТЕМУ «УНИВЕРСИТЕТ»


Исаева Л.В.
г. Иркутск (Иркутский государственный технический университет)
Рассмотрена процедура экспорта данных об успеваемости студентов с бумажных носителей в автоматизированную информационную систему «Университет», которая включает процесс сканирования документов, их распознавание и запись распознанных данных на сервер.

Введение.

В Иркутском государственном техническом университете функционирует автоматизированная информационная система «Университет» (далее АИС «Университет»), разработанная Управлением информационных систем и технологий. В рамках данной АИС ведется разработка информационно-аналитической системы мониторинга успеваемости студентов [1]. Система включает три программных компонента: «Учебный отдел» для работы с учебными планами и анализа успеваемости студентов, «Деканат» для печати ведомостей, «Центр» для ввода итогов контроля студентов с экзаменационных ведомостей. Также система позволяет получать различные аналитические отчеты. Для автоматизации ввода информации с бумажных носителей предложено использовать сканирование ведомостей с последующим распознаванием и занесением в базу данных. Для этих целей используется специализированное средство компании ABBYY – FormReader 6.0 Desktop Edition [2].
После этапов сканирования, распознавания и верификации (проверка неуверенно распознанных символов) распознанные данные можно экспортировать:

  • в файл (поддерживаются форматы CSV, DBF, TXT, XLS, XML);

  • в базу данных (через OLE DB Provider for ODBC Drivers).

Данные в АИС «Университет» хранятся на Microsoft SQL Server 2000. В этом случае проще и удобнее сразу экспортировать данные на сервер. Однако в результате тестирования программы FormReader были обнаружены ошибки экспорта данных на сервер (неправильные ссылки между связанными таблицами), о чем было сообщено в компанию ABBYY. Поэтому процедура экспорта разбивается на две составляющие:

  • из программы FormReader в файл,

  • из файла на сервер.

Таким образом, целью работы является организация двухэтапного экспорта данных из программы FormReader на Microsoft SQL Server 2000.

Разработка машиночитаемых форм и шаблонов документов.

Формой называется документ, имеющий фиксированную структуру и предназначенный для сбора определенной информации. Основные признаки формы – наличие четко обособленных полей, пояснительных надписей, а также ряда служебных элементов.
При заполнении формы вся значимая информация заносится в поля – особым образом разграфленные ячейки. Именно эта информация подлежит дальнейшей обработке. Формы, в которых определение положения полей и отделение данных от разметки может быть выполнено автоматически с помощью программных средств, называют машиночитаемыми. Использование в формах меток позволяет упростить заполнение форм и значительно повысить качество распознавания, вплоть до 99,9% (по данным компании ABBYY [3]).
Выделяют два основных вида форм: структурированные и гибкие. К структурированным относят формы, поля которых не меняют размеры и взаимное расположение. Все остальные формы считаются гибкими.
Экзаменационные ведомости и листы – это основные документы, которые используются для выставления результатов успеваемости студентов в ИрГТУ. На сегодняшний день эти документы не являются машиночитаемыми. Напротив каждой фамилии пишется цифра (в случае экзамена или курсовой работы) или текст (в случае зачета). В данном виде сканирование ведомости приведет к большому количеству ошибок, поэтому с помощью FormDesigner, входящего в пакет FormReader 6.0, автором были разработаны структурированные формы, отвечающие требованиям машиночитаемости (рис.1-2). На этих ведомостях нужно только поставить отметку (галочку, крестик) в соответствующей графе и написать итоговые суммы по результатам.
Рис. 1. Форма экзаменационной ведомости.
Для нахождения информации на структурированной форме рисуется её подобие – шаблон, который можно накладывать на поступающие изображения заполненных форм. Таким образом, поля для распознавания «вырезаются» из изображения, после чего буквы и цифры в этих полях распознаются.
Также в шаблонах можно настроить тип данных распознаваемых полей и различные правила проверки. Правила – это некоторые условия, накладываемые на данные в полях и автоматически проверяемые программой. С помощью языка JScript было реализовано правило для шаблона экзаменационной ведомости, которое сравнивает количество отмеченных клеток в таблице с цифрой, написанной в итоге. Если обнаружено несовпадение, то выдается сообщение об ошибке. Также в этих шаблонах настроено правило, по которому проверяется, что в одной строке не более одной отметки.
При печати ведомостей и листов в компоненте «Деканат» отслеживается их «актуальность», то есть при печати нового документа у более старого ставится соответствующая отметка.
Рис. 2. Форма экзаменационного листа.

^ Экспорт данных в файлы формата XML.

Как уже отмечалось ранее, пакет FormReader способен производить экспорт отсканированных документов в файлы различных форматов (CSV, DBF, TXT, XLS, XML), среди которых XML представляет особый интерес, так как именно этот формат позволяет представить любой документ в структурированном виде, а также придать ему семантическую нагрузку. Преобразовав документ в представление XML, можно беспрепятственно работать с ним дальше или конвертировать в любой необходимый внешний формат.
В шаблоне документа были заданы области для распознавания, каждая область имеет свое имя – именно эти названия являются основой файла XML. В системе FormReader можно настроить параметры экспорта, указав детализацию выгружаемых данных и путь для сохранения полученных файлов. При наименьшей детализации в файл сначала записываются итоговые цифры и штрихкод ведомости, затем строки таблицы. В одном XML-файле может быть несколько отсканированных документов, что является существенным преимуществом перед другими возможными форматами файлов экспорта, которые ко всему прочему не могут быть импортированы в SQL Server 2000 «как есть» в силу ряда объективных причин.
Пример результата экспорта из FormReader в XML-документ приведен ниже:
 

-


-


-


 

6


 

4


 

3


 

2


 

1


 

0012345678905


-


 

3050102


 

false


 

true


 

false


 

false


 

false


 

+


 
 

+


 
Поскольку XML-файл генерируется программным обеспечением автоматически, то можно быть уверенным в его заведомо правильной структуре. Таким образом, разработка и использование DTD (Document Type Definition) или XML-схем является в данном случае не целесообразным.

^ Преобразование и экспорт данных XML-документов на SQL Server 2000.

В основе всех преобразований лежит технология XSLT (eXtensible Stylesheet Language for Transformations) [4]. Эта технология описывает правила построения конечного дерева XML-документа на основе другого исходного XML-дерева, однако результатом преобразования может быть не обязательно XML-документ, а любой текстовый файл. Преобразование строится путем сопоставления образцов (сравнивается с элементами исходного документа) и шаблонов (используется для создания частей конечного документа). Преобразование, выраженное через XSLT, называется стилем (stylesheet) [5].
Для организации правильной проверки записи данных на сервер целесообразно записать данные из файлов формата XML во временную таблицу, а уже из неё в соответствии с различными проверками записывать данные в основные таблицы.
Таким образом, экспорт данных на сервер разбивается на этапы:

  • формирование пакета запросов к базе данных (с помощью XSLT) для записи данных во временную таблицу;

  • запись данных из временной таблицы в основные (с учетом различных проверок).

Временная таблица «examved» имеет структуру, представленную в таблице 1.
Таблица 1 – Структура временной таблицы

Наименование поля

Описание

Тип данных

id

Код

pk (int)

barcode

Штрих-код

varchar (15)

nstud

Номер студента

varchar (5)

result

Результат

int

С помощью разработанного автором стиля XSLT преобразуем XML-документы в файлы формата TXT, которые содержат текст запросов к базе данных. Пример результата преобразования приведен ниже:
insert into examved (barcode, nstud, result) values (0012345678905,1,4);
insert into examved (barcode, nstud, result) values (0012345678905,2,5);
insert into examved (barcode, nstud, result) values (0012345678905,3,5);
insert into examved (barcode, nstud, result) values (0012345678905,4,3);

Номер студента определяется по порядку расположения записей в таблице, результат определяется исходя из размещения значения «true» в ячейках таблицы. Этой информации достаточно, так как по штрих-коду ведомости можно узнать всю дополнительные сведения, касающиеся списка студентов, дисциплины и т.д. При осуществлении записи данных из временной таблицы в основные производится контроль данных:

  • студент может сдавать дисциплину во второй раз, тогда ставится соответствующая отметка у более старой записи,

  • может быть подана на распознавание «устаревшая» ведомость, тогда выдается сообщение о невозможности записи данных.

Всю схему получения данных из экзаменационных ведомостей и записи их на SQL Server можно представить в виде схемы, представленной на рис.3.
Рис. 3. Схема получения данных из экзаменационных ведомостей.
Все функции экспорта данных реализуются в программном компоненте АИС «Университет» «Центр». При этом оператору необходимо выполнить следующие операции:

  • нажать кнопку «Экспорт» в системе FormReader,

  • зайти в программный модуль «Центр» и вызвать функцию «Импорт данных в систему»;

  • просмотреть результаты.

Заключение.

В результате тестирования программы FormReader были обнаружены ошибки экспорта распознанных данных на SQL Server 2000. В связи с этим автором предложена двухэтапная процедура экспорта данных:

    • из системы FormReader в файлы формата XML,

    • из файлов формата XML на SQL Server.

Разработаны машиночитаемые формы документов и соответствующие им шаблоны для распознавания. Реализован стиль XSLT для преобразования файлов формата XML в SQL-запросы для записи данных во временную таблицу на сервере. Разработана функция записи данных из временной таблицы в основные (с учетом различных проверок).
На основании полученных данных строятся различные аналитические отчеты.
ЛИТЕРАТУРА

  1. Исаева Л.В. Информационно-аналитическая система мониторинга успеваемости студентов. // Труды XIII Байкальской Всероссийской конференции «Информационные и математические технологии в науке и управлении». Часть II. – Иркутск: ИСЭМ СО РАН, 2008, с.303-308.

  2. ABBYY FormReader

http://www.abbyy.ru/formreader/

  1. Автоматизация ввода форм

http://www.abbyy.ru/products/handprint/WP_form_processing_65.pdf

  1. XSL Transformations (XSLT)

http://www.w3.org/TR/1999/REC-xslt-19991116

  1. Фартышев Д.А. Разработка мультиагентной распределенной интеллектуальной информационной системы для исследований энергетики с использованием репозитария. // Труды XIII Байкальской Всероссийской конференции «Информационные и математические технологии в науке и управлении». Часть II. – Иркутск: ИСЭМ СО РАН, 2008, с.248-254.



edu 2018 год. Все права принадлежат их авторам! Главная