Предобработка и загрузка данных из файлов Office Open XML


Введение

Для проведения ранжирования технических устройств и нефтеперерабатывающего оборудования необходимо производить вычисления над большим количеством технических параметров. Такие данные чаще всего могут храниться в виде наборов таблиц в текстовых файлах - отчетах о ранжировании и аудите технических устройств. Для работы с ними необходимо каким-либо образом выгружать указанные данные из отчетов и записывать в базу данных.

Для заполнения базы данных из отчетов о ранжировании и аудите ТУ “Лабораторией бизнес-аналитики “Билаб” был разработан модуль предобработки и загрузки данных. Данные, полученные из отчетов о проведении аудита и ранжирования технических устройств сохраняются в базе данных как данные для проведения процедуры ранжирования.

Модуль разгруки данных

Алгоритм работы

Для получения данных из отчетов производится их предварительная обработка, таким образом, чтобы каждая строка таблиц исходного отчета содержала данные только об одном ТУ. При этом для каждой из таблиц был разработан шаблон, по которому в ней хранятся те или иные данные, для того, чтобы определять их принадлежность.

Алгоритм работы модуля загрузки данных

При добавлении сведений в базу данных необходимо учитывать, что данные из разных исходных таблиц могут принадлежать одному техническому устройству. По этой причине при загрузке данных необходимо идентифицировать загружаемое устройство и сопоставлять с имеющимися, чтобы избежать их дублирования в базе данных.

Использование шаблонов

Для случаев, когда количество и содержимое файлов для выгрузки данных постоянно изменяется, необходимо иметь возможность быстро и удобно обновлять шаблоны, согласно которым производится считывание данных.

Для хранения шаблонов подходит формат XML (eXtensible Markup Language). Такой шаблон содержит в себе информацию о таблицах, расположенных в исходном файле, данные о том, как эти таблицы расположены и какие данные в них находятся. У данного способа хранения шаблонов есть минус - файлы с ними могут быть достаточно объемными, из-за чего их неудобно редактировать вручную. Для этого “Лабораторией бизнес-аналитики “Билаб” была разработана программная утилита, позволяющая настраивать описанные шаблоны с помощью графического интерфейса.

Модуль загрузки данных с использованием шаблонов

Заключение

Таким образом, разработанный модуль предобработки и загрузки данных позволяет отказаться от использования ручного труда сотрудников для заполнения базы данных, в несколько раз сокращая временные и денежные затраты.