Проект М-31 СППР "Атом"

За последние 75 лет в процессе развития атомной энергетики РФ скопилось огромное количество знаний, стандартов, технологий и документации. Все эти знания на данный момент разрозненны и труднодоступны для молодых специалистов и инженеров в отрасли. Десятки тысяч документов доступны только в бумажном виде, ещё столько же в неиндексируемом, сложно каталогизируемом цифровом формате.


На данном этапе развития информационных технологий представляется возможность создания не просто библиотеки этих знаний, а реального помощника, который подскажет и покажет всю необходимую информацию при строительстве, эксплуатации и обслуживании объектов атомной энергетики. Также эти знания будут доступны и наглядны всем молодым специалистам для значительного повышения качества их профессиональной подготовки.


Цель данного проекта – оцифровка, индексирование и объединение всей документальной базы атомной отрасли РФ для значительного повышения качества координации между разными ведомствами и предприятиями. Помимо этого, она позволит снизить вероятности человеческой ошибки и задержек при обращении к архивной документации.


Предварительно, архитектура системы будет выглядеть следующим образом:

Краткая аннотация по функционалу узлов в приведённой схеме:

  • АРМ Оператора

  • Операторы будут оцифровывать, проверять и вносить правки в документы архива

  • АРМ Операторов будут находиться на территории архива предприятия

  • АРМ и КПК пользователей

  • Данные будут передаваться по зашифрованному каналу связи с применением алгоритмов, прописанных в ГОСТ Р 34.10-2012 с длиной ключа 256 или 512 бит;

  • Для КПК планируется разработка специального программного обеспечения (приложения) с поддержкой авторизации методами, прописываемыми в ТЗ (биометрия, смарт-карта, сертификат ЭЦП);

  • Back-end Сервер

  • Основная нагрузка по обработке данных будет полагаться на данный узел (индексирование документации, аудит безопасности, внесение правок в БД и т.д.);

  • По ходу разработки платформы данный узел будет разделён на функциональные блоки – при полномасштабной эксплуатации потребуется создание кластера серверов для распределения нагрузки и обеспечения отказоустойчивости;

  • Узел репликации и контроля версий БД

  • Будет распределён географически и логически, основной приоритет – отказоустойчивость и быстрое восстановление данных в случае аварии на основной БД

  • Сохранённые копии БД будут зашифрованы с применением алгоритмов, прописанных в ГОСТ Р34.10-2012 с длиной ключа 512 бит;

  • Вся сеть платформы при необходимости будет полностью закрыта от доступа к сети Интернет, детали степени защищённости будут проработаны в ТЗ

  • Вся платформа (кроме узлов репликации БД) будет находиться в ЦОД предприятия-заказчика.

Логическая архитектура обработки документов


Краткое описание процедуры опознания структуры и содержания документа:

  1. Файл отсканированного документа распознается при помощи OCR и сохраняется в формате plain text

  2. Сохранённый файл логически привязывается к отсканированному файлу в БД.

  3. Для повышения эффективности дальнейшей обработки документа, создается специальный файл, указывающий координаты каждого распознанного символа.

  4. Итого, при первичной обработке документа мы получаем три файла – скан, текст и метаданные.

  5. В БД создаётся уникальный идентификатор документа (УИД) и привязывается к полученным трём файлам.

  6. Отдельный обработчик производит расчёт контрольных сумм полученных файлов (хэш-функция) и вносит их БД как дополнительные идентификаторы файлов-оригиналов.

  7. Оператор проверяет качество оптического распознавания символов и отправляет документ в дальнейшую обработку

  8. Парсеры распознают в документе все заложенные параметры согласно их алгоритмам. Примеры распознаваемых и индексируемых метаданных – типы и бланки документов (принадлежность), даты и номера документов, фамилии должностных лиц, подписи и оттиски печатей/штампы, ключевые слова и устанавливаемые параметры (физические, режимные и правовые) и т.д.

  9. Оператору предоставляется полностью распознанный и индексированный документ (примерный образец):


5. Каждый цвет «слоя» представляет собой результат распознания отдельного парсера. Оператор проверяет соответствие всех распознанных данных и при необходимости вносит поправки и комментарии.


Краткое описание процесса индексации и поиска необходимой информации из БД:

  1. Индексация метаданных происходит с использованием метода латентно-семантического анализа данных (LSA);

  2. Помимо прямой индексации в системе предусмотрены отдельные парсеры (обработчики) данных, созданные с конкретной целью – формирование аннотации, словаря терминов, справочника и т.д.

  3. Индексированные данные становятся доступны для поисковых запросов от пользователей системы.