За последние 75 лет в процессе развития атомной энергетики РФ скопилось огромное количество знаний, стандартов, технологий и документации. Все эти знания на данный момент разрозненны и труднодоступны для молодых специалистов и инженеров в отрасли. Десятки тысяч документов доступны только в бумажном виде, ещё столько же в неиндексируемом, сложно каталогизируемом цифровом формате.
На данном этапе развития информационных технологий представляется возможность создания не просто библиотеки этих знаний, а реального помощника, который подскажет и покажет всю необходимую информацию при строительстве, эксплуатации и обслуживании объектов атомной энергетики. Также эти знания будут доступны и наглядны всем молодым специалистам для значительного повышения качества их профессиональной подготовки.
Цель данного проекта – оцифровка, индексирование и объединение всей документальной базы атомной отрасли РФ для значительного повышения качества координации между разными ведомствами и предприятиями. Помимо этого, она позволит снизить вероятности человеческой ошибки и задержек при обращении к архивной документации.
Предварительно, архитектура системы будет выглядеть следующим образом:

Краткая аннотация по функционалу узлов в приведённой схеме:
АРМ Оператора
Операторы будут оцифровывать, проверять и вносить правки в документы архива
АРМ Операторов будут находиться на территории архива предприятия
АРМ и КПК пользователей
Данные будут передаваться по зашифрованному каналу связи с применением алгоритмов, прописанных в ГОСТ Р 34.10-2012 с длиной ключа 256 или 512 бит;
Для КПК планируется разработка специального программного обеспечения (приложения) с поддержкой авторизации методами, прописываемыми в ТЗ (биометрия, смарт-карта, сертификат ЭЦП);
Back-end Сервер
Основная нагрузка по обработке данных будет полагаться на данный узел (индексирование документации, аудит безопасности, внесение правок в БД и т.д.);
По ходу разработки платформы данный узел будет разделён на функциональные блоки – при полномасштабной эксплуатации потребуется создание кластера серверов для распределения нагрузки и обеспечения отказоустойчивости;
Узел репликации и контроля версий БД
Будет распределён географически и логически, основной приоритет – отказоустойчивость и быстрое восстановление данных в случае аварии на основной БД
Сохранённые копии БД будут зашифрованы с применением алгоритмов, прописанных в ГОСТ Р34.10-2012 с длиной ключа 512 бит;
Вся сеть платформы при необходимости будет полностью закрыта от доступа к сети Интернет, детали степени защищённости будут проработаны в ТЗ
Вся платформа (кроме узлов репликации БД) будет находиться в ЦОД предприятия-заказчика.
Логическая архитектура обработки документов

Краткое описание процедуры опознания структуры и содержания документа:
Файл отсканированного документа распознается при помощи OCR и сохраняется в формате plain text
Сохранённый файл логически привязывается к отсканированному файлу в БД.
Для повышения эффективности дальнейшей обработки документа, создается специальный файл, указывающий координаты каждого распознанного символа.
Итого, при первичной обработке документа мы получаем три файла – скан, текст и метаданные.
В БД создаётся уникальный идентификатор документа (УИД) и привязывается к полученным трём файлам.
Отдельный обработчик производит расчёт контрольных сумм полученных файлов (хэш-функция) и вносит их БД как дополнительные идентификаторы файлов-оригиналов.
Оператор проверяет качество оптического распознавания символов и отправляет документ в дальнейшую обработку
Парсеры распознают в документе все заложенные параметры согласно их алгоритмам. Примеры распознаваемых и индексируемых метаданных – типы и бланки документов (принадлежность), даты и номера документов, фамилии должностных лиц, подписи и оттиски печатей/штампы, ключевые слова и устанавливаемые параметры (физические, режимные и правовые) и т.д.
Оператору предоставляется полностью распознанный и индексированный документ (примерный образец):

5. Каждый цвет «слоя» представляет собой результат распознания отдельного парсера. Оператор проверяет соответствие всех распознанных данных и при необходимости вносит поправки и комментарии.
Краткое описание процесса индексации и поиска необходимой информации из БД:
Индексация метаданных происходит с использованием метода латентно-семантического анализа данных (LSA);
Помимо прямой индексации в системе предусмотрены отдельные парсеры (обработчики) данных, созданные с конкретной целью – формирование аннотации, словаря терминов, справочника и т.д.
Индексированные данные становятся доступны для поисковых запросов от пользователей системы.