В данном кейсе необходимо разработать систему, которая, используя сканы первых и последних листов издания, способна определять, какие страницы содержат обложку, титульный лист, оборот титульного листа (страница с аннотациями, авторскими знаками, УДК) и страницу с выпускными данными (с информацией о подготовке, выпуске и печати книги). Система должна распознавать текст и визуальные элементы на каждой странице и присваивать каждой уникальный идентификатор, отражающий её тип.
Цель проекта
– Автоматическая идентификация страниц: разработать алгоритмы, позволяющие анализировать сканы страниц издания и определять их тип (обложка, титульный лист, оборот титульного листа, страница с выпускными данными).
– Присвоение меток: обеспечить автоматическое присвоение уникальных идентификаторов каждой странице для последующей обработки.
– Точность распознавания: использовать сочетание OCR и методов компьютерного зрения для высокой точности классификации страниц.
– Интеграция с базой данных: организовать хранение сканов и результатов идентификации, а также возможность экспорта данных.
– Масштабируемость: обеспечить обработку большого количества сканов с минимальными задержками.