Среда, 15 мая 2024

01 февраля 2023
Мария Клапатнюк

Новгородские архивные документы XVII—XIX веков прочитает нейросеть

Эксперты также помогали алгоритмам учиться распознавать рукописные тексты и следили за качеством расшифровки.

Фотография ©: из архива проекта «Поиск по архивам»

Столичный Главархив совместно с «Яндексом» разработали платформу «Поиск по архивам». Нейросеть распознает рукописные тексты в документах XVII—XIX веков и переводит их в цифровой формат.

Как сообщает паблик Гуманитарного института НовГУ, пока доступно 2,5 млн страниц метрических книг с текстовой расшифровкой из Главархива Москвы, а также архивов Оренбургской и Новгородской областей. В дальнейшем количество фондов и источников будет расти.

— Сервис существенно экономит время в составлении генеалогического древа. Для сравнения: расшифровка страницы рукописного текста у профессионала займёт до получаса, нейросеть же справится за несколько секунд, —говорится в сообществе. – К тому же на платформе «Поиск по архивам» есть фильтры по годам, архивам, фондам и описям. Неочевидный плюс технологии состоит ещё и в минимизации выдачи оригиналов документов, это спасает их от быстрого обветшания.

Нейросеть обучалась на сотнях тысяч рукописных строк из реальных текстов XVIII—XIX веков и десятках миллионов сгенерированных примеров. В основу проекта лёг сервис Главархива «Моя семья». 

Эксперты также помогали алгоритмам учиться распознавать рукописные тексты и следили за качеством расшифровки.

Теги: Новгородская область, Яндекс, Поиск по архивам, технологии, наука, проект