В России научили нейросети расшифровывать архивные документы с дореволюционной орфографией
Редакция портала «Русский мир»
25.01.2023
Специалисты «Яндекса» обучили нейросети распознавать рукописные архивные документы на русском языке с дореволюционной орфографией. В компании рассказали, что площадка, обладающая названными возможностями, уже доступна. На сервисе открыт доступ к миллионам страниц исторических документов с расшифровкой, сообщает РИА «Новости».
Особенностью архивных текстов, созданных со старой орфографией, является их сложность для расшифровки. В сервисе «Поиск по архивам» внедрена технология, базирующаяся на обученных нейросетях. Пользователи могут познакомиться с более чем двумя с половиной миллионов страниц архивных документов с расшифровкой.
Система способна распознавать особенности почерка, а также буквы, которые исчезли из современного русского языка в результате реформы. Кроме того, алгоритм осознаёт «особую структуру архивных документов».
Нейросеть проходила обучение на фрагментах из сотен тысяч рукописных строк, написанных в XVIII-XIX веках, и десятков миллионов сгенерированных примеров. В результате она получила способность распознать текст, непонятный человеку без специальных знаний и опыта чтения рукописей. Отмечается, что на расшифровку страницы исторического документа алгоритм тратит всего несколько секунд.