Нейросеть Яндекса расшифровала более 10 млн страниц исторических документов в Поиске по архивам

Ровно год назад Яндекс запустил сервис Яндекс Поиск по архивам, который помогает находить информацию об исторических событиях и личностях. И сейчас компания поделилась результатами работы сервиса за первый год:

  • С момента запуска сервиса пользователи просмотрели расшифрованные нейросетью документы более 20 миллионов раз.
  • Первым партнером Поиска по архивам стал Главархив Москвы. На предоставленных им текстах нейросеть обучалась расшифровывать устаревшие символы и рукописи. Сейчас в базу Поиска по архивам загружено более 5,4 миллиона страниц исторических материалов из Главархива Москвы.
  • Сейчас в Поиске по архивам есть документы из архивов 11 регионов, в том числе Москвы, Московской, Оренбургской, Новгородской, Иркутской, Астраханской и других областей.
  • За год работы нейросеть распознала более 60 тысяч рукописных и печатных текстов середины XVIII – начала XX веков: это более 10 миллионов страниц или 492 миллиона строк.
  • В сервисе собраны 3,6 миллиона оцифрованных страниц периодических изданий, таких как «Советский спорт», «Вечерняя Москва» и епархиальные ведомости.

Технология расшифровки в Поиске по архивам основана на оптическом распознавании символов. Нейросеть узнает утратившие актуальность знаки (например, исчезнувшие из алфавита буквы), учитывает особенности почерка и за несколько секунд преобразует трудночитаемые записи в печатный текст. Для работы с версткой газетных страниц нейросеть специально адаптировали: она научилась распознавать текст на огромных полосах, набранный мелким шрифтом на бумаге низкой плотности.

Напомним, Максим Ильяхов стал амбассадором сервиса Яндекса для краткого пересказа видео и текстов.

Источник: Пресс-релиз

Adblock test (Why?)

Read More

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *