Рукописные и старопечатные тексты: разработка программного комплекса для распознавания на основе технологий искусственного интеллекта и параллельных вычислений — Центр цифровой гуманитаристики Пермского университета

Адрес ресурса:
Период: 2009-2011
Источник финансирования: Грант РФФИ № 09-06-00254 а

Проектом предусматривается разработка, создание и апробация программного комплекса для распознавания рукописных и старопечатных текстовых исторических источников, их последующего сохранения в полнотекстовой базе информационной системы в формате электронного текста и создание экспериментального прототипа такой системы.

В соответствии с целями и задачами реализации проекта его осуществление в 2009 году проходило параллельно в двух основных направлениях: создание источниковой базы для достижения целей и решения задач проекта и разработка и создание программно-технологических компонентов системы распознавания.

Работа в первом направлении должна была обеспечить формирование комплекса исторических источников на основе цифровых версий рукописных и старопечатных книг XII – XVII вв. Эта задача осуществлялась путем поиска и организации информации об источниках и самих источников, их классификации, отбора источников и их текстовых фрагментов для постановки задач по созданию и экспериментальной проверке программно-технологических компонентов системы, представления отобранных источников и информации о них в цифровом формате. Для сохранения информации, манипулирования ею, разработки классификации была спроектирована и создана реляционная база данных.

Другим направлением работы над проектом стало создание программно-технологической основы для реализации системы, на данном этапе оно включало разработку оригинального параметризуемого алгоритма кластеризации и создание соответствующего инструмента; создание оригинального экспериментального прототипа многослойного персептрона для получения оптимальной архитектуры нейронной сети, предназначенной для распознавания рукописных и старопечатных книг, ориентированной на применение параллельных вычислений.

В ходе выполнения проекта в 2009 г. получены следующие результаты:

Комплекс исторических источников на основе рукописных и старопечатных книг, организованный в виде базы данных, содержащей библиографические, археографические и другие атрибуты.
Подходы и методы для типологизации и классификации изданий, шрифтов, алфавитов, систем записи. Метод фасетной классификации, реализованный с помощью реляционной базы данных и запросов к ней.
Классификация изданий, шрифтов, алфавитов, систем записи рукописных и старопечатных книг, ориентированная на задачи обучения нейронной сети и использование при распознавании.
Примеры для первичного обучения нейросети, максимально покрывающие разные типы изданий, шрифтов, алфавитов, способов записи и т.п.
Оригинальный параметризуемый алгоритм кластеризации, и инструмент для его реализации «Старопечатный кириллический символ». Документы для регистрации данного программного продукта.
Экспериментальный прототип многослойного персептрона с сигмоидальной функцией.
Анализ ресурсов Интернет, содержащих электронные версии рукописных и старопечатных кириллических изданий.
Опубликованные научные статьи, выступления на научных конференциях, семинарах.

Результаты первого этапа проекта подтвердили, что использование нейросетевого компонента в совокупности с рядом дополнений может стать хорошей основой для эффективного решения задач распознавания кириллических рукописных и старопечатных текстов.

Исследовательский коллектив

Публикации

Корниенко С.И., Айдаров Ю.Р., Гагарина Д.А., Черепанов Ф.М., Ясницкий Л.Н. Программный комплекс для распознавания рукописных и старопечатных текстов // Информационные ресурсы России. 2011. № 1. С. 35-37.
Корниенко С.И, Ясницкий Л.Н., Айдаров Ю.Р., Волгирева Г.П., Гагарина Д.А., Черепанов Ф.М. Программный комплекс для распознавания рукописных и старопечатных текстов // Информационный бюллетень Ассоциации "История и компьютер" № 36, октябрь 2010. Материалы XII конференции Ассоциации "История и компьютер". Издательство Московского университета. М., 2010. С. 52 - 53.
Корниенко С.И., Волгирева Г.П., Гагарина Д.А. База данных как средство фасетной классификации рукописных и старопечатных кириллических изданий // Информационные технологии и письменное наследие. Материалы Международной научной конференции, Уфа, 28 - 31 октября 2010 г.. Уфа, 2010. С. 121 - 125.
Айдаров Ю.Р., Корниенко С.И., Ясницкий Л.Н., Черепанов Ф.М. Применение алгоритмов пареметризуемой кластеризации для распознавания рукописных и старопечатных кириллических текстов // Информационный бюллетень Ассоциации "История и компьютер" № 36, октябрь 2010. Материалы XII конференции Ассоциации "История и компьютер". Издательство Московского университета. М., 2010. С. 49 - 50.
Айдаров Ю.Р., Волгирева Г.П., Гагарина Д.А., Корниенко С.И., Черепанов Ф.М., Ясницкий Л.Н. Интеллектуальная система распознавания рукописных и старопечатных текстов исторических источников // Искусственный интеллект: философия, методология, инновации. Материалы Пятой Всероссийской конференции студентов, аспирантов и молодых ученых. Г. Москва, МГТУ МИРЭА, 9-11 ноября 2011 г. Под ред. Д.И. Дубровского и Е.А. Никитиной. М.: "Радио и Связь", 2011. C. 115-118
Корниенко С.И., Черепанов Ф.М., Ясницкий Л.Н. Подсистема распознавания старопечатных текстов //Актуальные проблемы механики, математики, информатики (Всероссийская научно - практическая конференция. Сборник тезисов. Пермь, 12 - 15 октября 2010 г.). Пермь, 2010. С. 110.
Корниенко С.И., Ясницкий Л.Н., Айдаров Ю.Р., Черепанов Ф.М. Инструмент параметризуемой кластеризации "Старопечатных кириллический символ" // Информационные технологии и письменное наследие. Материалы Международной научной конференции, Уфа, 28 - 31 октября 2010 г. Уфа, 2010. С. 130 - 133.
Корниенко С.И., Ясницкий Л.Н., Айдаров Ю.Р., Волгирева Г.П., Гагарина Д.А., Черепанов Ф.М. Система распознавания рукописных и старопечатных кириллических текстов: модель и программно - технологические решения // Информационные технологии и письменное наследие. Материалы Международной научной конференции, Уфа, 28 - 31 октября 2010 г. Уфа, 2010. С. 126 - 129.

Смотреть другие проекты направления "Рукописные и старопечатные тексты: разработка программного комплекса для распознавания на основе технологий искусственного интеллекта и параллельных вычислений".