Исследователи разработали автоматическое распознавание текста для древних клинописных табличек 


Фото из открытых источников
Новое программное обеспечение искусственного интеллекта теперь способно расшифровывать трудные для чтения тексты на клинописных табличках практически в одно мгновение. Вместо фотографий система искусственного интеллекта использует 3D-модели планшетов, обеспечивая значительно более надежные результаты, чем предыдущие методы. Это позволяет выполнять поиск по содержимому нескольких планшетов и сравнивать их друг с другом. Это также открывает путь к совершенно новым исследовательским вопросам.
 
В своем новом подходе исследовательская группа из Университета Мартина Лютера в Галле-Виттенберге (MLU), Университета Йоханнеса Гутенберга в Майнце и Университета прикладных наук Майнца использовала 3D-модели почти 2000 клинописных табличек, в том числе около 50 из коллекции MLU. По оценкам, во всем мире до сих пор существует около миллиона таких планшетов. Многим из них более 5000 лет, и поэтому они являются одними из старейших сохранившихся письменных источников человечества.
 
Они охватывают чрезвычайно широкий спектр тем. «На них можно найти все: от списков покупок до судебных решений. Таблички позволяют заглянуть в прошлое человечества, произошедшее несколько тысячелетий назад. Однако они сильно обветшали, и поэтому их трудно расшифровать даже тренированному глазу», — говорит Хуберт Мара, помощник профессор MLU.
 
Это связано с тем, что клинописные таблички представляют собой необожженные куски глины, на которых были вдавлены письмена. Ситуация усложнялась тем, что система письма в то время была очень сложной и включала в себя несколько языков. Таким образом, для правильного распознавания символов необходимы не только оптимальные условия освещения, но и обширные базовые знания.
 
«До сих пор было сложно получить доступ к содержимому многих клинописных табличек одновременно — нужно точно знать, что и где вы ищете», — добавляет Мара.
 
В его лаборатории возникла идея разработать систему искусственного интеллекта, основанную на 3D-моделях. Новая система расшифровывает символы лучше, чем предыдущие методы. В принципе, система искусственного интеллекта работает по тому же принципу, что и программное обеспечение OCR (оптическое распознавание символов), которое преобразует изображения письма и текста в машиночитаемый текст. Это имеет много преимуществ. После преобразования в компьютерный текст его становится легче читать или искать.
 
«OCR обычно работает с фотографиями или сканами. Это не проблема для чернил на бумаге или пергаменте. Однако в случае с клинописными табличками все сложнее, потому что свет и угол обзора сильно влияют на то, насколько хорошо можно идентифицировать определенные символы», - объясняет Эрнст Штетцнер из MLU.
 
Он разработал новую систему искусственного интеллекта в рамках своей магистерской диссертации под руководством Хуберта Мара. 
 
Команда обучила новое программное обеспечение искусственного интеллекта, используя трехмерное сканирование и дополнительные данные. Большая часть этих данных была предоставлена Университетом прикладных наук Майнца, который курирует крупномасштабный проект по созданию 3D-моделей глиняных табличек. Впоследствии системе искусственного интеллекта удалось достоверно распознать символы на планшетах. «Мы были удивлены, обнаружив, что наша система хорошо работает даже с фотографиями, которые на самом деле являются худшим исходным материалом», — говорит Штетцнер.
 
Работа исследователей из Галле и Майнца открывает новый доступ к тому, что до сих пор было относительно эксклюзивным материалом, и открывает множество новых направлений исследований. До сих пор это был только прототип, способный надежно распознавать символы двух языков. Однако известно, что всего существует двенадцать клинописных языков. В будущем программное обеспечение также может помочь расшифровать выветренные надписи, например, на кладбищах, которые являются трехмерными, как клинопись.