Настоятель Свято-Троицкого Данилова мужского монастыря Переславля-Залесского игумен Пантелеимон (Королев) использует компьютерные методы анализа текста со времен защиты диплома в духовной семинарии.

Сегодня в его исследовательский арсенал входят даже дистрибутивная семантика и word2vec. В интервью изданию «Системный Блокъ» отец Пантелеимон рассказал об опыте исследования цифровыми методами ткани богослужебных текстов, сокрытых в них антиномиях и здоровом азарте в поисках истины.

Расскажите немного о себе и о том, как компьютерная лингвистика и Церковь оказались связаны между собой в вашей жизни?

― Я сейчас настоятель Данилова монастыря в Переславле. В этой должности совсем недавно и пытаюсь в нее вжиться, понять, как совместить все то, что мне бесконечно интересно.

А так я сам москвич от москвичей, родился в обычной светской семье. Сначала учился в матклассе гимназии. В школьные же годы начал программировать ― у меня отец программист, и компьютер появился еще в младших классах. Ближе к выпуску ходил на лингвистический кружок, участвовал в лингвистических олимпиадах.

Потом закончил мехмат МГУ (кафедру дискретной математики), где занимался булевыми функциями и немножко криптографией. Воцерковился уже во время обучения в университете. Студенчество ― нормальное время для поиска смыслов. В этот момент как раз таки случился такой классический неофитский запой христианской литературой, проснулся интерес к филологии.

Сразу после университета поступил в Московскую духовную семинарию, затем в Московскую духовную академию. Про компьютерную лингвистику я не думал вплоть до момента выбора дипломной работы, когда в качестве объекта исследования выбрал историю текста славянского Апостола.

Можно было по-разному к этому вопросу подойти, я вот решил, что было бы странно не написать базу данных, коль уж соответствующие навыки имеются. В результате диплом в семинарии, а потом и кандидатская в академии у меня были посвящены текстологии славянской Библии ― тому, как редактировали служебный Апостол после Ивана Федорова. И там обнаружились любопытнейшие вещи.

Все это с применением компьютерных технологий?

― Да, я просто взял несколько отрывков из Апостола, которые цитируются в богослужебных книгах, и вбил в базу все отличия, которые нашел в разных изданиях. В итоге удалось увидеть, как группируются некоторые издания, как выделяется что-то уникальное и неожиданное. Проявились, например, стремления почаевских униатов к архаизации. Стали видны и регулярные правки, касающиеся орфографических норм Москвы и Петербурга.

С 1713 по 1831 год Свято-Успенская Почаевская лавра на Западной Украине находилась под властью униатов, при этом книгопечатание в ней не прекращалось.

Как увидеть в булыжнике бриллиант

Честно говоря, мне все равно кажется, что это  какая-то уникальная история, когда священнослужитель изучает богослужебные тексты с помощью цифровых методов. Хотя… основателем Digital Humanities на Западе все считают Роберто Буcу, который вообще-то был иезуит. Однажды он пришел к руководству IBM и инициировал создание корпуса Фомы Аквинского. В результате  сегодня главная премия в мире DH называется Roberto Busa Prize.

― Ну, на самом деле эти все вещи восходят к более ранним прецедентам. Уже Ориген занимался текстологией Священного Писания. В своих «Гекзаплах» он собрал шесть различных переводов Библии — вот вами и параллельный корпус. Но наверняка и он тоже не был первопроходцем. Любая попытка редактирования текста или перевода Священного Писания заставляет человека обратиться к уже имеющимся рукописям, ко всем доступным изданиям на всех понятных ему языках. Потому что именно из такой совокупности текстов мы можем хоть как-то приблизиться к тому, чтобы уяснить, все ли мы правильно понимаем. Да и конкордансы возникли достаточно давно.

Человеку дан разум, и он пытается все свои силы использовать на благо той цели, к которой стремится. Если ты чем-то увлечен ― занимайся этим со здоровым азартом, найди то, что тебя будет вдохновлять и интересовать, попробуй подходящий инструментарий.

В какой-то момент я задумал: «Отлично, будем сейчас сравнивать источники, рассматривать детали». Дальше, когда погрузился в один из текстов, прочитал его много-много раз в разных вариантах, на некоторое время ощутил, что стал не вполне адекватно его воспринимать в рамках богослужения. Слыша его, начинал думать об исследовании, а не о том, что это в первую очередь молитва. Очень важно эти моменты разводить и снова «собирать». Когда мы анализируем какой-то текст, мы его расчленяем, детально рассматриваем, и на какое-то время он становится мучимым объектом исследования, а после возвращаемся к этому источнику снова, встречаясь с ним во время богослужения, как в первый раз — и эта встреча происходит на более глубоком уровне.

Анализ богослужебных текстов вызывает иногда восторг и эйфорию. То, что тебе представлялось мрачным, унылым и непонятным, ни одной точкой с тобой не соприкасающимся, вдруг оказывается про твою жизнь. Ты смотрел на текст, как на булыжник, а потом немножечко его протер, и он заиграл перед тобой, как бриллиант.

Радость (не)узнавания

А «протер» — это значит взглянул на богослужебные тексты с какой-то другой стороны?

— Можно вспомнить эпизод из «Имени Розы» Умберто Эко, когда Вильгельм, войдя в библиотеку, просматривает ее содержимое. Какие-то книжки он встречал с радостью, как своих старых друзей, какие-то с удивлением, потому что он про них слышал и желал познакомиться. А какие-то ― с еще большим восторгом, потому что про них не слышал ничего. И вот такой открытый взгляд и такое отношение должны быть к богослужению. Одни богослужебные тексты тебя радуют потому, что перекликаются со знакомыми текстами из другой службы, другие, наоборот, удивляют тем, что ни с чем не перекликаются и звучат как абсолютно новые.

Мне сейчас очень интересно, каким образом устроена эта ткань богослужения. Другое слово, кроме как «ткань», мне трудно подобрать — ведь богослужебные тексты причудливо переплетаются друг с дружкой.

Расскажите побольше о своих исследованиях. С чего Вы начинали?

— Сначала я просто смотрел статистику по словоупотреблению, в первую очередь обратил внимание на частотный словарь: отмечал и самые частые, и самые редкие слова. Слова, единожды употребленные в исследованном корпусе, так называемые гапаксы (ἅπαξ λεγόμενον — то есть «единожды сказанное»), представляют особый интерес. Некоторые из них встречаются один раз вообще во всех известных текстах, и как их переводить никто не знает. Чаще всего это касается названий растений, птиц и рыб.

Для исследования были взяты тексты книг, содержащих богослужебные тексты: богослужебное Евангелие, богослужебный Апостол, Псалтирь следованная, Октоих, Ирмологий, Минея общая, Минея месячная, Триодь Постная, Триодь Цветная, Требник, Часослов, Служебник, Молитвослов. Электронные версии текстов книг были взяты с сайта orthlib.ru, созданном трудами священника Владимира Шина и М.Ю. Шин. Принципы выбора конкретных изданий для оцифровки нигде явно не прописаны, но преимущественно это московские издания конца XIX – начала XX века. С сайта orthlib.ru также были взяты следующие тексты для включения в дополнительный корпус текстов: Библия, Типикон, Акафистник, «Алфавит духовный», «Добротолюбие», Минея праздничная, Пролог, Правила святых апостол, Канонник, разные последования. Объем основного корпуса составил 2.6 млн словоупотреблений, вместе с дополнительным корпусом — 4.7 млн словоупотреблений» [Иеромонах Пантелеимон Некоторые статистические характеристики корпуса церковнославянских богослужебных текстов, 2018].

В то же время сегодня мы зачастую имеем дело с текстами, оцифрованными и распознанными иногда не очень аккуратно и точно, поэтому некоторые современные гапаксы ― просто результат орфографических ошибок. С одной стороны, хочется их «почистить», с другой, знаком опыт взаимодействия с неаккуратно «почищенными» источниками. Например, постарались, отсканировали и распознали Елизаветинскую Библию, а потом взяли и автозаменой привели к собственным представлениям об орфографии. Это серьезная проблема, мы оказываемся некоторой пленкой отделены от изначального текста. Иногда старались графически подчеркнуть различия омонимов, а иногда на это не обращали внимание. Могли написать «тма», а могли — «тьма». Читались эти слова, скорее всего, одинаково, но интересно знать, была ли связь между написанием и различными значениями: «мрак» и «десять тысяч». Если мы невнимательно занимаемся нормализацией орфографии, такие вещи достаточно легко «убить». С другой стороны, хочется избавиться и от ошибок распознавания, потратив на это не вселенную времени.

Возвращусь к проблеме исследования частотности. Было интересно посмотреть, в каких текстах большая доля гапаксов. Оказалось, есть службы, написанные действительно сложным языком, а есть такие, в которых просто много неологизмов. Например, есть «Последование перед хирургическим вмешательством».

Понятно, что в церковнославянском языке синодального времени слова «хирургический» не было. А там все последование написано в таком духе, оно к нам пришло из сербского Требника. Частотный анализ его «выбросил» наверх. По смутным ощущениям моих друзей, одной из наиболее сложных для понимания богослужебных книг является Постная Триодь. У этих ощущений есть математическое основание: в книге встречается заметно больше гапаксов на тысячу слов, чем в других. Сложность хорошо перекликается с тем, что тексты из этой книги звучат в период Великого поста, времени более интенсивной и глубокой духовной жизни христианина.

В качестве примера приведу Великий покаянный канон преподобного Андрея Критского, который читается на первой неделе Великого поста. Он изобилует отсылками к библейским сюжетам, и без их понимания в тексте мы видим какую-то тарабарщину. Если же разберемся, то перед нами окажется красивейший и интереснейший текст. Тебе упомянули имя Адама ― всплывают какие-то представления о жизни в раю, упомянули о Каине и Авеле ― вспоминается история с убийством одного из братьев. Если тебе напомнили о Давиде, Сауле, то вспоминаются их сложные взаимоотношения. Получается, что за счет этих упоминаний и прикосновения к ассоциативным связям все оживает. Ветхозаветные тексты во время Великого поста активно «подтягиваются», читаются большие паремии из Книги Бытия.

Богослужебные тексты построены на сочетаниях несочетаемого

То есть здесь уже объектом внимания становятся переклички между текстами?

― Да, и в связи с этим есть другая тема для цифрового исследования.
Если взять Библию, в ней можно увидеть на полях меленьким-меленьким шрифтом отсылки к параллельным местам, то есть к другим стихам Библии, в которых встречается прямая цитата или близкая мысль. Было бы очень интересно понять, какая доля этих отсылок на параллельные стихи может быть выявлена поиском нечетких дубликатов, а какая может быть прописана только человеком с богословским образованием.

В какой-то момент я вдохновился RusVectores и попробовал искать семантические ассоциаты в богослужебных текстах, но недооценил сложность задачи. Я построил семантические ассоциаты для нескольких слов и предложил участникам семинара в ВШЭ, не особо всматриваясь: «Разберите, где синонимы, где антонимы, где гиперонимы, где гипонимы». Вроде все несложно, на первый взгляд. Но студенты впали в ступор: «Вот здесь понятно, вот здесь понятно. А вот это как классифицировать?!»

В качестве примеров можно привести пары «пост» и «бдение», «безумие» и «гордость», «блаженство» и «наслаждение», «веселие» и «просвещение» ― синонимы ли они? У «плоти» тоже были очень сложные ассоциаты. С одной стороны, в христианстве распространено отношение к плоти, как к той двери, через которую приходит искушение. Но с другой стороны ― это тот инструмент, благодаря которому мы можем возрастать, который тоже создан, чтобы наследовать Царство Небесное. Вот такое отношение к плоти и выдавало соответствующие семантические ассоциаты: на белое или черное словарь не поделишь. И это закономерно, потому что и христианство весьма антиномично, и богослужебные тексты на антиномиях построены, на сочетаниях несочетаемого.

Святитель Григорий Богослов совершенно неслучайно писал богословские поэмы. Те тайны, к которым он опытным путем прикасался, он считал совершенно невозможным и неправильным изложить прозаическими схоластическими выкладками. Это как в любви признаваться такими словами: «Твое присутствие в радиусе двух метров вызывает во мне выработку эндорфина». Избави Бог от такого признания в любви.

В богослужебных текстах есть своеобразные орнаменты. Типичные грамматические структуры, характерные противопоставления, образы, кочующие из одного песнопения в другое, ― они оказываются теми самыми ниточками, связывающими все друг с другом. И если появляется новый текст, то он должен вписываться в традицию. В противном случае велика вероятность, что он будет отвержен, окажется где-то на периферии, как масло с водой не соединяются.

А разве сегодня внутри Церкви рождаются новые тексты?

― Конечно. В среднем раз в два дня на свете возникает новый акафист, ведется большая переводческая работа, составляются песнопения новомученикам XX века и древним святым. Церковные гимны и догматы ― не каменные плиты, под которыми погребена истина. Для каждой эпохи Церковь ищет свой язык, чтобы эту истину выразить.

Эволюцию церковных текстов можно изучать, в том числе с применением цифровых методов. Есть алгоритмы, которые помогают выявлять сходства в текстах, над их улучшением активно работают в коммерческих проектах. Например, в задаче поиска плагиата. Но по отношению к богослужебным текстам, как и в случае с фольклором, слово «плагиат» неуместно. В фольклоре не плагиат, а бытование сюжетов. В жизни богослужебных текстов происходят похожие процессы. В рамках традиции тексты рождаются, скрещиваются, умирают — они не даны нам в неизменном «законсервированном» виде.

Даже к Священному Писанию мы не относимся как к чему-то абсолютно застывшему. Мы видим текстологические расхождения, встречаем разные переводы и авторитетные толкования, и это — приглашение к размышлению над текстом. Даже сам евангельский текст нельзя понимать лишь буквально, нужно отступать на шаг. Если бы по Евангелию жили бездумные роботы, они были бы одноглазые, однорукие и одноногие. Они выполнили бы инструкцию: «Если глаз твой соблазняет тебя, выдерни его и брось от себя; рука или нога соблазняют тебя ― отсеки и брось». Евангелие нас заставляет к себе относиться не по-математически. Да, мы используем математические методы. Но и сама математика дошла до теоремы Геделя о неполноте. Если перевести ее на язык поэзии, то можно сказать: сколь бы прекрасна ни была ваша гимнография, всегда найдется что-то еще невыраженное, прекрасное и истинное. Так что литургическое творчество будет в Церкви всегда.