Morpheus for Ancient Greek v.0.3

- Morpheus for Sanskrit

 

reports (ru)

reports (en)

code, license, contacts:

hosting:basealt.ru

о Полярной звезде

доклад на 12 конф. разработчикков свободного программного обеспечения, г.Калуга, 16 октября 2015

Тексты вообще - это обеспечение процесса чтения для нас. Раньше были тексты на бумаге, теперь - на экранах компьютеров. Что такое электронный текст (просто текст для чтения) вообще? Сегодня вы его в одной форме видите и читаете, завтра в иной - это процесс. Где начало процесса ("откуда начало движения"), и какова его цель - куда он развивается? И почему такой бардак с е-текстами? И люди до сих пор копируют какие-то неизвестные куски html в неизвестных источниках, и не имеют ни малейшей уверенности, что читают то самое. И думают, главное, что так и должно быть. Впрочем, аккуратные бумажные издания тоже были редкостью - мы читаем на бумаге, сторого говоря, неизвестно что.

Можно-ли привести текст - любой текст, но в первую очередь, конечно, классические тексты - к единому источнику? Конечно, можно, и для этого не требуется ни денег, и почти никаких знаний и технологий, а лишь капля ума и (коллективного) желания.

Текст - источник всего процесса, голый текст. Но текст - уже результат работы с документом. До текста у нас в руках есть манускрипт, его приводят в виде изображения (одну страничку, или фрагмент) - читать его нельзя. Этот манускрипт некоторые специалисты превращают в е-текст. Пусть, например, - некий Вася отсканировал и распознал книжку, отличный пример. (Далее, однако, этот Вася неизбежно добавляет хидеры, футеры, иксемели-шмиксемели, звездочки, указывающие на примечания, ссылки на конкордансы - и далее по пословице - горе от ума. Сравните библиотеку Персея в университете Тафта и lib.ru. В последнем тексты хоть читать можно. В Персее - только изучать. Как избежать этой неизбежной порчи?)

Из манускрипта (документа) мы получили текст - источник всего дальнейшего процесса, голый текст. В системе контроля версий, ибо это процесс. В различных ветках могут лежать разные списки с разных манискриптов, для специалистов. А в ветке main, которую все видят - рекомендованный канонический вариант.

А примечания и аппарат, и addendum et corrigendum, и прочая, и прочая? Есть обязательные примечания, являющиеся частью самого текста. Например есть текст перевода, и переводчик публиковал свой текст вместе с примечаниями. И мы не имеем права их разорвать - это одно целое, это воля автора. Но тогда это уже не текст, а гипертекст? А текст не годится, слишком прост?

Нет, текст годится. Гипертекст - путь в никуда, это путь того Васи из нашего примера. Аппарат к тексту - сам по себе бесконечность. Типов примечаний может быть бесконечно много - вплоть до описания повреждения краев бумаги, пятен, и даже погоды и состояния самочувствия публикатора в момент работы с текстом. (см. русские летописи). И все это - в одном XML, - и будет источник всего дальнейшего процесса работы с текстом? Абсурд. А иначе - что есть единый источник?

Нужно так: примечение - тоже текст, сам по себе текст. Примечания так же лежат в текстовом же файле рядом, и, очевидно, привязываются к тексту якорями (уникальными указателями) в самом тексте. Якорь - уникальная подстрока, заканчивающаяся там, где в обычном тексте стоит звездочка с номером примечания. Она однозначно указывает место в тексте. И здесь же рядом может быть отдельный скрипт, устанавливающий их соответствие. И так же может работать любой аппарат, который нужен публикатору. Можно описать пятна на бумаге/папирусе, варианты написания букв, отметить пропуски, etc, etc. Если к тексту есть дополнение, то должен быть и скрипт, их объединяющий. Естественно, скрипт - то, с чем работал публикатор - только пример. Другой человек, видя процесс, может написать свой на другом языке, etc, etc.

Второе: текст должен подтверждаться авторитетом специалиста, быть авторитетным. Тексты, которые лежат у меня на diglossa.ru - не авторитетны, я не специалист. Пушкинский дом должен выложить текст Пушкина, институт философии - текст Платона (русский перевод), etc, и - отвечать за него. Но специалисты в настоящее время представляют свою работу в каком угодно наукообразном виде, но категорически не хотят просто выложить текст, как основу своих результатов. Текты выкладывают любители, религиозные организации, кто угодно, кроме науки. Никто, ни в одной стране мира. Это очень плохо. Если бы физики писали статьи, но не публиковали исходные данные - результаты эксперимента, им бы никто и копейки бы не дал.

XXX - вниз - Ту же задачу выполняет и развивает Диглосса - быстро указать место в параллельном переводе, не обозначая никакой из них как правильный. Они все неправильные - правильно лишь понимать текст, не изменить текст своей/чужой интерпретацией, но позволить тексту изменить - вас. (А вот явно неправильные, тоже, конечно, есть).

Все остальное, по моему, от лукавого. В том смысле, что диктуется чем-то извне текста. Текст - источник. Мы сейчас видим множество корпусов - но посмотрите на них, там есть все что угодно, кроме текста. Текст должен быть источником и целью процесса. Он должен лежать в системе контроля версий, на том же гитхабе, например. Как лежат тексты диглоссы - https://github.com/diglossa.

Конечно, возникает масса практических вопросов. Например, если кто-то вносит изменение в текст (исправляет опечатку) - и исправления попали на место якоря, к которому привязано примечание. Комментарии собьются. Наверно, это решается множеством разных способов. Я думаю, что простейший и прозрачный для редактора текста - хук в git-е, а именно pre-commit-hook, который проверит эту коллизию (якоря и исправления), и исправит якорь. Якорь не принадлежит к тексту автора, его поправлять вполне можно.

Это, по-моему, типичная задача для СПО. Код. см. на гитхабе.

В диглоссе, при обновлении текста на гитхабе, автоматически обновляется интерфейс, с которым работает читатель данного текста. Это процесс преобразования источника текста в зримый результат, это процесс. Это автомат. То есть это множество программ, которые будут развиваться, дополняться, ветвиться, - это процесс на годы, и даже попросту вечный и бесконечный процесс. Это попросту часть процесса человеческого чтения. В бумажной книге то же самое - одно издание, другое, etc. Этот автомат и нужно создать - как постепенно появилось сообщество разработчиков СПО.

Итак, источник процесса ясен - текст в системе контроля версий. А что есть цель этого процесса? Текст плюс справочный аппарат.

Но для начала я расскажу, что не есть цель. Мы видим огромное количество корпусов текстов - их уже больше, чем песчинок в океане. И их авторы авторы будут убеждать всех, что их корпус как раз чтобы изучить, помочь понять, и помочь прочитать текст. Если не всем, то специалистам. Это, однако, не так.

Корпуса используют современные лингвистические теории, и, соответсвенно, понятия этих теорий. Т.е. существительное, фонема, etc. И теории, и понятия меняются со временем, развиваются. Это природа современной науки, ее метод. Соответсвенно меняется и финальная форма текста, то, что в конце концов видит читатель, интерфейс. Это тоже бесконечный и неизбежный процесс. В любой науке именно так.

Хуже всего то, что разные теории логически несовместимы друг с другом. Разница может быть незаметна, и может не сказаться при написании программы. А может быть заметна очень. Например, могут быть разные определения того, что такое слог. И разбить на слоги корпус, скажем, эпической индийской литературы - это работа, и гигабайты объема. И результат абсолютно ни логически, ни практически не совместим с результатом, полученным при другом определении слога. Я подробно разбираю этот пример в докладе на конференции Моргиналии в Полоцке.

Научные теории будут меняться, и следовательно, будет меняться справочный аппарат. Пока будет существовать наука, будет развиваться ПО для обеспечения этого процесса.

Однако чтение текста и изучение текста - существенно разные процессы. Чтение - это понимание текста. А понимание - это изменение, происходящее в нас, в читателях текста. Понимание - это разрешение автору текста изменить меня, читающего. Научное исследование текста вообще не ставит своей задачей понимание текста. Какая разница, что там пишет отсталый Аристотель в своей Физике. Для науки важно лишь как он пишет, сколько в тексте глаголов несовершенного вида, например, etc.

Но древний автор не для того писал свой текст, чтобы его изучали, он писал в надежде найти в веках читателя, а не вивисектора.

Следовательно, справочный аппарат быть должен, но это должен быть аппарат, с которым автор был бы согласен. Аппарат, современный автору текста. В идеале, для чтения текста читатель должен получить образование, адекватное знаниям автора. Современное автору образование. Это идеальная утопия, но существенные черты древнего знания справочный аппарат для современного читателя отражать обязан. Особенно расхождения с современной научной картиной мира.

Особенная опасность - в том случае, когда современная наука лингвистика говорит: это глагол, прошедшего времени, etc. И древний автор в этом месте сказал бы дословно то же самое, глагол, прошедшего времени, etc. Но само понимание того, что такое глагол, вовсе другое для него. Скажем, первое-главное в глаголе для автора - то, что он произнесен (вслух), сказан, про-глаголен, и рассказывает о событии, является рас-сказом. А вовсе не то, что вы подумали, или подумал современный лингвист.

Но это сложный случай, а в простых - попросту справочный аппарат должен дать справку, современную автору текста, адекватную тексту. Древнее образование всегда начинается с грамматики. Недаром в средневековье первым из семи свободных искусств идет тривиум (науки о слове), а в нем первым - граматика. То же и в веданге - первыми идут шикша - фонетика, чхандас - метр, и вьякарана - грамматика. Там вводятся понятия, фундаментальные смыслы, как звук, слог, имя, глагол, время, etc. Они появляются в грамматике, риторике - но лишь для того, чтобы тут же быть употреблены в философии, музыке, астрономии и богословии. Это фундаментальные понятия. Подменить из современными - для понимания текста - все равно, что подменить младенца в роддоме.

Научные институции вовсе не ставят себе такой задачи. Понимание текста вообще не является научной задачей. Поэтому нет надежды, что научные институции могут способствовать решению этой задачи. Для них древний учебник не фундаментальная основа понимания авторского текста, а устаревшая бесполезная теория (а это и не теория, кстати, вовсе), хлам, ветошь. Никто не станет изучать физику по Ньютону. Поэтому на научные институции в этом плане надежды у меня нет, и быть не может.

Также эта задача не под силу ни одному человеку, ни коммерческой организации. Но она под силу сообществу разработчиков свободного ПО. При условии если, или когда, найдется достаточное количество разработчиков, одновременно являющихся и людьми, заинтересованными в чтении древнего текста. Есть исключение - тексты религиозного содержания будут сопровождаться именно современным автору и адекватным аппаратом при электронном издании их религиозными же организациями. (это неверно, но все же лучше, чем научные издания - прим. 2016). Для текстов любого иного типа (медицинских, математических, музыкальных, филологических) - надежда может быть только на саморганизацию читателей-разработчиков.

Утешает одно. В калейдоскопе мелькающих теорий древний учебник грамматики - константа. Это напоминает то, как в древнем мире в калейдоскопе и круговращении возникновений и уничтожений есть лишь одна неизменная, нетленная константа - Полярная звезда, ἄρκτος. Так и сейчас для нас, автор и его справочный аппарат - инвариант, он есть видимая и очевидная общая цель, τέλος, причина движения, наша Полярная звезда.