Morpheus for Ancient Greek v.0.3

- Morpheus for Sanskrit

 

reports (ru)

reports (en)

code, license, contacts:

hosting:basealt.ru

Морфей для греческого

или почему для чтения древнего текста следует использовать древнюю грамматику

XII конференция «Свободное программное обеспечение в высшей школе»

πολυμαθίη νόον ἔχειν οὐ διδάσκει

многознание уму не научает

гераклит

Большие проекты изучения национальных языков находятся на очевидном свободном взлете - только дайте денег, и они станут еще больше и мощнее, пределов не видно. Для древнегреческого самый большой - Персей [1]. Возьмем, к примеру, слово - λόγος. Исходное его значение - складывать, собирать вместе. Его слышно в наших словах ложка, телега. Что говорит о слове λέγω - я говорю - Персей [2]? Откроем страницу. Мы видим большое количество вариантов. Как этим пользоваться? Первое значение с 8 морфологическими расшифровками - λέγαι γυναῖκες - lewd - развратные девки. Ясно, что автор выражения (Архилох) имеет в виду болтушек (λόγος) - кумушек. У слова болтушки есть еще значения сплетницы и сводницы. Сплетать-сводить - то то же самое складывание, что и в исходном слове λόγος. В любом слове всегда слышится и противоположное значение, в данном случае не сплетение, а раз-врат, то есть рас-кладывание. Т.е. lewd - действительно, возможное значение. Бибихин об присутствии в слове противоположных смыслов пишет как о "сне языка". Ясно, что на Персее мы видим одно из возможных поэтических-образных истолкований слова λόγος, которому придана грамматическая форма и выделена ячейка в базе данных словаря. Очень перспективный метод для тех, кто ищет работу в этой области. Через пару лет можно ожидать появления еще нескольких разделов-результатов для слова λέγω. Будущим студентам-линвистам будет что преподавать. Создателей ресурса можно поздравить.

Однако это все довольно подозрительно. Авторы словаря Liddell, Scott и Jones и создатели Персея считаются, вроде бы, английскими джентельменами, но действуют шашкой подобно кавалеристам Семена Буденного.

Но дело еще хуже. В древнем языке, ни в Греции, ни в Индии, вообще нет ни существительных, ни прилагательных. Согласно Дионисию Фракийцу, имя имеет 19 видов. Среди них нет ни существительных, ни прилагательных. И нельзя объединить несколько видов вместе, чтобы получить наше привычное прилагательное - придется либо исключить некоторые прилагательные, либо включить существительные. Я об этом здесь говорить не буду, кто хочет посмотрите сами [3]. Дело в ином - в античности, и в Индии также, речь идет вообще не о языке - такого понятия нет, это позднее, средневековое, если не после-декартовское понятие. А о речи. А речь - это не язык, речь, когда шевелятся губы, а язык - это теоретический конструкт. И принципы деления речи на "части" и выделения "частей речи" в нашем языкознании - разные и логически несовместимые.

Другими словами, все современные корпуса текстов, во главе с Персеем, ни к черту не годятся, если вы хотите понять, о чем говорит древний автор. Они занимаются созданием современной грамматической теории древнего языка. Наверное, это кому-то интересно, раз им деньги дают. Предлагаю назвать вышеописанный механизм "злокачественным распуханием грамматической теории", ЗРГТ. Конечно, понять древний текст с помощью современной грамматики можно. Но поняв его, мы начинаем понимать также, что самые главные для автора слова - слово, грамматика, язык - он понимает иначе, не как современное языкознание. И приходится выполнить одну работу дважды. Сначала прочитать, как мы привыкли, а потом, как этого хотел сам автор. Ведь автор не имел наших современных понятий и нашего способа их мыслить. В результате никто эту работу второго чтения - собственно понимания - и не выполняет. Чтобы узнать, как эти понятия мыслил древний автор, читайте В.В.Бибихина.

Это я говорю, чтобы была понятна цель разработки Морфея. Морфей создан для автоматизации процесса понимания текста, а не для изучения языка. В процессе понимания очень много услилий приходится тратить на листание и чтение огромных словарей, рытье в толстенных грамматиках и чесание в затылке. Все это вполне автоматизируемые процессы.

Посмотрите скринкаст на странице http://gr.diglossa.org

Морфей работает в любой большой ОС (не работает пока на мобильных платформах), и в любом месте на десктопе - достаточно выделить и скопировать текст в буфер обмена (обычно ctrl-c). Это приложение electron.js [4], то есть по сути браузер Хромиум. Морфей может работать автономно, он имеет встроенную базу данных Pouch.js, но при каждом запуске, если есть выход в сеть, локальная и серверная база синхронизируется прозрачно для пользователя.

Морфей имеет модульную структуру. Основной процесс такой:

- все слова в тексте (обычно предложение, или клауза - от знака препинания до знака препинания) проверяются в словаре "терминов". Термины - это конечные формы, не требующие дальнейшего анализа. Например, все формы местоимений, артиклей, все неизменяемые формы в словаре, неправильные формы глаголов и т.д. Поскольку греки записывали речь, а не "информативный текст", они записывали все, что слышали. Например, часть фразы εἴ περ γάρ ἐστιν ἡ ψυχὴ ἐν имеет только одно слово не-термин - ψυχὴ, а все остальные - частицы, предлоги, артикли и форма глагола "есть". Это очень типичный случай.

Для оставшихся изменяемых слов по окончаниям вычисляются вероятные словарные формы. Для этого форма пропускается через каскад модулей-фильтров. Количество фильтров будет наращиваться в следующих версиях. Наличие вероятных словарных форм проверяется в словаре.

В качестве большого словаря я использую свободно доступный в сети словарб YALS - "Yet Another Liddell-Scott" с неясной лицензией. Словарь доспупен здесь [5]. Видимо, он имеет какое-то отношение к словарю Лидделл-Скотта. Для найденных в словаре вариантов по окончаниям вычисляются морфологические характеристики.

Дополнительные технические словари терминов и конечных форм я создал вручную и эта работа будет продолжена, источники [6]. В отличие от "больших" морфологических анализаторов я не пытаюсь выделить все возможные лексические единицы слова, но хотел бы вывести слово из его источника. В идеале я хотел бы иметь несколько уровней словаря:

- (пра) - индоевропейский корень

- язык Гомера

- классическое значение

- койне

- ново-греческий

где каждый уровень представлен двумя-тремя типичными значениями, не в качестве установленного правила, но лишь для наводки на тему. А затем читателю должны быть представлены примеры переводов из живой переводческой практики. На различные известные языки в различных контекстах. Это просто выполняется поиском по параллельному массиву текстов. Сведение анализа к единому значению, вместо создания для каждого значения слова своей лексической единицы, как мне кажется, поможет справиться с ЗРГТ.

Далее между словами предложения устанавливаются типичные связи. Связанные слова подчеркиваются. Морфей не анализирует синтаксическую структуру предложения - это конструкт современной теории языка. Древний автор не знал о синтаксической структуре. А согласованные слова - вполне себе были. Пока что выделяются и подчеркиваются только связанные артикли, местоимения, имена.

Поскольку Морфей имеет модульную структуру, любые модули могут быть заменены. И на этой основе создано иное приложение. Например, в стиле более современной грамматической теории. Или с подключением иных словарей. Или с иной локализацией. Etc.

В целом Мофей, я надеюсь, может несколько облегчить процесс чтения греческого текста. Но Морфей по своей конструкции и цели не может выдать готовый перевод. Перевод, и понимание одного слова и всего текста - это поступок, уникальное событие в мире, и совершает его только читатель, и только в процессе чтения.

1. http://www.perseus.tufts.edu

2. http://www.perseus.tufts.edu/hopper/morph?l=λέγω&la=greek#lexicon

3. https://el.wikisource.org/wiki/Τέχνη_Γραμματική

4. http://electron.atom.io/

5. http://diglossa.org:5984/_utils/database.html?yals

6.1 - https://lrc.la.utexas.edu/eieol_master_gloss/grkol/2

6.2 - http://www.chlt.org/FirstGreekBook/

6.3 - http://biblehub.com/englishmans_greek.htm