Манускрипт Войнича. Маньчжурский кандидат

Манускрипт Войнича (МВ или VMS) называют чашей Грааля криптографии. За несколько сотен лет тысячи человеко-дней были потрачены и продолжают тратиться в попытках разгадать его смысл и перевод. Причем пытались люди очень разные, в том числе выдающиеся мировые криптографы. Пока что получается не очень. Две с небольшим сотни пергаментных страниц, неизвестный алфавит, неизвестный язык, каллиграфический уверенный почерк, десятки рисунков неизвестных растений и обнаженных женщин, купающихся в странных каналах, зодиакальные астрологические диаграммы — множество зацепок, но пока ничего, что позволило бы дешифровать рукопись. Для любого, кто хоть чуть-чуть попробовал поразгадывать крючки, МВ представляется идеальной головоломкой — не имеющей пока известной разгадки.





Страница 16v

Видел несколько месяцев назад пост на Хабре про ацтекский язык и ботаников, опознавших несколько центрально-американских растений, но всё-таки достану из черновиков свои записи. Их цель — познакомить читателей с миром разгадывателей VMS и моим не очень глубоким анализом одной из относительно недавних гипотез — о маньчжурском языке манускрипта.


Прогуляться по сканам высокого разрешения можно здесь: Voyage the Voynich Manusript

Впервые с МВ я познакомился из давней статьи в бумажной Компьютерре, но немного позаниматься им захотелось сейчас, после интервью Ленты.ру с автором последнего исследования Марчелло Монтемурро, опубликованным на PLoS One. Советую ознакомиться со статьями в Википедии и Компьютерре и интервью на Ленте.



Граф статистической связанности между частями манускрипта — рисунок из статьи Монтемурро

За историю разгадывания рукописи появилась уйма гипотез о её языке — от европейских (одном или их смеси) и ближневосточных до совершенно редких и дальних, типа древнеяванского или индейских, носители которых с Европой 15 века не контактировали; не обошлось и без перевода с древнеукраинского. Одни из последних «прорывов» начала этого года — это расшифровка десятка слов британским лингвистомСтивеном Бэксом и попытки привязать некоторые рисунки и подписи к центрально-американским эндемикам и индейским языкам. Также немало исследователей отчаялись и решили, что текст — подделка или бессмыслица, абракадабра, созданная с целью напустить тумана или поразить покупателей. Но все же тех, кто верит, что МВ — реальный зашифрованный текст — намного больше. Есть причины полагать, что это так:
1. Наличие сложной структуры текста. Как и все реальные языки, МВ подчиняется закону Ципфа, т.е. частота слова обратно пропорциональна его порядковому номеру в отсортированной по частоте последовательности.
2. По энтропийным характеристикам текст близок к европейским языкам — латинскому, английскому

Помнится, в одной из автобиографических книг Ричарда Фейнмана описывается его анализ альбомных листов якобы неизвестных книг c иероглифами Майя. В том рассказе Фейнману довольно быстро удалось расколоть подделку с помощью статистических оценок и логических рассуждений. Дальше он с восторгом фантазирует — как было бы здорово, если кто-то решился бы создать по-настоящему крутую подделку, с учетом всех закономерностей в таких текстах. Если кому-то когда-то такая подделка удалась — то это МВ.

В 2003-2004 некий польский исследователь Збигнев Банасик (Zbigniew Banasik) предложил маньчжурскую версию. Ссылок на него, кроме его письма о Войниче, я не находил, только при написании этой статьи нашел публикацию в польской газете. Google дает перевод, это любитель-лингвист и полиглот из села под Вроцлавом… Он предложил трансляцию алфавита манускрипта в латиницу и дал начальное толкование первой страницы. Первая страница манускрипта 1r — одна из главных целей атак на VMS, считается, что разгадав хотя бы ее часть, можно получить ключи ко всей рукописи.

Короткая справка о маньчжурском языке.

Есть статья русской Википедии. Вкратце, маньчжуры — народ, живший в северной части современного Китая и немного дальневосточной России, родом с Прибайкалья и Алтая. Более древнее название — чжурчжени. В 17 веке напали и захватили Китай, спалили Шаолинь, основали династию Цин, которая правила до начала 20 века. В этот период официальный документооборот Поднебесной велся на манчьжурском языке, в китайских архивах скопилось коллосальное число документов, до которых у исследователей не дошли руки. Считается, что хороший историк-китаист должен овладеть маньчжурским хотя бы для того, чтобы прочитать важнейшие документы эпохи в подлиннике. С 17 века у маньчжур был оригинальный алфавит, но потом они перешли на китайские иероглифы. Китайцы сильно развили язык завоевателей, добавили в него множество слов, перевели на маньчурский Дао Де Цзин и военный трактат Сунь-Цзы, и в конце 19 века успешно ассимилировали Маньчжурию. Сейчас почти все маньчжуры говорят на китайском за исключением небольшой обособленной народности Сибо. Уже в конце 19 века маньчжурский язык считали вымирающим, сейчас его можно считать почти мертвым.

Исторически в России XIX в. сложилась мощная школа маньчжуроведов, которая, как пишут, сдала в XX в из-за войн и революций. В сети можно найти скан в pdf глубоко проработанный «Полный маньчжурско-русский словарь» И.И. Захарова издания 1875 г. Но в данном случае удобнее пользоваться оцифрованным маньчжурско-английским словарем Дж.Нормана. Здесь можно послушать песенку ARKI UCUN с латинским подстрочником. Как я понял, название переводится вроде «давайте выпьем» или как-то похоже.



Маньчжурский офицер династии Цин, поздние 1700е, картинка из Википедии

Описание методики


Алфавит и трансляция

В общем, я взял очень много из работы, которую проделал William Porquet. На его страничке есть большой пост A Manchu Skeleton Key to the Voynich Manuscript. С главной страницы там ссылок на него нет, но он гуглится, и также я много интересно нашел в корневой веб-папке, где лежит статья. Кроме этого он оставлял ссылки на статью на разных форумах войничеведов.

Итак, взяв алфавит Банасика и его расширение, которое предложил Porquet, можно перевести текст манускрипта в несколько вариантов текста на латинице с небольшим числом дополнительных букв. Далее двигаясь в предположении, что мы получили некий текст на маньчжурском языке или же на одном из его диалектов — вымершим или смешанным с дополнительными словами из другого языка, мы можем попытаться получить варианты переводов каждого слова и фраз из нескольких слов. Одно из главных предположений состоит в том, что слова были написаны на слух или же человеком, владеющих языком без глубокого знания грамматики и орфографии — если таковая была на момент создания. Это значит, что одно слово может быть записано несколькими похожими вариантами. В пользу этого говорят особенно распространенные окончания ain, aiin, aiiin, daiin, итд. в нотации EVA (European Voynich Alphabet).

Первым делом я создал базу для анализа текста. По ряду причин был выбран Oracle 11g. Oracle упомянут из-за того, что примеры запросов будут приводиться на его версии SQL. Со скриптами вы можете ознакомиться в репозитории Github. Там выложен набор скриптов, создающих схему, таблицы и ряд DML SQL скриптов, наполняющих данными таблицы манускрипта, маньчжурско-английского словаря и некоторых других.

Итак, несложной последовательностью регулярных выражений из текстовых записей манускрипта в EVA и в расширенном алфавите Банасика получаем скрипты, импортирующие VMS построчно, где индекс строки выглядит как
<page_numberSIDE_LETTER.row_number>
. Например, вторая строка первой страницы рукописи имеет индекс
<b><1r.2></b>
:

Первые 2 строки VMS в нотации EVA выглядят так (взято с www.voynich.nu/analysis.html):



fachys.ykal.ar.ataiin.Shol.Shory.cThres.y,kor.Sholdy
sory.cKhar.or,y.kair.chtaiin.Shar.are.cThar.cThar,dan

Трансляция будет выглядеть так:

'<1r.1>   ', 'fachys.ykal.ar.ataiin.Shol.Shory.cThres.y,kor.Sholdy'

'<1r.1>   ', 'cušil i cum us uhungg tom tosi jolkl i cos tombi'


'<1r.2>   ', 'sory.cKhar.or,y.kair.chtaiin.Shar.are.cThar.cThar,dan'

'<1r.2>   ', 'losi gus os i cuks šhungg tus url jus jus bug'


Подпись в конце пятой строки первого параграфа ydaraiShy превращается в ibusurti. Мне кажется, что это какое-то имя собственное. В маньчжурском словаре такого слова нет, как я выяснил через простой поиск в facebook, это может означать человек родом из города Сурат ( «солнечный город») на юге Индии — по-русски как суртиец. Правда, не на маньчжурском, а на хинди или гуджарати…

Сравнение функции подобия

Слова и словосочетания, переведенные таблицей из VMS в латиницу, нужно сопоставить с словами из словаря Нормана. Одна запись в словаре содержит одно слово или словосочетание из нескольких маньчжурских слов заглавными буквами и их английский перевод, который может иметь несколько значений. Например:

CŪŠILE crystal
NIYOHOMBI to have sexual intercourse

В CŪŠILE транслируется первое слово fachys на первой странице 1r, второе неоднократно мелькает в рукописи, включая грамматически верные склонения в маньчжурском. В этом же слове удобно показать добавочные буквы: C звучит как твердое «ч», Š — как «ш», Ū — примерно как «ю».

SOUNDEX

Для начала, чтобы проиндексировать и сопоставить словарь и рукопись я взял проcто функцию SOUNDEX. Это старейший фонетический алгоритм, создан аж в 1918 году и по-моему использовался еще до компьютеров при переписи населения США. Создав в таблице словаря и в таблице, где хранятся словарные фрагменты рукописи, столбцы с индексом SOUNDEX, можно по нему посмотреть варианты перевода.
К сожалению, SOUNDEX загребает слишком много лишнего. Он берет первые 2-3 слога из слова, переводит из в буквенно-цифровой код, где группы похожих звуков (т.е. букв) переводятся в один символ. Подробнее — в приведенной ссылке в Вики. Но он дает варианты перевода на английский! Это первое приближение, и оно очень важно.

METAPHONE

Развитие фонетических алгоритмов привело к созданию Metaphone и потом — Double Metaphone. Это более продвинутый вариант сравнения слов. Вместо буквенно-цифрового кода из слова или фразы вычисляется чисто буквенный код, приведенный к одному регистру. Обычно гласные убираются, парные или похожие согласные сворачиваются в одного представителя. Все разделители и небуквенные символы игнорируются. Metaphone появился на границе 80х-90х, Double Metaphone — в середине 90х, Metaphone 3 — в 2009. Последний является коммерческим софтом, продается вместе с небольшой базой для сравнения имен и фамилий, написанных по-английски. Есть реализации Double Metaphone для разных языков, учитывающих произношения в них латинских букв и буквосочетаний. Есть и для русского. Для маньчжурского нет. Я нашел свободную реализацию Double Metaphone на PL/SQL, и немного расширил ее, добавив вышеописанные буквы и еще парочку подобных. В репозитории она доступна, там буквально несколько строчек изменены. Да, особенности морфологии языка со всякими склонениями, суффиксами и приставками он не поймает, но даже то, что получилось — очень интересно.

Соединение таблицы с пословной нарезкой манускрипта и маньчжурского словаря по полю кода METAPHONE (MPH_CODE) через LEFT JOIN.
Ниже в таблице показаны варианты перевода первой строки первой страницы <1r.1>. Большинство слов имеет несколько вариантов, но для слова 5 ( uhungg ) и 8 ( jolkl ) их нет ни одного.

'<1r.1>   ', 'fachys.ykal.ar.ataiin.Shol.Shory.cThres.y,kor.Sholdy'

'<1r.1>   ', 'cušil i cum us uhungg tom tosi jolkl i cos tombi'


N — номер слова в строке <1r.1>
NWORD — слово в предложенный алфавит
MPH_CODE — метафоновский код слова NWORD
WORD — вариант маньчжурского слова из словаря Нормана, у которого метафоновский код равен коду от NWORD
TRANSLATION — перевод маньчжурского слова

N NWORD MPH_CODE WORD TRANSLATION
1 cusil CSL CUSILE crystal
2 i I I 1. he, she 2. the genitive particle 3. an interjection used to get the attention of subordinates
2 i I IO oil, paint, lacquer
2 i I II see i i
2 i I IOI 1. a musical instrument made in the shape of a lying tiger--the toothed ridge down the back is stroked with a wooden stick at the conclusion of a musical selection 2. one of the five tones; cf. yumk'a
2 i I I I 1. (onom.) the sound of sobbing 2. an interjection of derision
3 cum CM CIME a salt-water fish resembling the salmon
3 cum CM COMO see coman
4 us US USE seed, egg (of an insect)
4 us US UCE door
4 us US USA exclamation used to get someone's attention
5 uhungg      
6 tom TM TOOME see tome
6 tom TM TOMOO frame used for weaving nets
6 tom TM TIMU topic, theme
6 tom TM TOME (postposition) every, each
6 tom TM TAMA sole (fish)
7 tosi TS TEISU 1. assigned place, designated place, responsibility, one's part 2. corresponding, matching, facing, opposite
7 tosi TS TESU original, local
7 tosi TS TOOSE 1. weight (for a balance) 2. power, authority, right 3. spindle
7 tosi TS TOSE see toose
7 tosi TS TESE plural of tere: those, they
7 tosi TS TES (onom.) the sound of rope, thread, or a leather thong breaking under stress
7 tosi TS TOSI white spot on the forehead of an animal
7 tosi TS TSU vinegar
7 tosi TS TUSA profit, gain, benefit, advantage
7 tosi TS TUSY chieftain of a native tribe
8 jolkl      
9 i I II see i i
9 i I IOI 1. a musical instrument made in the shape of a lying tiger--the toothed ridge down the back is stroked with a wooden stick at the conclusion of a musical selection 2. one of the five tones; cf. yumk'a
9 i I I I 1. (onom.) the sound of sobbing 2. an interjection of derision
9 i I IO oil, paint, lacquer
9 i I I 1. he, she 2. the genitive particle 3. an interjection used to get the attention of subordinates
10 cos CS CECE silk gauze
10 cos CS CASI in that direction, thither, there
10 cos CS CESE register, official record
10 cos CS CISE vegetable or flower garden
10 cos CS CAISI see caste
10 cos CS CISU private, private interest or profit
10 cos CS CISUI out of one's own interest, on one's initiative, naturally (see also ini cisui), privately, on one's own
10 cos CS COS the sound of ricocheting or rebounding
10 cos CS CUSE 1. bamboo 2. silk 3. a cook
10 cos CS CAISE 1. hairpin 2. a cake made of fried vermicelli
11 tombi TMB TUMBI to hunt, to pursue
11 tombi TMB TOOMBI to scold, to rail at, to abuse, to curse
11 tombi TMB TEMBI 1. to sit 2. to reside, to live 3. to occupy (a post)
11 tombi TMB TAMBI 1. to get caught on something, to get entangled and trip over something 2. to get caught in a trap or net
11 tombi TMB TUMBI to hit, to beat, to pound; cf. dumbi
11 tombi TMB TOMBI see toombi

Как видите, некоторые слова похожи по виду, некоторые отстоят далековато, из-за почти полного вырезания гласных в коде от слова выдаются все варианты маньчжурских слов, у которых между согласными совсем другие гласные звуки. Коротки одно- и двух-буквенные слова — вообще «пальцем в небо». Но уже интересно — намного интереснее, чем искать по словарю вручную с Ctrl-F.

Всего использовалось три модификации метафона — исходная английская и еще две модифицированные, со дополнительными буквами и с изменениями правил свертки.

Пересылки на синонимы в поле перевода

Небольшая коррекция словаря — к полю перевода, содержащее пересылки «see SOME_OTHER_WORD» через разделитель добавляется перевод этого синонима.
Пересылки на синонимы ловятся регулярным выражением.

Например приведенный выше в таблице:
TOSE see toose

сразу дополняется переводом ссылки:
TOSE see toose :: 1. weight (for a balance) 2. power, authority, right 3. spindle

Морфология. Склонения глаголов по временам

Идем дальше. Можно погрузиться в язык глубже. Глаголы в маньчжурском склоняются по временам добавлением окончания. Вот здесь приведена таблица склонений с примерами и соответствиями английским временам. Можно заметить, что на один английский Present Continious или Past Continious есть несколько разных маньчжурских вариантов. Видимо они отражают какие-то непонятные мне тонкости или это просто синонимы, но для поиска соответствий в Войниче это не важно. Из таблицы словаря делаем и сохраняем выборку глаголов в форме инфинитива — то есть все слова заканчивающиеся на инфинитивное окончание -MBI и имеющие в поле перевода подстроку " to ". Убрав окончание и сохранив результат в отдельную таблицу, получаем список глагольных маньчжурских корней MANCHU_VERB_STEM.
Например, глагол AKŪMBI (to die) сохраняется как: AKŪ.

Из указанной выше ссылки берем таблицу склонений и делаем справочную таблицу MANCHU_VERB_SUFFIX:



Все возможные варианты склонений глаголов — это фактически декартово произведение этих таблиц. Причем поиск в манускрипте проводится точно так же, по коду Metaphone, а при склонении к коду корня глагола добавляется метафоновский код окончания-суффикса. Из-за этого можно пренебречь разными вариантами окончаний для большинства времен.

Например из склонений Simple Past в словаре к разным глаголам добавляются разные окончания, но для поиска по по нарезанному манускрипту к метафоновскому коду добавится только H или K.

Past -ha (-he, -ho, -ka, -ke, -ko), Example: araha (I wrote)

Вот так выглядит часть кода представления TRANSL_VERBS21, выдающее варианты перевода сразу одно- и двух-словных сочетаний с учетом морфологии глаголов: варианты склонений выдаются через внутренний подзапрос с UNION ALL:

<code class="sql">SELECT LPAD (                TRIM (    REGEXP_REPLACE (idx,                 '<([[:digit:]]+)([rv]).([[:digit:]]*)>',                                   '\1')),               3,   '0')                                                           lpad1,             REGEXP_REPLACE (idx, '<([[:digit:]]+)([rv]).([[:digit:]]*)>', '\2')          lpad2,             LPAD( trim( regexp_replace(idx, '(\.[:digit:]*)>', '\1') ) , 3, '0')             lpad3,             nw.ID,             nw.id_type,             nw.n_type,             nw.idx,             nw.n,             nw.nword,             nw.sound_code,             nw.mph21_code,             v.word,             v.translation        FROM VMS.gonk2_nword nw             LEFT JOIN             (SELECT VS.STEM || suff.suffix WORD,                     suff.description || ' : ' || VS.TRANSLATION translation,                     metaphone21 (VS.STEM || suff.suffix) mph21                FROM VMS.MANCHU_VERB_STEM vs                     CROSS JOIN VMS.MANCHU_VERB_SUFFIX suff               WHERE suff.suffix <> 'mbi'              UNION ALL              SELECT D.WORD, D.TRANSLATION, D.MPH21_CODE                FROM VMS.MANCHU_DICT_JOIN d) v                ON NW.MPH21_CODE = v.mph21       WHERE nw.n_type IN (1, 2) </code>

Пример. В маньчжурской грамматике есть еще множество вариантов изменения глаголов с помощью суффиксов, но совсем глубоко закапываться — заняло слишком много сил, так что давайте просто посмотрим, как выявляются морфологии глагола NIYOHOMBI:

<code class="sql">select * from VMS.TRANSL_VERBS21 rt where 1=1  and (   word like '%HOMBI%'  or translation like '%niyohomb%'   or word like '%NIOH%'    )   and n_type = 2 </code>



Результаты


Пересечение со словами из списка Сводеша

Списки Сводеша (Swadesh lists) — базисная лексика, наборы основных слов, по которым лингвисты оценивают родство двух или нескольких языков между собой. Например, вот здесь таблица сравнения славянских языков по списку Сводеша. Также по таблицам оценивают скорость изменения языка во времени. Базовые слова из таких списков замещаются или меняются намного реже, чем другие, но время от времени и они тоже. Например, в русском языке слово «глаз» — наносное, почти жаргонное, пришло на смену общеславянскому слову «око» в каком-то там 13 или 14 веке. Первоначально означало камешек с дыркой внутри. Очи остались в поэзии, пословицах и церковных текстах. Списки Сводеша есть на 100, 200 и 215 слов. Пишут, что лингвисты больше всего используют самый короткий список на 100 слов. Если интересно, вот биография Морриса Сводеша на русском.

Просто для интереса я записал большой английско-маньчжурский список на 207 слов в отдельную таблицу и пересек со всеми переводами всех наборов из 1 и 2 слов из манускрипта, отсортировав по частоте. Получилась вот такая таблица — это самые верхние, 33 самых частых слов. Тут тоже не все чисто, потому что многие маньчжурские слова в нем приведены в 2 или 3 вариантах в одном поле и значит в, но для первичной оценки — сойдет.

<code class="sql">select T21.NWORD, SWM.ENG_WORD, SWM.WORD, count(*)  from VMS.TRANSL_VERBS21 t21 JOIN (select eng_word, upper(word) WORD  from VMS.SWADESH_MANCHU ) swm      ON swm.word = t21.word    group by T21.NWORD, SWM.ENG_WORD, swm.word    order by 4 desc </code>

Похожих слов не так много, но кое что есть: seed, right, sun, you, to give и несколько других:

Топ 30 таблицы
NWORD SWADESH_ENGLISH SWADESH_MANCHU COUNT
us seed USE 559
bi moon BIYA 306
s you (sing.) SI 290
burg dust BURAKI 194
n'o earth NA 171
ji and JAI 111
ji child JUI 111
b moon BIYA 101
tgi cloud TUGI 57
tobi there TUBA 52
fus back FISA 47
tbi there TUBA 40
usi seed USE 35
n'oh earth NA 34
n earth NA 32
tji cloud TUGI 32
šun sun ŠUN 21
šun ear ŠAN 21
jo child JUI 20
jo and JAI 20
bo moon BIYA 20
ici right ICI 19
ici new ICE 19
šon ear ŠAN 15
šon sun ŠUN 15
tob there TUBA 12
si you (sing.) SI 12
toji cloud TUGI 12
tb there TUBA 12
sun good SAIN 12
so you (sing.) SI 11
bumbi to give BUMBI 9



Статистика по характерным маньчжурским буквосочетаниям

Следующий запрос показывает распределение по частоте таких слов и пар слов с убранными пробелами, которые строго совпадают со словами из словаря. Из всего множества выбраны слова, имеющие характерные для маньчжурского буквосочетания — типа ng , os, mb и так далее. Буквосочетния были выявлены из текста VMS онлайновым анализатором TAPoR с сайта канадского университета Макмастера. Сейчас там есть целая коллекция анализаторов и визуализаторов зависимостей в текстах, но именно этот, что на скриншоте, к сожалению уже недоступен. Есть версия, где нужно копи-пастить текст в форму на страничке, но ссылку на текст передать в параметрах уже нельзя.



Для сравнения — визуализация то же программой собранного мной крошечного маньчжурского корпуса на 14 кб. Это почти все, что удалось накопать — несколько коротких сказок, несколько страниц перевода Дао Де Цзин и несколько материалов для чтения.



Заметно, что визуализатор выделяет уже целые длинные слова, такие как niyalma (человек) или bithe( книга). Таких слов в манускрипте нет, но зато есть множество редких обрывков или целых слов, вполне согласующихся с грамматикой языка, многие даже со склонениями.

В статье Монтемурро проанализированы энтропийные близости слов рукописи и на построена диаграмма нескольких кластеров слов, связанных между собой большой близостью ( Рис.2 ). Этот же рисунок графов с наложенными «переводами» выглядит так.



Здесь я пропустил несколько слов и надо было с самого начала делать синий цвет у всех надписей…

Приведенный ниже запрос считает статистику по частоте слов с включениями характерных частей, выделенных онлайновым анализатором из первого скриншота. Еще ниже показаны результаты.

<code class="sql">  select nword, word, translation , count(*)    from VMS.TRANSL_VERBS21 t    where ( T.NWORD like '%ng%'            OR nword like '%mb%'            OR nword like '%us%'           OR nword like '%os%'           OR nword like '%šom%'           OR nword like '%um%'             OR nword like '%tk%'            OR nword like '%urg%'            OR nword like '%ur%'            )    and upper(trim( replace(nword,' ') )) = word     group by nword, word, translation    order by 4 desc </code>

Всего в таблице 38 слов, но показаны 17 с частотой более 1, остальные под спойлером.

NWORD WORD TRANSLATION COUNT(*)
cos COS the sound of ricocheting or rebounding 28
ombi OMBI (imperfect participle -joro, imperative -so) 1. to become, to change into 2. to be, to exist 3. to be proper, to be permissible 18
usun USUN fussy, bothersome, overly talkative 11
us un USUN fussy, bothersome, overly talkative 10
bumbi BUMBI (-he) to give 9
šom bi ŠOMBI (-ha) 1. to scrape, to scrape off, to level off 2. to curry (livestock) 8
tombi TOMBI see toombi :: to scold, to rail at, to abuse, to curse 8
oso OSO the imperative of ombi 6
tosi TOSI white spot on the forehead of an animal 6
šombi ŠOMBI (-ha) 1. to scrape, to scrape off, to level off 2. to curry (livestock) 5
os o OSO the imperative of ombi 4
bum bi BUMBI (-he) to give 3
fusi FUSI abominable, loathsome, frightful, monstrous 3
bombi BOMBI (-ngko, -re) to pierce, to bore, to make a hole with an awl or pick 2
urg un URGUN 1. joy, felicity, happiness 2. auspicious sign, good portent 3. congratulations 2
uri URI 1. a round straw container used for storing grain 2. see urui :: 1. just, only 2. steadily, consistently, always 2
dombi DOMBI to alight (of birds and insects) 2

Остальные слова с ng, os, mb и т.д.
NWORD WORD TRANSLATION COUNT(*)
dumbi DUMBI (for tūmbi) to hit, to strike 1
jombi JOMBI (2) (-ngko, -ndoro, -mpi) 1. to bring to mind, to recall, to mention, to bring up 2. to move in the womb 1
fus i FUSI abominable, loathsome, frightful, monstrous 1
tos i TOSI white spot on the forehead of an animal 1
jombi JOMBI (1) (-ho, -ro) to cut with a fodder knife 1
gombi GOMBI (-ha) to go back on one's word, to break a promise, to renege 1
obumbi OBUMBI 1. caus. of ombi 2. to make, to make into, to cause to become, to consider as 1
urgun URGUN 1. joy, felicity, happiness 2. auspicious sign, good portent 3. congratulations 1
mus i MUSI a broth made of roasted flour, sugar., and water 1
šos ihi ŠOSIHI see šosiki :: 1. quick-tempered, irascible 2. chipmunk (Eutamius sibiricus) 1
fumbi FUMBI (2) (-ngke, -mpi) to become numb 1
fursun FURSUN 1. shoots, sprouts (especially of a grain) 2. sawdust 1
šum bi ŠUMBI (-ngke, -mpi) to be thoroughly acquainted with, to be well-versed in, to know thoroughly 1
ungg u UNGGU 1. first, original 2. the first player at the gacuha game 1
urg umbi URGUMBI see urhumbi :: to lean to one side, to be lopsided, to be partial, to be prejudiced to one side 1
b ombi BOMBI (-ngko, -re) to pierce, to bore, to make a hole with an awl or pick 1
us umbi USUMBI to go downstream, to go with the current 1
tumbi TUMBI to hunt, to pursue 1
om osi OMOSI plural of omolo 1
bombon BOMBON a pile, a wad, a cluster, a bunch 1
fumbi FUMBI (1) (-ha/he) to wipe, to wipe off 1


Напоследок — таблица точных соответствий слов из манускрипта и словаря, длиной не менее 3 букв, отсортированных по убыванию длины и только потом по частоте.
Опять, топ показан, остальное — под спойлером. Тексты запросов приводятся лишь потому, что по моему мнению наиболее компактно выражают, что в таблице.

<code class="sql">  select nword, word, translation , count(*)    from VMS.TRANSL_VERBS21 t   where      upper(trim( replace(nword,' ') )) = word      and length(word) >= 3    group by nword, word, translation    order by length(word) desc, 4 desc </code>

NWORD WORD TRANSLATION COUNT(*)
urg umbi URGUMBI see urhumbi :: to lean to one side, to be lopsided, to be partial, to be prejudiced to one side 1
bombon BOMBON a pile, a wad, a cluster, a bunch 1
obumbi OBUMBI 1. caus. of ombi 2. to make, to make into, to cause to become, to consider as 1
šos ihi ŠOSIHI see šosiki :: 1. quick-tempered, irascible 2. chipmunk (Eutamius sibiricus) 1
us umbi USUMBI to go downstream, to go with the current 1
fursun FURSUN 1. shoots, sprouts (especially of a grain) 2. sawdust 1
bumbi BUMBI (-he) to give 9
tombi TOMBI see toombi :: to scold, to rail at, to abuse, to curse 8
šom bi ŠOMBI (-ha) 1. to scrape, to scrape off, to level off 2. to curry (livestock) 8
šombi ŠOMBI (-ha) 1. to scrape, to scrape off, to level off 2. to curry (livestock) 5
tom bi TOMBI see toombi :: to scold, to rail at, to abuse, to curse 4
bum bi BUMBI (-he) to give 3
bombi BOMBI (-ngko, -re) to pierce, to bore, to make a hole with an awl or pick 2
dombi DOMBI to alight (of birds and insects) 2
urg un URGUN 1. joy, felicity, happiness 2. auspicious sign, good portent 3. congratulations 2
b ombi BOMBI (-ngko, -re) to pierce, to bore, to make a hole with an awl or pick 1
jom bi JOMBI (1) (-ho, -ro) to cut with a fodder knife 1
ungg u UNGGU 1. first, original 2. the first player at the gacuha game 1
bom bi BOMBI (-ngko, -re) to pierce, to bore, to make a hole with an awl or pick 1
jombi JOMBI (2) (-ngko, -ndoro, -mpi) 1. to bring to mind, to recall, to mention, to bring up 2. to move in the womb 1
dumbi DUMBI (for tūmbi) to hit, to strike 1
dom bi DOMBI to alight (of birds and insects) 1
šum bi ŠUMBI (-ngke, -mpi) to be thoroughly acquainted with, to be well-versed in, to know thoroughly 1

Остальные 83 слова
NWORD WORD TRANSLATION COUNT(*)
ici hi ICIHI spot, blemish, flaw 1
fumbi FUMBI (2) (-ngke, -mpi) to become numb 1
jom bi JOMBI (2) (-ngko, -ndoro, -mpi) 1. to bring to mind, to recall, to mention, to bring up 2. to move in the womb 1
tumbi TUMBI to hunt, to pursue 1
urgun URGUN 1. joy, felicity, happiness 2. auspicious sign, good portent 3. congratulations 1
om osi OMOSI plural of omolo 1
gombi GOMBI (-ha) to go back on one's word, to break a promise, to renege 1
jombi JOMBI (1) (-ho, -ro) to cut with a fodder knife 1
fumbi FUMBI (1) (-ha/he) to wipe, to wipe off 1
ombi OMBI (imperfect participle -joro, imperative -so) 1. to become, to change into 2. to be, to exist 3. to be proper, to be permissible 18
usun USUN fussy, bothersome, overly talkative 11
us un USUN fussy, bothersome, overly talkative 10
tosi TOSI white spot on the forehead of an animal 6
om bi OMBI (imperfect participle -joro, imperative -so) 1. to become, to change into 2. to be, to exist 3. to be proper, to be permissible 4
gobi GOBI desert, wasteland 4
lobi LOBI gluttonous, ravenous 4
lomi LOMI rice kept in storage for a number of years--the same as hukšeri bele 3
uhun UHUN bundle, package 3
hogi HOGI turkey 3
fusi FUSI abominable, loathsome, frightful, monstrous 3
šoho ŠOHO the white of an egg 3
kobi KOBI 1. concave place, depression 2. the depressions on both sides of the nose 3
šuci ŠUCI one who pretends to know what he in fact doesn't 2
šoli ŠOLI falling short, short of the mark 2
ucun UCUN song, ballad 2
l omi LOMI rice kept in storage for a number of years--the same as hukšeri bele 1
to bo TOBO a simple hut made from willow branches or other like material 1
fus i FUSI abominable, loathsome, frightful, monstrous 1
un un UNUN a load (that can be carried on the back), burden 1
hoji HOJI coriander 1
tos i TOSI white spot on the forehead of an animal 1
šol o ŠOLO 1. free time, leisure, vacation, leave 2. opportunity 3. empty space 1
jo lo JOLO 1. doe, female deer 2. hateful, hideous 1
luši LUŠI secretary in a Board of the eighth or ninth rank 1
foji FOJI a skin covering for boots and shoes (worn in cold weather) 1
mus i MUSI a broth made of roasted flour, sugar., and water 1
onon ONON the male zeren; cf. jeren 1
com o COMO see coman :: goblet, large cup for wine 1
joli JOLI a ladle with many small holes in it used for straining 1
biši BIŠI crab louse, tick 1
l obi LOBI gluttonous, ravenous 1
goji GOJI a crooked finger 1
bi ši BIŠI crab louse, tick 1
dobi DOBI fox 1
toho TOHO a half-grown moose 1
oton OTON a wooden tub without handles or feet 1
oci OCI (conditional of ombi) a particle used to set off the subject: 'as for' 106
cos COS the sound of ricocheting or rebounding 28
fun FUN 1. one-hundredth (of a Chinese foot) 2. powder 3. fragrant odor 28
šun ŠUN 1. sun 2. day 21
ici ICI 1. right (as opposed to left) 2. direction, dimension 3. in accordance with, along with, after, according to, facing, on the side of, toward 19
oho OHO armpit; cf. 0, o mayan, ogū 18
sun SUN milk 12
tob TOB straight, upright, serious, right, just 12
tun TUN island 8
jon JON memory, recall 8
ofi OFI 1. a snare for catching pheasants 2. (perfect converb of ombi) because 7
bon BON pick, awl, tool for making holes in ice 7
oso OSO the imperative of ombi 6
ton TON 1. number 2. counting, reckoning 3. fate 4. one of the twenty-four divisions of the solar year 5
omo OMO lake, pond 4
os o OSO the imperative of ombi 4
hoi HOI see hūi :: 1. red felt edging on the lower part of a saddle blanket 2. an exclamation--now, then 3. meeting, assembly, association 3
s un SUN milk 2
uri URI 1. a round straw container used for storing grain 2. see urui :: 1. just, only 2. steadily, consistently, always 2
ošo OŠO a leather glove with three fingers used for holding falcons 2
icu ICU a fur coat or jacket without an outer covering 2
son SON rafter, roof support of a tent 2
jo n JON memory, recall 2
om o OMO lake, pond 2
o so OSO the imperative of ombi 1
ogo OGO 1. the depression of a mortar 2. the holes on the iron plate that is used for making the heads of nails 1
i ci ICI 1. right (as opposed to left) 2. direction, dimension 3. in accordance with, along with, after, according to, facing, on the side of, toward 1
joo JOO 1. an imperial order 2. interjection: enough! stop! it won't do! 1
isi ISI Japanese larch 1
coo COO a spade 1
tok TOK (onom.) the sound of striking a hollow wooden object 1
don DON fluttering of birds from one place to another, alighting (of birds) 1
co s COS the sound of ricocheting or rebounding 1
jun JUN 1. stove, hearth 2. tissue, pulp of a tree 3. vein 1
too TOO a hand drum 1
hon HON very, most, too 1
uli ULI 1. bowstring 2. fruit of the flowering cherry (Prunus sinensis) 1


Отдельные слова

Статистика по некоторым словам, отобранных по словарю. Прежде всего интересно искать в травнике. Из списка убрал слово «женщина», чтобы сократить вывод.

<code class="sql">  select nword, word, translation , count(*)    from VMS.TRANSL_VERBS21 t   where       (       translation like '%magic%'          or translation like '%medicine%'       or translation like '%herb%'       or translation like '%grass%'       or translation like '%medicine%'        -- or translation like '%woman%'      )    group by nword, word, translation    order by word , 4 desc </code>

Вот, что получается. Здесь уже не только полностью совпадающие слова, но все совпадения по метафону — поэтому некоторые непохожи. Но магии ( FANGGA) в тексте достаточно…

NWORD WORD TRANSLATION COUNT(*)
bcti BEKTO fritillary (an herbal medicine) 2
b icti BEKTO fritillary (an herbal medicine) 1
bi octo BEKTO fritillary (an herbal medicine) 1
bi gti BEKTO fritillary (an herbal medicine) 1
bocti BEKTO fritillary (an herbal medicine) 1
bkt BEKTO fritillary (an herbal medicine) 1
bi icto BEKTO fritillary (an herbal medicine) 1
bicti BEKTO fritillary (an herbal medicine) 1
c kurg CACARAKŪ a gray grasshopper 1
droci DERESU feather grass, broom grass (Lasiagrostis splendens) 1
fungg FANGGA magic, possessed of magic powers 108
f ungg FANGGA magic, possessed of magic powers 4
fo ungg FANGGA magic, possessed of magic powers 1
fi iungg FANGGA magic, possessed of magic powers 1
fungg i FANGGA magic, possessed of magic powers 1
fngg FANGGA magic, possessed of magic powers 1
fungg? FANGGA magic, possessed of magic powers 1
fun icko FANGGA magic, possessed of magic powers 1
fumobi FEMBI 1. to lay out new-mown hay or other grass to dry 2. to talk heedlessly 1
fumbi FEMBI 1. to lay out new-mown hay or other grass to dry 2. to talk heedlessly 1
fi hi FEha Simple Past: 1. to lay out new-mown hay or other grass to dry 2. to talk heedlessly 1
fug FEka Simple Past (suff.k): 1. to lay out new-mown hay or other grass to dry 2. to talk heedlessly 2
fi ohki FEka Simple Past (suff.k): 1. to lay out new-mown hay or other grass to dry 2. to talk heedlessly 1
fuk FEka Simple Past (suff.k): 1. to lay out new-mown hay or other grass to dry 2. to talk heedlessly 1
fum bumbi FEme bimbi Present Continuous 1: 1. to lay out new-mown hay or other grass to dry 2. to talk heedlessly 1

Остальное. Примерно сотня строк, некоторые интересны. Например OKTO — 1. drug, medicine 2. gunpowder 3. dye 4. poison
NWORD WORD TRANSLATION COUNT(*)
fi FOYO 1. ula grass--a soft grass used as padding in shoes 2. cloth woven from horsehair 67
f FOYO 1. ula grass--a soft grass used as padding in shoes 2. cloth woven from horsehair 16
?fi FOYO 1. ula grass--a soft grass used as padding in shoes 2. cloth woven from horsehair 4
fu FOYO 1. ula grass--a soft grass used as padding in shoes 2. cloth woven from horsehair 2
fo FOYO 1. ula grass--a soft grass used as padding in shoes 2. cloth woven from horsehair 2
fi oh FOYO 1. ula grass--a soft grass used as padding in shoes 2. cloth woven from horsehair 1
f? FOYO 1. ula grass--a soft grass used as padding in shoes 2. cloth woven from horsehair 1
fus l FUSELI an inedible freshwater fish resembling the black carp whose gall is used as a medicine 1
gurg GURUka Simple Past (suff.k): (1) to dig up, to dig out (vegetables, herbs) 1
hkohti HAKDA old grass left over from the previous year, a spot of grass remaining in an area that has been burnt over 1
hocti HAKDA old grass left over from the previous year, a spot of grass remaining in an area that has been burnt over 1
hkti HAKDA old grass left over from the previous year, a spot of grass remaining in an area that has been burnt over 1
h?i octi HAKDA old grass left over from the previous year, a spot of grass remaining in an area that has been burnt over 1
hurs HERESU a grass growing along the edges of salt marshes that is eaten by camels 17
?hurs HERESU a grass growing along the edges of salt marshes that is eaten by camels 1
hurci HERESU a grass growing along the edges of salt marshes that is eaten by camels 1
hurs i HERESU a grass growing along the edges of salt marshes that is eaten by camels 1
hofi HIFE barnyard grass (Panicum crusgalli) 3
h?fi HIFE barnyard grass (Panicum crusgalli) 2
hfi HIFE barnyard grass (Panicum crusgalli) 1
ici hi ISIha Simple Past: (2) (-ha) to pull up (grass), to pluck 1
ios ug ISIka Simple Past (suff.k): (2) (-ha) to pull up (grass), to pluck 1
icico ISIka Simple Past (suff.k): (2) (-ha) to pull up (grass), to pluck 1
jol n JALAN 1. a section (of bamboo, grass, etc.), a joint 2. generation, age 3. world 4. subdivision of a banner, ranks 5. measure word for walls and fences 1
n'oci mbi NIYECEMBI 1. to mend 2. to fill in, to fill (a post) 3. to supplement 4. to nourish (of foods and medicines) 1
n'oci ohobi NIYECEha bi Past Continuous 1: 1. to mend 2. to fill in, to fill (a post) 3. to supplement 4. to nourish (of foods and medicines) 1
n'oc?i hob NIYECEha bi Past Continuous 1: 1. to mend 2. to fill in, to fill (a post) 3. to supplement 4. to nourish (of foods and medicines) 1
n'oc?i hob NIYECEhobi Indefinite Past: 1. to mend 2. to fill in, to fill (a post) 3. to supplement 4. to nourish (of foods and medicines) 1
n'oci ohobi NIYECEhobi Indefinite Past: 1. to mend 2. to fill in, to fill (a post) 3. to supplement 4. to nourish (of foods and medicines) 1
n'oc?i hob NIYECEhoi bi Past Continuous 3: 1. to mend 2. to fill in, to fill (a post) 3. to supplement 4. to nourish (of foods and medicines) 1
n'oci ohobi NIYECEhoi bi Past Continuous 3: 1. to mend 2. to fill in, to fill (a post) 3. to supplement 4. to nourish (of foods and medicines) 1
n'octi NUKTE 1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals 318
n'octo NUKTE 1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals 28
n'ogti NUKTE 1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals 3
n'octi o NUKTE 1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals 3
n'o cti NUKTE 1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals 3
n'ohkti NUKTE 1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals 3
n'cto NUKTE 1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals 1
n'o ct NUKTE 1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals 1
n'oct NUKTE 1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals 1
n'okti NUKTE 1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals 1
n'oocti NUKTE 1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals 1
n'oicti NUKTE 1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals 1
n'ocoti NUKTE 1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals 1
n' octi NUKTE 1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals 1
n'oct? NUKTE 1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals 1
n'ohki ohti NUKTE 1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals 1
n'okhti NUKTE 1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals 1
n'cti NUKTE 1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals 1
n'octu NUKTE 1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals 1
octi OKTO 1. drug, medicine 2. gunpowder 3. dye 4. poison 180
octo OKTO 1. drug, medicine 2. gunpowder 3. dye 4. poison 26
o cti OKTO 1. drug, medicine 2. gunpowder 3. dye 4. poison 8
oicti OKTO 1. drug, medicine 2. gunpowder 3. dye 4. poison 3
oct OKTO 1. drug, medicine 2. gunpowder 3. dye 4. poison 2
ocou ti OKTO 1. drug, medicine 2. gunpowder 3. dye 4. poison 1
ohkti OKTO 1. drug, medicine 2. gunpowder 3. dye 4. poison 1
o octo OKTO 1. drug, medicine 2. gunpowder 3. dye 4. poison 1
ocoti OKTO 1. drug, medicine 2. gunpowder 3. dye 4. poison 1
ohko ?ohti OKTO 1. drug, medicine 2. gunpowder 3. dye 4. poison 1
ogti OKTO 1. drug, medicine 2. gunpowder 3. dye 4. poison 1
ohkoti OKTO 1. drug, medicine 2. gunpowder 3. dye 4. poison 1
octoi OKTO 1. drug, medicine 2. gunpowder 3. dye 4. poison 1
oc to OKTO 1. drug, medicine 2. gunpowder 3. dye 4. poison 1
ohki to OKTO 1. drug, medicine 2. gunpowder 3. dye 4. poison 1
octi o OKTO 1. drug, medicine 2. gunpowder 3. dye 4. poison 1
ok?hti OKTO 1. drug, medicine 2. gunpowder 3. dye 4. poison 1
octu OKTO 1. drug, medicine 2. gunpowder 3. dye 4. poison 1
ohktl ohko OKTOLOka Simple Past (suff.k): 1. to treat with medicine 2. to poison 1
octol ohki OKTOLOka Simple Past (suff.k): 1. to treat with medicine 2. to poison 1
omombi OMIMBI 1. to drink 2. to smoke (tobacco) 3. to take (medicine) 2
ommbi OMIMBI 1. to drink 2. to smoke (tobacco) 3. to take (medicine) 1
omumbi OMIMBI 1. to drink 2. to smoke (tobacco) 3. to take (medicine) 1
omhi OMIha Simple Past: 1. to drink 2. to smoke (tobacco) 3. to take (medicine) 2
omohi OMIha Simple Past: 1. to drink 2. to smoke (tobacco) 3. to take (medicine) 1
omhibi OMIha bi Past Continuous 1: 1. to drink 2. to smoke (tobacco) 3. to take (medicine) 2
omi hob?i OMIha bi Past Continuous 1: 1. to drink 2. to smoke (tobacco) 3. to take (medicine) 1
omhibi OMIhobi Indefinite Past: 1. to drink 2. to smoke (tobacco) 3. to take (medicine) 2
omi hob?i OMIhobi Indefinite Past: 1. to drink 2. to smoke (tobacco) 3. to take (medicine) 1
omhibi OMIhoi bi Past Continuous 3: 1. to drink 2. to smoke (tobacco) 3. to take (medicine) 2
omi hob?i OMIhoi bi Past Continuous 3: 1. to drink 2. to smoke (tobacco) 3. to take (medicine) 1
om hki OMIka Simple Past (suff.k): 1. to drink 2. to smoke (tobacco) 3. to take (medicine) 2
om c OMIka Simple Past (suff.k): 1. to drink 2. to smoke (tobacco) 3. to take (medicine) 1
omhki OMIka Simple Past (suff.k): 1. to drink 2. to smoke (tobacco) 3. to take (medicine) 1
omcu OMIka Simple Past (suff.k): 1. to drink 2. to smoke (tobacco) 3. to take (medicine) 1
omo ohko? OMIka Simple Past (suff.k): 1. to drink 2. to smoke (tobacco) 3. to take (medicine) 1
omc OMIka Simple Past (suff.k): 1. to drink 2. to smoke (tobacco) 3. to take (medicine) 1
omug OMIka Simple Past (suff.k): 1. to drink 2. to smoke (tobacco) 3. to take (medicine) 1
omco?i OMIka Simple Past (suff.k): 1. to drink 2. to smoke (tobacco) 3. to take (medicine) 1
s SA 1. shaft or thill of an oxcart 2. feather grass from which the outside surface of summer hats are made 3. plural suffix (sometimes written separately) 290
si SA 1. shaft or thill of an oxcart 2. feather grass from which the outside surface of summer hats are made 3. plural suffix (sometimes written separately) 12
so SA 1. shaft or thill of an oxcart 2. feather grass from which the outside surface of summer hats are made 3. plural suffix (sometimes written separately) 11
s _ SA 1. shaft or thill of an oxcart 2. feather grass from which the outside surface of summer hats are made 3. plural suffix (sometimes written separately) 4
s ^ SA 1. shaft or thill of an oxcart 2. feather grass from which the outside surface of summer hats are made 3. plural suffix (sometimes written separately) 4
s i SA 1. shaft or thill of an oxcart 2. feather grass from which the outside surface of summer hats are made 3. plural suffix (sometimes written separately) 2
s o SA 1. shaft or thill of an oxcart 2. feather grass from which the outside surface of summer hats are made 3. plural suffix (sometimes written separately) 2
s h SA 1. shaft or thill of an oxcart 2. feather grass from which the outside surface of summer hats are made 3. plural suffix (sometimes written separately) 1
^s SA 1. shaft or thill of an oxcart 2. feather grass from which the outside surface of summer hats are made 3. plural suffix (sometimes written separately) 1
sus urg SOSOROka Simple Past (suff.k): (-ko) 1. to back up, to withdraw, to retreat 2. to wither, to become senile 3. to rake (grass) 2
sosurg SOSOROka Simple Past (suff.k): (-ko) 1. to back up, to withdraw, to retreat 2. to wither, to become senile 3. to rake (grass) 1
ucti UKADA a mound with grass growing on it 11
ucto UKADA a mound with grass growing on it 1
ucti UKŪDA see ukada :: a mound with grass growing on it 11
ucto UKŪDA see ukada :: a mound with grass growing on it 1
ungg un UNGKAN frozen snow on the top of grass 6
ungg n'o UNGKAN frozen snow on the top of grass 3
ungg on UNGKAN frozen snow on the top of grass 2
ungcun UNGKAN frozen snow on the top of grass 1


Слова, для которых metaphone не смог подобрать ни одного перевода

Топ-15 таких слов. Некоторые из них находят толкование, если их рассматривать в паре с соседним словом — предыдущим или последующим.

NWORD COUNT(*)
škbi 380
tkbi 325
n'ocungg 239
bum 234
n'octbi 230
ocungg 204
n'ocum 202
n'ockbi 181
ohus 181
škfi 179
škom 172
ohungg 166
ocum 163
ohum 161

Многие из них по структуре могли бы быть каким-нибудь маньчжурским словом — имеют характерные суффиксы и окончания -ng-, -ungg-, -mbi-, -bumbi- и так далее.
Одиночных слов без соответствия по самому широкому охвату (TRANSL_VERB21, со склонениями глаголов ) — 18 К из всего 40К. Однако рассмотрение пар соседних слов дает еще 30К уникальных пар, имеющих по крайней мере один метафоновский перевод. И многие слова, не имеющие вариантов перевода в паре с соседними создают сочетания, для которых перевод находится.
Например, skbi даже в парах не дает пеереводов, но следующее такое слово tkbi в одном из 325 мест образует с соседом tkbi ombi — есть 4 варианта перевода. Слово bum составляет многочисленные пары bum bi — и так далее. Наборы из трех и более соседних слов я не генерил и не проверял, но может быть 3-словные блоки стоило бы посмотреть.

Мысли


Количество совпадений слов и грамматических изменений текста позволяют сделать осторожный вывод, что в манускрипте Войнича по крайней мере используются слова из диалекта маньчжурского/чжурчжэньского языка. Последовательности слов плохо укладываются в языковые конструкции типа словосочетаний и предложений. Но их не находили и раньше, статистический анализ не выявлял их с самых первых попыток. Похоже, что во многих местах идет индексная запись — то есть короткие заметки с сокращениями, которые автору были понятны, но при этом они не складываются в связный текст. Многие слова разбиты на части, возможно автор текста записывал его с устной речи другого человека.

Я не могу определить, насколько достоверно найденные слова и их частоты говорят о том, что в рукописи есть маньжурские вставки. В тексте около 170К букв и 40К слов. Точных совпадений слов по словарю — несколько сотен, но я не беру в расчет совсем короткие слова на 1-2 знака. Кроме этого есть тысячи приблизительных совпадений, по коду метафона. Беглый просмотр по страницам вроде показывает, что слово есть в словаре, но с первого взгляда в предложения они не складываются.

Здорово было бы показать это все ученому-компаративисту, специалисту по дальневосточным языкам. Я лично с такими не знаком, но в России они должны быть. Статьи о таких личностях как Сергей Старостин и записанные интервью с ними подсказывают, что в РГГУ или МГУ надо искать. Могут, конечно, сказать, что это все ерунда. И вообще, неизвестно, как часто к ним приходят с идеями и вопросами по Войничу, может уже и надоело…

В процессе всего этого я наткнулся на любопытный онлайн-курс Corpus Linguistics от Lancaster University на платформе FutureLearn. Я даже записался на него, но, что называется, не пошло. Сама платформа и подача материала не такая удобная, как на Coursera, да и времени перестало хватать после первой недели. Может быть, стоит взяться за него основательнее в следующий заход. Из него пока могу посоветовать энтузиастам программу AntConc — она предназначена для анализа конкордансов текстов, используя загруженные корпусы их выборки из них. Также переделанная из английской в маньчжурскую версия функции Metaphone очень несовершенна — нуждается в улучшении.

При обсуждении знакомый веб-программист предложил простой способ распознать всю рукопись: порезать картинки страниц на отдельные слова и пары слов вставлять их в капчу при логине на сайты…

Ссылки с комментариями


Основное

Интервью с Марчелло Монтемурро на Lenta.ru
Marcelo A. Montemurro, Damian H. Zanette, PLoS ONE, 2013
Критика его статьи на странице войничеведа
Статья в Компьютерре 2005 года о манускрипте
Обзор-презентация истории VMS, попыток дешифровки и статистический анализ
Удобный просмотр МВ. Voyage the Voynich Manuscript

Willam Porquet's page
A Manchu Sceleton key to VMS
Full trangokulation with initial VMS text

A list of theories
Voynich theories
A visual map of Voynich evidence theories

Остальное
Visualizing textual structures in the Voynich manuscript
Hoaxing the Voynich manuscript — part 3
Hoaxing the Voynich manuscript — part 4

Подробный анализ зодиакальной части

Voynich alphabets, scripts — on Omniglot

Manchu theory

Ответ Столфи о маньчжурской теории — обсуждение аспектов

Бразилец Жорже Столфи ведет самый известный и актуальный сайт по МВ, но есть много других

Zbigniew Banasik's Manchu theory
Первые переводы Збигнева Банасика

Работа польского профессора, анализ языков Земли и манускрипта

Отзыв на reddit

Manchu library
Wikibooks
Wikibooks 2
Wikibooks 3
Wikibooks 4
Google booksManchu: A Textbook for Reading Documents: Чжурчженьский( manchu ) язык
Чжурчженьский на Омниглоте
Jurchen script on Wiki

Монгольские и тюркские заимствования в образцах малого чжурчжэньcкого письма

Чжурчжэньское письмо. Википедия

Про Сергея Старостина и глоттохронологию

Школа злословия
О Старостине на Альтаике
Сергей Старостин. Два подхода к изучению истории языка
На каком языке говорили Адам и Ева

Retouching

Большой текст воспоминаний о И.И.Захарове и русско-китайских отношениях в 19 в

Маньчжурские manchzhurskie письменные памятники как источник по истории и культуре империи Цинь 17-18 вв

voynich.net

Еще из Компьютерры 2005 года — про отчаянных расшифровщиков непрочтенных древних текстов

Картинки

Визуализатор manchu VMS в виде пузырьков — из коллекции TAPoR:



Как некоторые исследователи VMS аргументируют гипотезу о том, что женщины в бассейнах — это изображение внутренних органов человека.

1. Почки



2. Мозг



3. Сердце

4. Легкие

5. Глазные яблоки



Источник: habrahabr.ru/post/186952/