2014-06-21

Манускрипт Войнича. Маньчжурский кандидат

Манускрипт Войнича (МВ или VMS) называют чашей Грааля криптографии. За несколько сотен лет тысячи человеко-дней были потрачены и продолжают тратиться в попытках разгадать его смысл и перевод. Причем пытались люди очень разные, в том числе выдающиеся мировые криптографы. Пока что получается не очень. Две с небольшим сотни пергаментных страниц, неизвестный алфавит, неизвестный язык, каллиграфический уверенный почерк, десятки рисунков неизвестных растений и обнаженных женщин, купающихся в странных каналах, зодиакальные астрологические диаграммы — множество зацепок, но пока ничего, что позволило бы дешифровать рукопись. Для любого, кто хоть чуть-чуть попробовал поразгадывать крючки, МВ представляется идеальной головоломкой — не имеющей пока известной разгадки.

Страница 16v

Видел несколько месяцев назад пост на Хабре про ацтекский язык и ботаников, опознавших несколько центрально-американских растений, но всё-таки достану из черновиков свои записи. Их цель — познакомить читателей с миром разгадывателей VMS и моим не очень глубоким анализом одной из относительно недавних гипотез — о маньчжурском языке манускрипта.

Прогуляться по сканам высокого разрешения можно здесь: Voyage the Voynich Manusript

Впервые с МВ я познакомился из давней статьи в бумажной Компьютерре, но немного позаниматься им захотелось сейчас, после интервью Ленты.ру с автором последнего исследования Марчелло Монтемурро, опубликованным на PLoS One. Советую ознакомиться со статьями в Википедии и Компьютерре и интервью на Ленте.

Граф статистической связанности между частями манускрипта — рисунок из статьи Монтемурро

За историю разгадывания рукописи появилась уйма гипотез о её языке — от европейских (одном или их смеси) и ближневосточных до совершенно редких и дальних, типа древнеяванского или индейских, носители которых с Европой 15 века не контактировали; не обошлось и без перевода с древнеукраинского. Одни из последних «прорывов» начала этого года — это расшифровка десятка слов британским лингвистомСтивеном Бэксом и попытки привязать некоторые рисунки и подписи к центрально-американским эндемикам и индейским языкам. Также немало исследователей отчаялись и решили, что текст — подделка или бессмыслица, абракадабра, созданная с целью напустить тумана или поразить покупателей. Но все же тех, кто верит, что МВ — реальный зашифрованный текст — намного больше. Есть причины полагать, что это так:
1. Наличие сложной структуры текста. Как и все реальные языки, МВ подчиняется закону Ципфа, т.е. частота слова обратно пропорциональна его порядковому номеру в отсортированной по частоте последовательности.
2. По энтропийным характеристикам текст близок к европейским языкам — латинскому, английскому

Помнится, в одной из автобиографических книг Ричарда Фейнмана описывается его анализ альбомных листов якобы неизвестных книг c иероглифами Майя. В том рассказе Фейнману довольно быстро удалось расколоть подделку с помощью статистических оценок и логических рассуждений. Дальше он с восторгом фантазирует — как было бы здорово, если кто-то решился бы создать по-настоящему крутую подделку, с учетом всех закономерностей в таких текстах. Если кому-то когда-то такая подделка удалась — то это МВ.

В 2003-2004 некий польский исследователь Збигнев Банасик (Zbigniew Banasik) предложил маньчжурскую версию. Ссылок на него, кроме его письма о Войниче, я не находил, только при написании этой статьи нашел публикацию в польской газете. Google дает перевод, это любитель-лингвист и полиглот из села под Вроцлавом… Он предложил трансляцию алфавита манускрипта в латиницу и дал начальное толкование первой страницы. Первая страница манускрипта 1r — одна из главных целей атак на VMS, считается, что разгадав хотя бы ее часть, можно получить ключи ко всей рукописи.

Короткая справка о маньчжурском языке.

Есть статья русской Википедии. Вкратце, маньчжуры — народ, живший в северной части современного Китая и немного дальневосточной России, родом с Прибайкалья и Алтая. Более древнее название — чжурчжени. В 17 веке напали и захватили Китай, спалили Шаолинь, основали династию Цин, которая правила до начала 20 века. В этот период официальный документооборот Поднебесной велся на манчьжурском языке, в китайских архивах скопилось коллосальное число документов, до которых у исследователей не дошли руки. Считается, что хороший историк-китаист должен овладеть маньчжурским хотя бы для того, чтобы прочитать важнейшие документы эпохи в подлиннике. С 17 века у маньчжур был оригинальный алфавит, но потом они перешли на китайские иероглифы. Китайцы сильно развили язык завоевателей, добавили в него множество слов, перевели на маньчурский Дао Де Цзин и военный трактат Сунь-Цзы, и в конце 19 века успешно ассимилировали Маньчжурию. Сейчас почти все маньчжуры говорят на китайском за исключением небольшой обособленной народности Сибо. Уже в конце 19 века маньчжурский язык считали вымирающим, сейчас его можно считать почти мертвым.

Исторически в России XIX в. сложилась мощная школа маньчжуроведов, которая, как пишут, сдала в XX в из-за войн и революций. В сети можно найти скан в pdf глубоко проработанный «Полный маньчжурско-русский словарь» И.И. Захарова издания 1875 г. Но в данном случае удобнее пользоваться оцифрованным маньчжурско-английским словарем Дж.Нормана. Здесь можно послушать песенку ARKI UCUN с латинским подстрочником. Как я понял, название переводится вроде «давайте выпьем» или как-то похоже.

Маньчжурский офицер династии Цин, поздние 1700е, картинка из Википедии

Описание методики

Алфавит и трансляция

В общем, я взял очень много из работы, которую проделал William Porquet. На его страничке есть большой пост A Manchu Skeleton Key to the Voynich Manuscript. С главной страницы там ссылок на него нет, но он гуглится, и также я много интересно нашел в корневой веб-папке, где лежит статья. Кроме этого он оставлял ссылки на статью на разных форумах войничеведов.

Итак, взяв алфавит Банасика и его расширение, которое предложил Porquet, можно перевести текст манускрипта в несколько вариантов текста на латинице с небольшим числом дополнительных букв. Далее двигаясь в предположении, что мы получили некий текст на маньчжурском языке или же на одном из его диалектов — вымершим или смешанным с дополнительными словами из другого языка, мы можем попытаться получить варианты переводов каждого слова и фраз из нескольких слов. Одно из главных предположений состоит в том, что слова были написаны на слух или же человеком, владеющих языком без глубокого знания грамматики и орфографии — если таковая была на момент создания. Это значит, что одно слово может быть записано несколькими похожими вариантами. В пользу этого говорят особенно распространенные окончания ain, aiin, aiiin, daiin, итд. в нотации EVA (European Voynich Alphabet).

Первым делом я создал базу для анализа текста. По ряду причин был выбран Oracle 11g. Oracle упомянут из-за того, что примеры запросов будут приводиться на его версии SQL. Со скриптами вы можете ознакомиться в репозитории Github. Там выложен набор скриптов, создающих схему, таблицы и ряд DML SQL скриптов, наполняющих данными таблицы манускрипта, маньчжурско-английского словаря и некоторых других.

Итак, несложной последовательностью регулярных выражений из текстовых записей манускрипта в EVA и в расширенном алфавите Банасика получаем скрипты, импортирующие VMS построчно, где индекс строки выглядит как

<page_numberSIDE_LETTER.row_number>

. Например, вторая строка первой страницы рукописи имеет индекс

<b><1r.2></b>

:

Первые 2 строки VMS в нотации EVA выглядят так (взято с www.voynich.nu/analysis.html):

fachys.ykal.ar.ataiin.Shol.Shory.cThres.y,kor.Sholdy
sory.cKhar.or,y.kair.chtaiin.Shar.are.cThar.cThar,dan

Трансляция будет выглядеть так:

'<1r.1>   ', 'fachys.ykal.ar.ataiin.Shol.Shory.cThres.y,kor.Sholdy'

'<1r.1>   ', 'cušil i cum us uhungg tom tosi jolkl i cos tombi'

'<1r.2>   ', 'sory.cKhar.or,y.kair.chtaiin.Shar.are.cThar.cThar,dan'

'<1r.2>   ', 'losi gus os i cuks šhungg tus url jus jus bug'

Подпись в конце пятой строки первого параграфа ydaraiShy превращается в ibusurti. Мне кажется, что это какое-то имя собственное. В маньчжурском словаре такого слова нет, как я выяснил через простой поиск в facebook, это может означать человек родом из города Сурат ( «солнечный город») на юге Индии — по-русски как суртиец. Правда, не на маньчжурском, а на хинди или гуджарати…

Сравнение функции подобия

Слова и словосочетания, переведенные таблицей из VMS в латиницу, нужно сопоставить с словами из словаря Нормана. Одна запись в словаре содержит одно слово или словосочетание из нескольких маньчжурских слов заглавными буквами и их английский перевод, который может иметь несколько значений. Например:

CŪŠILE crystal
NIYOHOMBI to have sexual intercourse

В CŪŠILE транслируется первое слово fachys на первой странице 1r, второе неоднократно мелькает в рукописи, включая грамматически верные склонения в маньчжурском. В этом же слове удобно показать добавочные буквы: C звучит как твердое «ч», Š — как «ш», Ū — примерно как «ю».

SOUNDEX

Для начала, чтобы проиндексировать и сопоставить словарь и рукопись я взял проcто функцию SOUNDEX. Это старейший фонетический алгоритм, создан аж в 1918 году и по-моему использовался еще до компьютеров при переписи населения США. Создав в таблице словаря и в таблице, где хранятся словарные фрагменты рукописи, столбцы с индексом SOUNDEX, можно по нему посмотреть варианты перевода.
К сожалению, SOUNDEX загребает слишком много лишнего. Он берет первые 2-3 слога из слова, переводит из в буквенно-цифровой код, где группы похожих звуков (т.е. букв) переводятся в один символ. Подробнее — в приведенной ссылке в Вики. Но он дает варианты перевода на английский! Это первое приближение, и оно очень важно.

METAPHONE

Развитие фонетических алгоритмов привело к созданию Metaphone и потом — Double Metaphone. Это более продвинутый вариант сравнения слов. Вместо буквенно-цифрового кода из слова или фразы вычисляется чисто буквенный код, приведенный к одному регистру. Обычно гласные убираются, парные или похожие согласные сворачиваются в одного представителя. Все разделители и небуквенные символы игнорируются. Metaphone появился на границе 80х-90х, Double Metaphone — в середине 90х, Metaphone 3 — в 2009. Последний является коммерческим софтом, продается вместе с небольшой базой для сравнения имен и фамилий, написанных по-английски. Есть реализации Double Metaphone для разных языков, учитывающих произношения в них латинских букв и буквосочетаний. Есть и для русского. Для маньчжурского нет. Я нашел свободную реализацию Double Metaphone на PL/SQL, и немного расширил ее, добавив вышеописанные буквы и еще парочку подобных. В репозитории она доступна, там буквально несколько строчек изменены. Да, особенности морфологии языка со всякими склонениями, суффиксами и приставками он не поймает, но даже то, что получилось — очень интересно.

Соединение таблицы с пословной нарезкой манускрипта и маньчжурского словаря по полю кода METAPHONE (MPH_CODE) через LEFT JOIN.
Ниже в таблице показаны варианты перевода первой строки первой страницы <1r.1>. Большинство слов имеет несколько вариантов, но для слова 5 ( uhungg ) и 8 ( jolkl ) их нет ни одного.

'<1r.1>   ', 'fachys.ykal.ar.ataiin.Shol.Shory.cThres.y,kor.Sholdy'

'<1r.1>   ', 'cušil i cum us uhungg tom tosi jolkl i cos tombi'

N — номер слова в строке <1r.1>
NWORD — слово в предложенный алфавит
MPH_CODE — метафоновский код слова NWORD
WORD — вариант маньчжурского слова из словаря Нормана, у которого метафоновский код равен коду от NWORD
TRANSLATION — перевод маньчжурского слова

N	NWORD	MPH_CODE	WORD	TRANSLATION
1	cusil	CSL	CUSILE	crystal
2	i	I	I	1. he, she 2. the genitive particle 3. an interjection used to get the attention of subordinates
2	i	I	IO	oil, paint, lacquer
2	i	I	II	see i i
2	i	I	IOI	1. a musical instrument made in the shape of a lying tiger--the toothed ridge down the back is stroked with a wooden stick at the conclusion of a musical selection 2. one of the five tones; cf. yumk'a
2	i	I	I I	1. (onom.) the sound of sobbing 2. an interjection of derision
3	cum	CM	CIME	a salt-water fish resembling the salmon
3	cum	CM	COMO	see coman
4	us	US	USE	seed, egg (of an insect)
4	us	US	UCE	door
4	us	US	USA	exclamation used to get someone's attention
5	uhungg
6	tom	TM	TOOME	see tome
6	tom	TM	TOMOO	frame used for weaving nets
6	tom	TM	TIMU	topic, theme
6	tom	TM	TOME	(postposition) every, each
6	tom	TM	TAMA	sole (fish)
7	tosi	TS	TEISU	1. assigned place, designated place, responsibility, one's part 2. corresponding, matching, facing, opposite
7	tosi	TS	TESU	original, local
7	tosi	TS	TOOSE	1. weight (for a balance) 2. power, authority, right 3. spindle
7	tosi	TS	TOSE	see toose
7	tosi	TS	TESE	plural of tere: those, they
7	tosi	TS	TES	(onom.) the sound of rope, thread, or a leather thong breaking under stress
7	tosi	TS	TOSI	white spot on the forehead of an animal
7	tosi	TS	TSU	vinegar
7	tosi	TS	TUSA	profit, gain, benefit, advantage
7	tosi	TS	TUSY	chieftain of a native tribe
8	jolkl
9	i	I	II	see i i
9	i	I	IOI	1. a musical instrument made in the shape of a lying tiger--the toothed ridge down the back is stroked with a wooden stick at the conclusion of a musical selection 2. one of the five tones; cf. yumk'a
9	i	I	I I	1. (onom.) the sound of sobbing 2. an interjection of derision
9	i	I	IO	oil, paint, lacquer
9	i	I	I	1. he, she 2. the genitive particle 3. an interjection used to get the attention of subordinates
10	cos	CS	CECE	silk gauze
10	cos	CS	CASI	in that direction, thither, there
10	cos	CS	CESE	register, official record
10	cos	CS	CISE	vegetable or flower garden
10	cos	CS	CAISI	see caste
10	cos	CS	CISU	private, private interest or profit
10	cos	CS	CISUI	out of one's own interest, on one's initiative, naturally (see also ini cisui), privately, on one's own
10	cos	CS	COS	the sound of ricocheting or rebounding
10	cos	CS	CUSE	1. bamboo 2. silk 3. a cook
10	cos	CS	CAISE	1. hairpin 2. a cake made of fried vermicelli
11	tombi	TMB	TUMBI	to hunt, to pursue
11	tombi	TMB	TOOMBI	to scold, to rail at, to abuse, to curse
11	tombi	TMB	TEMBI	1. to sit 2. to reside, to live 3. to occupy (a post)
11	tombi	TMB	TAMBI	1. to get caught on something, to get entangled and trip over something 2. to get caught in a trap or net
11	tombi	TMB	TUMBI	to hit, to beat, to pound; cf. dumbi
11	tombi	TMB	TOMBI	see toombi

Как видите, некоторые слова похожи по виду, некоторые отстоят далековато, из-за почти полного вырезания гласных в коде от слова выдаются все варианты маньчжурских слов, у которых между согласными совсем другие гласные звуки. Коротки одно- и двух-буквенные слова — вообще «пальцем в небо». Но уже интересно — намного интереснее, чем искать по словарю вручную с Ctrl-F.

Всего использовалось три модификации метафона — исходная английская и еще две модифицированные, со дополнительными буквами и с изменениями правил свертки.

Пересылки на синонимы в поле перевода

Небольшая коррекция словаря — к полю перевода, содержащее пересылки «see SOME_OTHER_WORD» через разделитель добавляется перевод этого синонима.
Пересылки на синонимы ловятся регулярным выражением.

Например приведенный выше в таблице:
TOSE see toose

сразу дополняется переводом ссылки:
TOSE see toose :: 1. weight (for a balance) 2. power, authority, right 3. spindle

Морфология. Склонения глаголов по временам

Идем дальше. Можно погрузиться в язык глубже. Глаголы в маньчжурском склоняются по временам добавлением окончания. Вот здесь приведена таблица склонений с примерами и соответствиями английским временам. Можно заметить, что на один английский Present Continious или Past Continious есть несколько разных маньчжурских вариантов. Видимо они отражают какие-то непонятные мне тонкости или это просто синонимы, но для поиска соответствий в Войниче это не важно. Из таблицы словаря делаем и сохраняем выборку глаголов в форме инфинитива — то есть все слова заканчивающиеся на инфинитивное окончание -MBI и имеющие в поле перевода подстроку " to ". Убрав окончание и сохранив результат в отдельную таблицу, получаем список глагольных маньчжурских корней MANCHU_VERB_STEM.
Например, глагол AKŪMBI (to die) сохраняется как: AKŪ.

Из указанной выше ссылки берем таблицу склонений и делаем справочную таблицу MANCHU_VERB_SUFFIX:

Все возможные варианты склонений глаголов — это фактически декартово произведение этих таблиц. Причем поиск в манускрипте проводится точно так же, по коду Metaphone, а при склонении к коду корня глагола добавляется метафоновский код окончания-суффикса. Из-за этого можно пренебречь разными вариантами окончаний для большинства времен.

Например из склонений Simple Past в словаре к разным глаголам добавляются разные окончания, но для поиска по по нарезанному манускрипту к метафоновскому коду добавится только H или K.

Past -ha (-he, -ho, -ka, -ke, -ko), Example: araha (I wrote)

Вот так выглядит часть кода представления TRANSL_VERBS21, выдающее варианты перевода сразу одно- и двух-словных сочетаний с учетом морфологии глаголов: варианты склонений выдаются через внутренний подзапрос с UNION ALL:

<code class="sql">SELECT LPAD (                TRIM (    REGEXP_REPLACE (idx,                 '<([[:digit:]]+)([rv]).([[:digit:]]*)>',                                   '\1')),               3,   '0')                                                           lpad1,             REGEXP_REPLACE (idx, '<([[:digit:]]+)([rv]).([[:digit:]]*)>', '\2')          lpad2,             LPAD( trim( regexp_replace(idx, '(\.[:digit:]*)>', '\1') ) , 3, '0')             lpad3,             nw.ID,             nw.id_type,             nw.n_type,             nw.idx,             nw.n,             nw.nword,             nw.sound_code,             nw.mph21_code,             v.word,             v.translation        FROM VMS.gonk2_nword nw             LEFT JOIN             (SELECT VS.STEM || suff.suffix WORD,                     suff.description || ' : ' || VS.TRANSLATION translation,                     metaphone21 (VS.STEM || suff.suffix) mph21                FROM VMS.MANCHU_VERB_STEM vs                     CROSS JOIN VMS.MANCHU_VERB_SUFFIX suff               WHERE suff.suffix <> 'mbi'              UNION ALL              SELECT D.WORD, D.TRANSLATION, D.MPH21_CODE                FROM VMS.MANCHU_DICT_JOIN d) v                ON NW.MPH21_CODE = v.mph21       WHERE nw.n_type IN (1, 2) </code>

Пример. В маньчжурской грамматике есть еще множество вариантов изменения глаголов с помощью суффиксов, но совсем глубоко закапываться — заняло слишком много сил, так что давайте просто посмотрим, как выявляются морфологии глагола NIYOHOMBI:

<code class="sql">select * from VMS.TRANSL_VERBS21 rt where 1=1  and (   word like '%HOMBI%'  or translation like '%niyohomb%'   or word like '%NIOH%'    )   and n_type = 2 </code>

Результаты

Пересечение со словами из списка Сводеша

Списки Сводеша (Swadesh lists) — базисная лексика, наборы основных слов, по которым лингвисты оценивают родство двух или нескольких языков между собой. Например, вот здесь таблица сравнения славянских языков по списку Сводеша. Также по таблицам оценивают скорость изменения языка во времени. Базовые слова из таких списков замещаются или меняются намного реже, чем другие, но время от времени и они тоже. Например, в русском языке слово «глаз» — наносное, почти жаргонное, пришло на смену общеславянскому слову «око» в каком-то там 13 или 14 веке. Первоначально означало камешек с дыркой внутри. Очи остались в поэзии, пословицах и церковных текстах. Списки Сводеша есть на 100, 200 и 215 слов. Пишут, что лингвисты больше всего используют самый короткий список на 100 слов. Если интересно, вот биография Морриса Сводеша на русском.

Просто для интереса я записал большой английско-маньчжурский список на 207 слов в отдельную таблицу и пересек со всеми переводами всех наборов из 1 и 2 слов из манускрипта, отсортировав по частоте. Получилась вот такая таблица — это самые верхние, 33 самых частых слов. Тут тоже не все чисто, потому что многие маньчжурские слова в нем приведены в 2 или 3 вариантах в одном поле и значит в, но для первичной оценки — сойдет.

<code class="sql">select T21.NWORD, SWM.ENG_WORD, SWM.WORD, count(*)  from VMS.TRANSL_VERBS21 t21 JOIN (select eng_word, upper(word) WORD  from VMS.SWADESH_MANCHU ) swm      ON swm.word = t21.word    group by T21.NWORD, SWM.ENG_WORD, swm.word    order by 4 desc </code>

Похожих слов не так много, но кое что есть: seed, right, sun, you, to give и несколько других:

Топ 30 таблицы

NWORD	SWADESH_ENGLISH	SWADESH_MANCHU	COUNT
us	seed	USE	559
bi	moon	BIYA	306
s	you (sing.)	SI	290
burg	dust	BURAKI	194
n'o	earth	NA	171
ji	and	JAI	111
ji	child	JUI	111
b	moon	BIYA	101
tgi	cloud	TUGI	57
tobi	there	TUBA	52
fus	back	FISA	47
tbi	there	TUBA	40
usi	seed	USE	35
n'oh	earth	NA	34
n	earth	NA	32
tji	cloud	TUGI	32
šun	sun	ŠUN	21
šun	ear	ŠAN	21
jo	child	JUI	20
jo	and	JAI	20
bo	moon	BIYA	20
ici	right	ICI	19
ici	new	ICE	19
šon	ear	ŠAN	15
šon	sun	ŠUN	15
tob	there	TUBA	12
si	you (sing.)	SI	12
toji	cloud	TUGI	12
tb	there	TUBA	12
sun	good	SAIN	12
so	you (sing.)	SI	11
bumbi	to give	BUMBI	9

Статистика по характерным маньчжурским буквосочетаниям

Следующий запрос показывает распределение по частоте таких слов и пар слов с убранными пробелами, которые строго совпадают со словами из словаря. Из всего множества выбраны слова, имеющие характерные для маньчжурского буквосочетания — типа ng , os, mb и так далее. Буквосочетния были выявлены из текста VMS онлайновым анализатором TAPoR с сайта канадского университета Макмастера. Сейчас там есть целая коллекция анализаторов и визуализаторов зависимостей в текстах, но именно этот, что на скриншоте, к сожалению уже недоступен. Есть версия, где нужно копи-пастить текст в форму на страничке, но ссылку на текст передать в параметрах уже нельзя.

Для сравнения — визуализация то же программой собранного мной крошечного маньчжурского корпуса на 14 кб. Это почти все, что удалось накопать — несколько коротких сказок, несколько страниц перевода Дао Де Цзин и несколько материалов для чтения.

Заметно, что визуализатор выделяет уже целые длинные слова, такие как niyalma (человек) или bithe( книга). Таких слов в манускрипте нет, но зато есть множество редких обрывков или целых слов, вполне согласующихся с грамматикой языка, многие даже со склонениями.

В статье Монтемурро проанализированы энтропийные близости слов рукописи и на построена диаграмма нескольких кластеров слов, связанных между собой большой близостью ( Рис.2 ). Этот же рисунок графов с наложенными «переводами» выглядит так.

Здесь я пропустил несколько слов и надо было с самого начала делать синий цвет у всех надписей…

Приведенный ниже запрос считает статистику по частоте слов с включениями характерных частей, выделенных онлайновым анализатором из первого скриншота. Еще ниже показаны результаты.

<code class="sql">  select nword, word, translation , count(*)    from VMS.TRANSL_VERBS21 t    where ( T.NWORD like '%ng%'            OR nword like '%mb%'            OR nword like '%us%'           OR nword like '%os%'           OR nword like '%šom%'           OR nword like '%um%'             OR nword like '%tk%'            OR nword like '%urg%'            OR nword like '%ur%'            )    and upper(trim( replace(nword,' ') )) = word     group by nword, word, translation    order by 4 desc </code>

Всего в таблице 38 слов, но показаны 17 с частотой более 1, остальные под спойлером.

NWORD	WORD	TRANSLATION	COUNT(*)
cos	COS	the sound of ricocheting or rebounding	28
ombi	OMBI	(imperfect participle -joro, imperative -so) 1. to become, to change into 2. to be, to exist 3. to be proper, to be permissible	18
usun	USUN	fussy, bothersome, overly talkative	11
us un	USUN	fussy, bothersome, overly talkative	10
bumbi	BUMBI	(-he) to give	9
šom bi	ŠOMBI	(-ha) 1. to scrape, to scrape off, to level off 2. to curry (livestock)	8
tombi	TOMBI	see toombi :: to scold, to rail at, to abuse, to curse	8
oso	OSO	the imperative of ombi	6
tosi	TOSI	white spot on the forehead of an animal	6
šombi	ŠOMBI	(-ha) 1. to scrape, to scrape off, to level off 2. to curry (livestock)	5
os o	OSO	the imperative of ombi	4
bum bi	BUMBI	(-he) to give	3
fusi	FUSI	abominable, loathsome, frightful, monstrous	3
bombi	BOMBI	(-ngko, -re) to pierce, to bore, to make a hole with an awl or pick	2
urg un	URGUN	1. joy, felicity, happiness 2. auspicious sign, good portent 3. congratulations	2
uri	URI	1. a round straw container used for storing grain 2. see urui :: 1. just, only 2. steadily, consistently, always	2
dombi	DOMBI	to alight (of birds and insects)	2

Остальные слова с ng, os, mb и т.д.

NWORD	WORD	TRANSLATION	COUNT(*)
dumbi	DUMBI	(for tūmbi) to hit, to strike	1
jombi	JOMBI	(2) (-ngko, -ndoro, -mpi) 1. to bring to mind, to recall, to mention, to bring up 2. to move in the womb	1
fus i	FUSI	abominable, loathsome, frightful, monstrous	1
tos i	TOSI	white spot on the forehead of an animal	1
jombi	JOMBI	(1) (-ho, -ro) to cut with a fodder knife	1
gombi	GOMBI	(-ha) to go back on one's word, to break a promise, to renege	1
obumbi	OBUMBI	1. caus. of ombi 2. to make, to make into, to cause to become, to consider as	1
urgun	URGUN	1. joy, felicity, happiness 2. auspicious sign, good portent 3. congratulations	1
mus i	MUSI	a broth made of roasted flour, sugar., and water	1
šos ihi	ŠOSIHI	see šosiki :: 1. quick-tempered, irascible 2. chipmunk (Eutamius sibiricus)	1
fumbi	FUMBI	(2) (-ngke, -mpi) to become numb	1
fursun	FURSUN	1. shoots, sprouts (especially of a grain) 2. sawdust	1
šum bi	ŠUMBI	(-ngke, -mpi) to be thoroughly acquainted with, to be well-versed in, to know thoroughly	1
ungg u	UNGGU	1. first, original 2. the first player at the gacuha game	1
urg umbi	URGUMBI	see urhumbi :: to lean to one side, to be lopsided, to be partial, to be prejudiced to one side	1
b ombi	BOMBI	(-ngko, -re) to pierce, to bore, to make a hole with an awl or pick	1
us umbi	USUMBI	to go downstream, to go with the current	1
tumbi	TUMBI	to hunt, to pursue	1
om osi	OMOSI	plural of omolo	1
bombon	BOMBON	a pile, a wad, a cluster, a bunch	1
fumbi	FUMBI	(1) (-ha/he) to wipe, to wipe off	1

Напоследок — таблица точных соответствий слов из манускрипта и словаря, длиной не менее 3 букв, отсортированных по убыванию длины и только потом по частоте.
Опять, топ показан, остальное — под спойлером. Тексты запросов приводятся лишь потому, что по моему мнению наиболее компактно выражают, что в таблице.

<code class="sql">  select nword, word, translation , count(*)    from VMS.TRANSL_VERBS21 t   where      upper(trim( replace(nword,' ') )) = word      and length(word) >= 3    group by nword, word, translation    order by length(word) desc, 4 desc </code>

NWORD	WORD	TRANSLATION	COUNT(*)
urg umbi	URGUMBI	see urhumbi :: to lean to one side, to be lopsided, to be partial, to be prejudiced to one side	1
bombon	BOMBON	a pile, a wad, a cluster, a bunch	1
obumbi	OBUMBI	1. caus. of ombi 2. to make, to make into, to cause to become, to consider as	1
šos ihi	ŠOSIHI	see šosiki :: 1. quick-tempered, irascible 2. chipmunk (Eutamius sibiricus)	1
us umbi	USUMBI	to go downstream, to go with the current	1
fursun	FURSUN	1. shoots, sprouts (especially of a grain) 2. sawdust	1
bumbi	BUMBI	(-he) to give	9
tombi	TOMBI	see toombi :: to scold, to rail at, to abuse, to curse	8
šom bi	ŠOMBI	(-ha) 1. to scrape, to scrape off, to level off 2. to curry (livestock)	8
šombi	ŠOMBI	(-ha) 1. to scrape, to scrape off, to level off 2. to curry (livestock)	5
tom bi	TOMBI	see toombi :: to scold, to rail at, to abuse, to curse	4
bum bi	BUMBI	(-he) to give	3
bombi	BOMBI	(-ngko, -re) to pierce, to bore, to make a hole with an awl or pick	2
dombi	DOMBI	to alight (of birds and insects)	2
urg un	URGUN	1. joy, felicity, happiness 2. auspicious sign, good portent 3. congratulations	2
b ombi	BOMBI	(-ngko, -re) to pierce, to bore, to make a hole with an awl or pick	1
jom bi	JOMBI	(1) (-ho, -ro) to cut with a fodder knife	1
ungg u	UNGGU	1. first, original 2. the first player at the gacuha game	1
bom bi	BOMBI	(-ngko, -re) to pierce, to bore, to make a hole with an awl or pick	1
jombi	JOMBI	(2) (-ngko, -ndoro, -mpi) 1. to bring to mind, to recall, to mention, to bring up 2. to move in the womb	1
dumbi	DUMBI	(for tūmbi) to hit, to strike	1
dom bi	DOMBI	to alight (of birds and insects)	1
šum bi	ŠUMBI	(-ngke, -mpi) to be thoroughly acquainted with, to be well-versed in, to know thoroughly	1

Остальные 83 слова

NWORD	WORD	TRANSLATION	COUNT(*)
ici hi	ICIHI	spot, blemish, flaw	1
fumbi	FUMBI	(2) (-ngke, -mpi) to become numb	1
jom bi	JOMBI	(2) (-ngko, -ndoro, -mpi) 1. to bring to mind, to recall, to mention, to bring up 2. to move in the womb	1
tumbi	TUMBI	to hunt, to pursue	1
urgun	URGUN	1. joy, felicity, happiness 2. auspicious sign, good portent 3. congratulations	1
om osi	OMOSI	plural of omolo	1
gombi	GOMBI	(-ha) to go back on one's word, to break a promise, to renege	1
jombi	JOMBI	(1) (-ho, -ro) to cut with a fodder knife	1
fumbi	FUMBI	(1) (-ha/he) to wipe, to wipe off	1
ombi	OMBI	(imperfect participle -joro, imperative -so) 1. to become, to change into 2. to be, to exist 3. to be proper, to be permissible	18
usun	USUN	fussy, bothersome, overly talkative	11
us un	USUN	fussy, bothersome, overly talkative	10
tosi	TOSI	white spot on the forehead of an animal	6
om bi	OMBI	(imperfect participle -joro, imperative -so) 1. to become, to change into 2. to be, to exist 3. to be proper, to be permissible	4
gobi	GOBI	desert, wasteland	4
lobi	LOBI	gluttonous, ravenous	4
lomi	LOMI	rice kept in storage for a number of years--the same as hukšeri bele	3
uhun	UHUN	bundle, package	3
hogi	HOGI	turkey	3
fusi	FUSI	abominable, loathsome, frightful, monstrous	3
šoho	ŠOHO	the white of an egg	3
kobi	KOBI	1. concave place, depression 2. the depressions on both sides of the nose	3
šuci	ŠUCI	one who pretends to know what he in fact doesn't	2
šoli	ŠOLI	falling short, short of the mark	2
ucun	UCUN	song, ballad	2
l omi	LOMI	rice kept in storage for a number of years--the same as hukšeri bele	1
to bo	TOBO	a simple hut made from willow branches or other like material	1
fus i	FUSI	abominable, loathsome, frightful, monstrous	1
un un	UNUN	a load (that can be carried on the back), burden	1
hoji	HOJI	coriander	1
tos i	TOSI	white spot on the forehead of an animal	1
šol o	ŠOLO	1. free time, leisure, vacation, leave 2. opportunity 3. empty space	1
jo lo	JOLO	1. doe, female deer 2. hateful, hideous	1
luši	LUŠI	secretary in a Board of the eighth or ninth rank	1
foji	FOJI	a skin covering for boots and shoes (worn in cold weather)	1
mus i	MUSI	a broth made of roasted flour, sugar., and water	1
onon	ONON	the male zeren; cf. jeren	1
com o	COMO	see coman :: goblet, large cup for wine	1
joli	JOLI	a ladle with many small holes in it used for straining	1
biši	BIŠI	crab louse, tick	1
l obi	LOBI	gluttonous, ravenous	1
goji	GOJI	a crooked finger	1
bi ši	BIŠI	crab louse, tick	1
dobi	DOBI	fox	1
toho	TOHO	a half-grown moose	1
oton	OTON	a wooden tub without handles or feet	1
oci	OCI	(conditional of ombi) a particle used to set off the subject: 'as for'	106
cos	COS	the sound of ricocheting or rebounding	28
fun	FUN	1. one-hundredth (of a Chinese foot) 2. powder 3. fragrant odor	28
šun	ŠUN	1. sun 2. day	21
ici	ICI	1. right (as opposed to left) 2. direction, dimension 3. in accordance with, along with, after, according to, facing, on the side of, toward	19
oho	OHO	armpit; cf. 0, o mayan, ogū	18
sun	SUN	milk	12
tob	TOB	straight, upright, serious, right, just	12
tun	TUN	island	8
jon	JON	memory, recall	8
ofi	OFI	1. a snare for catching pheasants 2. (perfect converb of ombi) because	7
bon	BON	pick, awl, tool for making holes in ice	7
oso	OSO	the imperative of ombi	6
ton	TON	1. number 2. counting, reckoning 3. fate 4. one of the twenty-four divisions of the solar year	5
omo	OMO	lake, pond	4
os o	OSO	the imperative of ombi	4
hoi	HOI	see hūi :: 1. red felt edging on the lower part of a saddle blanket 2. an exclamation--now, then 3. meeting, assembly, association	3
s un	SUN	milk	2
uri	URI	1. a round straw container used for storing grain 2. see urui :: 1. just, only 2. steadily, consistently, always	2
ošo	OŠO	a leather glove with three fingers used for holding falcons	2
icu	ICU	a fur coat or jacket without an outer covering	2
son	SON	rafter, roof support of a tent	2
jo n	JON	memory, recall	2
om o	OMO	lake, pond	2
o so	OSO	the imperative of ombi	1
ogo	OGO	1. the depression of a mortar 2. the holes on the iron plate that is used for making the heads of nails	1
i ci	ICI	1. right (as opposed to left) 2. direction, dimension 3. in accordance with, along with, after, according to, facing, on the side of, toward	1
joo	JOO	1. an imperial order 2. interjection: enough! stop! it won't do!	1
isi	ISI	Japanese larch	1
coo	COO	a spade	1
tok	TOK	(onom.) the sound of striking a hollow wooden object	1
don	DON	fluttering of birds from one place to another, alighting (of birds)	1
co s	COS	the sound of ricocheting or rebounding	1
jun	JUN	1. stove, hearth 2. tissue, pulp of a tree 3. vein	1
too	TOO	a hand drum	1
hon	HON	very, most, too	1
uli	ULI	1. bowstring 2. fruit of the flowering cherry (Prunus sinensis)	1

Отдельные слова

Статистика по некоторым словам, отобранных по словарю. Прежде всего интересно искать в травнике. Из списка убрал слово «женщина», чтобы сократить вывод.

<code class="sql">  select nword, word, translation , count(*)    from VMS.TRANSL_VERBS21 t   where       (       translation like '%magic%'          or translation like '%medicine%'       or translation like '%herb%'       or translation like '%grass%'       or translation like '%medicine%'        -- or translation like '%woman%'      )    group by nword, word, translation    order by word , 4 desc </code>

Вот, что получается. Здесь уже не только полностью совпадающие слова, но все совпадения по метафону — поэтому некоторые непохожи. Но магии ( FANGGA) в тексте достаточно…

NWORD	WORD	TRANSLATION	COUNT(*)
bcti	BEKTO	fritillary (an herbal medicine)	2
b icti	BEKTO	fritillary (an herbal medicine)	1
bi octo	BEKTO	fritillary (an herbal medicine)	1
bi gti	BEKTO	fritillary (an herbal medicine)	1
bocti	BEKTO	fritillary (an herbal medicine)	1
bkt	BEKTO	fritillary (an herbal medicine)	1
bi icto	BEKTO	fritillary (an herbal medicine)	1
bicti	BEKTO	fritillary (an herbal medicine)	1
c kurg	CACARAKŪ	a gray grasshopper	1
droci	DERESU	feather grass, broom grass (Lasiagrostis splendens)	1
fungg	FANGGA	magic, possessed of magic powers	108
f ungg	FANGGA	magic, possessed of magic powers	4
fo ungg	FANGGA	magic, possessed of magic powers	1
fi iungg	FANGGA	magic, possessed of magic powers	1
fungg i	FANGGA	magic, possessed of magic powers	1
fngg	FANGGA	magic, possessed of magic powers	1
fungg?	FANGGA	magic, possessed of magic powers	1
fun icko	FANGGA	magic, possessed of magic powers	1
fumobi	FEMBI	1. to lay out new-mown hay or other grass to dry 2. to talk heedlessly	1
fumbi	FEMBI	1. to lay out new-mown hay or other grass to dry 2. to talk heedlessly	1
fi hi	FEha	Simple Past: 1. to lay out new-mown hay or other grass to dry 2. to talk heedlessly	1
fug	FEka	Simple Past (suff.k): 1. to lay out new-mown hay or other grass to dry 2. to talk heedlessly	2
fi ohki	FEka	Simple Past (suff.k): 1. to lay out new-mown hay or other grass to dry 2. to talk heedlessly	1
fuk	FEka	Simple Past (suff.k): 1. to lay out new-mown hay or other grass to dry 2. to talk heedlessly	1
fum bumbi	FEme bimbi	Present Continuous 1: 1. to lay out new-mown hay or other grass to dry 2. to talk heedlessly	1

Остальное. Примерно сотня строк, некоторые интересны. Например OKTO — 1. drug, medicine 2. gunpowder 3. dye 4. poison

NWORD	WORD	TRANSLATION	COUNT(*)
fi	FOYO	1. ula grass--a soft grass used as padding in shoes 2. cloth woven from horsehair	67
f	FOYO	1. ula grass--a soft grass used as padding in shoes 2. cloth woven from horsehair	16
?fi	FOYO	1. ula grass--a soft grass used as padding in shoes 2. cloth woven from horsehair	4
fu	FOYO	1. ula grass--a soft grass used as padding in shoes 2. cloth woven from horsehair	2
fo	FOYO	1. ula grass--a soft grass used as padding in shoes 2. cloth woven from horsehair	2
fi oh	FOYO	1. ula grass--a soft grass used as padding in shoes 2. cloth woven from horsehair	1
f?	FOYO	1. ula grass--a soft grass used as padding in shoes 2. cloth woven from horsehair	1
fus l	FUSELI	an inedible freshwater fish resembling the black carp whose gall is used as a medicine	1
gurg	GURUka	Simple Past (suff.k): (1) to dig up, to dig out (vegetables, herbs)	1
hkohti	HAKDA	old grass left over from the previous year, a spot of grass remaining in an area that has been burnt over	1
hocti	HAKDA	old grass left over from the previous year, a spot of grass remaining in an area that has been burnt over	1
hkti	HAKDA	old grass left over from the previous year, a spot of grass remaining in an area that has been burnt over	1
h?i octi	HAKDA	old grass left over from the previous year, a spot of grass remaining in an area that has been burnt over	1
hurs	HERESU	a grass growing along the edges of salt marshes that is eaten by camels	17
?hurs	HERESU	a grass growing along the edges of salt marshes that is eaten by camels	1
hurci	HERESU	a grass growing along the edges of salt marshes that is eaten by camels	1
hurs i	HERESU	a grass growing along the edges of salt marshes that is eaten by camels	1
hofi	HIFE	barnyard grass (Panicum crusgalli)	3
h?fi	HIFE	barnyard grass (Panicum crusgalli)	2
hfi	HIFE	barnyard grass (Panicum crusgalli)	1
ici hi	ISIha	Simple Past: (2) (-ha) to pull up (grass), to pluck	1
ios ug	ISIka	Simple Past (suff.k): (2) (-ha) to pull up (grass), to pluck	1
icico	ISIka	Simple Past (suff.k): (2) (-ha) to pull up (grass), to pluck	1
jol n	JALAN	1. a section (of bamboo, grass, etc.), a joint 2. generation, age 3. world 4. subdivision of a banner, ranks 5. measure word for walls and fences	1
n'oci mbi	NIYECEMBI	1. to mend 2. to fill in, to fill (a post) 3. to supplement 4. to nourish (of foods and medicines)	1
n'oci ohobi	NIYECEha bi	Past Continuous 1: 1. to mend 2. to fill in, to fill (a post) 3. to supplement 4. to nourish (of foods and medicines)	1
n'oc?i hob	NIYECEha bi	Past Continuous 1: 1. to mend 2. to fill in, to fill (a post) 3. to supplement 4. to nourish (of foods and medicines)	1
n'oc?i hob	NIYECEhobi	Indefinite Past: 1. to mend 2. to fill in, to fill (a post) 3. to supplement 4. to nourish (of foods and medicines)	1
n'oci ohobi	NIYECEhobi	Indefinite Past: 1. to mend 2. to fill in, to fill (a post) 3. to supplement 4. to nourish (of foods and medicines)	1
n'oc?i hob	NIYECEhoi bi	Past Continuous 3: 1. to mend 2. to fill in, to fill (a post) 3. to supplement 4. to nourish (of foods and medicines)	1
n'oci ohobi	NIYECEhoi bi	Past Continuous 3: 1. to mend 2. to fill in, to fill (a post) 3. to supplement 4. to nourish (of foods and medicines)	1
n'octi	NUKTE	1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals	318
n'octo	NUKTE	1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals	28
n'ogti	NUKTE	1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals	3
n'octi o	NUKTE	1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals	3
n'o cti	NUKTE	1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals	3
n'ohkti	NUKTE	1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals	3
n'cto	NUKTE	1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals	1
n'o ct	NUKTE	1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals	1
n'oct	NUKTE	1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals	1
n'okti	NUKTE	1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals	1
n'oocti	NUKTE	1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals	1
n'oicti	NUKTE	1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals	1
n'ocoti	NUKTE	1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals	1
n' octi	NUKTE	1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals	1
n'oct?	NUKTE	1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals	1
n'ohki ohti	NUKTE	1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals	1
n'okhti	NUKTE	1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals	1
n'cti	NUKTE	1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals	1
n'octu	NUKTE	1. an area in which nomads lead their flocks and herds following water and grass 2. baggage carried on pack animals	1
octi	OKTO	1. drug, medicine 2. gunpowder 3. dye 4. poison	180
octo	OKTO	1. drug, medicine 2. gunpowder 3. dye 4. poison	26
o cti	OKTO	1. drug, medicine 2. gunpowder 3. dye 4. poison	8
oicti	OKTO	1. drug, medicine 2. gunpowder 3. dye 4. poison	3
oct	OKTO	1. drug, medicine 2. gunpowder 3. dye 4. poison	2
ocou ti	OKTO	1. drug, medicine 2. gunpowder 3. dye 4. poison	1
ohkti	OKTO	1. drug, medicine 2. gunpowder 3. dye 4. poison	1
o octo	OKTO	1. drug, medicine 2. gunpowder 3. dye 4. poison	1
ocoti	OKTO	1. drug, medicine 2. gunpowder 3. dye 4. poison	1
ohko ?ohti	OKTO	1. drug, medicine 2. gunpowder 3. dye 4. poison	1
ogti	OKTO	1. drug, medicine 2. gunpowder 3. dye 4. poison	1
ohkoti	OKTO	1. drug, medicine 2. gunpowder 3. dye 4. poison	1
octoi	OKTO	1. drug, medicine 2. gunpowder 3. dye 4. poison	1
oc to	OKTO	1. drug, medicine 2. gunpowder 3. dye 4. poison	1
ohki to	OKTO	1. drug, medicine 2. gunpowder 3. dye 4. poison	1
octi o	OKTO	1. drug, medicine 2. gunpowder 3. dye 4. poison	1
ok?hti	OKTO	1. drug, medicine 2. gunpowder 3. dye 4. poison	1
octu	OKTO	1. drug, medicine 2. gunpowder 3. dye 4. poison	1
ohktl ohko	OKTOLOka	Simple Past (suff.k): 1. to treat with medicine 2. to poison	1
octol ohki	OKTOLOka	Simple Past (suff.k): 1. to treat with medicine 2. to poison	1
omombi	OMIMBI	1. to drink 2. to smoke (tobacco) 3. to take (medicine)	2
ommbi	OMIMBI	1. to drink 2. to smoke (tobacco) 3. to take (medicine)	1
omumbi	OMIMBI	1. to drink 2. to smoke (tobacco) 3. to take (medicine)	1
omhi	OMIha	Simple Past: 1. to drink 2. to smoke (tobacco) 3. to take (medicine)	2
omohi	OMIha	Simple Past: 1. to drink 2. to smoke (tobacco) 3. to take (medicine)	1
omhibi	OMIha bi	Past Continuous 1: 1. to drink 2. to smoke (tobacco) 3. to take (medicine)	2
omi hob?i	OMIha bi	Past Continuous 1: 1. to drink 2. to smoke (tobacco) 3. to take (medicine)	1
omhibi	OMIhobi	Indefinite Past: 1. to drink 2. to smoke (tobacco) 3. to take (medicine)	2
omi hob?i	OMIhobi	Indefinite Past: 1. to drink 2. to smoke (tobacco) 3. to take (medicine)	1
omhibi	OMIhoi bi	Past Continuous 3: 1. to drink 2. to smoke (tobacco) 3. to take (medicine)	2
omi hob?i	OMIhoi bi	Past Continuous 3: 1. to drink 2. to smoke (tobacco) 3. to take (medicine)	1
om hki	OMIka	Simple Past (suff.k): 1. to drink 2. to smoke (tobacco) 3. to take (medicine)	2
om c	OMIka	Simple Past (suff.k): 1. to drink 2. to smoke (tobacco) 3. to take (medicine)	1
omhki	OMIka	Simple Past (suff.k): 1. to drink 2. to smoke (tobacco) 3. to take (medicine)	1
omcu	OMIka	Simple Past (suff.k): 1. to drink 2. to smoke (tobacco) 3. to take (medicine)	1
omo ohko?	OMIka	Simple Past (suff.k): 1. to drink 2. to smoke (tobacco) 3. to take (medicine)	1
omc	OMIka	Simple Past (suff.k): 1. to drink 2. to smoke (tobacco) 3. to take (medicine)	1
omug	OMIka	Simple Past (suff.k): 1. to drink 2. to smoke (tobacco) 3. to take (medicine)	1
omco?i	OMIka	Simple Past (suff.k): 1. to drink 2. to smoke (tobacco) 3. to take (medicine)	1
s	SA	1. shaft or thill of an oxcart 2. feather grass from which the outside surface of summer hats are made 3. plural suffix (sometimes written separately)	290
si	SA	1. shaft or thill of an oxcart 2. feather grass from which the outside surface of summer hats are made 3. plural suffix (sometimes written separately)	12
so	SA	1. shaft or thill of an oxcart 2. feather grass from which the outside surface of summer hats are made 3. plural suffix (sometimes written separately)	11
s _	SA	1. shaft or thill of an oxcart 2. feather grass from which the outside surface of summer hats are made 3. plural suffix (sometimes written separately)	4
s ^	SA	1. shaft or thill of an oxcart 2. feather grass from which the outside surface of summer hats are made 3. plural suffix (sometimes written separately)	4
s i	SA	1. shaft or thill of an oxcart 2. feather grass from which the outside surface of summer hats are made 3. plural suffix (sometimes written separately)	2
s o	SA	1. shaft or thill of an oxcart 2. feather grass from which the outside surface of summer hats are made 3. plural suffix (sometimes written separately)	2
s h	SA	1. shaft or thill of an oxcart 2. feather grass from which the outside surface of summer hats are made 3. plural suffix (sometimes written separately)	1
^s	SA	1. shaft or thill of an oxcart 2. feather grass from which the outside surface of summer hats are made 3. plural suffix (sometimes written separately)	1
sus urg	SOSOROka	Simple Past (suff.k): (-ko) 1. to back up, to withdraw, to retreat 2. to wither, to become senile 3. to rake (grass)	2
sosurg	SOSOROka	Simple Past (suff.k): (-ko) 1. to back up, to withdraw, to retreat 2. to wither, to become senile 3. to rake (grass)	1
ucti	UKADA	a mound with grass growing on it	11
ucto	UKADA	a mound with grass growing on it	1
ucti	UKŪDA	see ukada :: a mound with grass growing on it	11
ucto	UKŪDA	see ukada :: a mound with grass growing on it	1
ungg un	UNGKAN	frozen snow on the top of grass	6
ungg n'o	UNGKAN	frozen snow on the top of grass	3
ungg on	UNGKAN	frozen snow on the top of grass	2
ungcun	UNGKAN	frozen snow on the top of grass	1

Слова, для которых metaphone не смог подобрать ни одного перевода

Топ-15 таких слов. Некоторые из них находят толкование, если их рассматривать в паре с соседним словом — предыдущим или последующим.

NWORD	COUNT(*)
škbi	380
tkbi	325
n'ocungg	239
bum	234
n'octbi	230
ocungg	204
n'ocum	202
n'ockbi	181
ohus	181
škfi	179
škom	172
ohungg	166
ocum	163
ohum	161

Многие из них по структуре могли бы быть каким-нибудь маньчжурским словом — имеют характерные суффиксы и окончания -ng-, -ungg-, -mbi-, -bumbi- и так далее.
Одиночных слов без соответствия по самому широкому охвату (TRANSL_VERB21, со склонениями глаголов ) — 18 К из всего 40К. Однако рассмотрение пар соседних слов дает еще 30К уникальных пар, имеющих по крайней мере один метафоновский перевод. И многие слова, не имеющие вариантов перевода в паре с соседними создают сочетания, для которых перевод находится.
Например, skbi даже в парах не дает пеереводов, но следующее такое слово tkbi в одном из 325 мест образует с соседом tkbi ombi — есть 4 варианта перевода. Слово bum составляет многочисленные пары bum bi — и так далее. Наборы из трех и более соседних слов я не генерил и не проверял, но может быть 3-словные блоки стоило бы посмотреть.

Мысли

Количество совпадений слов и грамматических изменений текста позволяют сделать осторожный вывод, что в манускрипте Войнича по крайней мере используются слова из диалекта маньчжурского/чжурчжэньского языка. Последовательности слов плохо укладываются в языковые конструкции типа словосочетаний и предложений. Но их не находили и раньше, статистический анализ не выявлял их с самых первых попыток. Похоже, что во многих местах идет индексная запись — то есть короткие заметки с сокращениями, которые автору были понятны, но при этом они не складываются в связный текст. Многие слова разбиты на части, возможно автор текста записывал его с устной речи другого человека.

Я не могу определить, насколько достоверно найденные слова и их частоты говорят о том, что в рукописи есть маньжурские вставки. В тексте около 170К букв и 40К слов. Точных совпадений слов по словарю — несколько сотен, но я не беру в расчет совсем короткие слова на 1-2 знака. Кроме этого есть тысячи приблизительных совпадений, по коду метафона. Беглый просмотр по страницам вроде показывает, что слово есть в словаре, но с первого взгляда в предложения они не складываются.

Здорово было бы показать это все ученому-компаративисту, специалисту по дальневосточным языкам. Я лично с такими не знаком, но в России они должны быть. Статьи о таких личностях как Сергей Старостин и записанные интервью с ними подсказывают, что в РГГУ или МГУ надо искать. Могут, конечно, сказать, что это все ерунда. И вообще, неизвестно, как часто к ним приходят с идеями и вопросами по Войничу, может уже и надоело…

В процессе всего этого я наткнулся на любопытный онлайн-курс Corpus Linguistics от Lancaster University на платформе FutureLearn. Я даже записался на него, но, что называется, не пошло. Сама платформа и подача материала не такая удобная, как на Coursera, да и времени перестало хватать после первой недели. Может быть, стоит взяться за него основательнее в следующий заход. Из него пока могу посоветовать энтузиастам программу AntConc — она предназначена для анализа конкордансов текстов, используя загруженные корпусы их выборки из них. Также переделанная из английской в маньчжурскую версия функции Metaphone очень несовершенна — нуждается в улучшении.

При обсуждении знакомый веб-программист предложил простой способ распознать всю рукопись: порезать картинки страниц на отдельные слова и пары слов вставлять их в капчу при логине на сайты…