Предыдущий раздел
К оглавлению
Глоссарий
Следующий раздел

 

Unicode и церковно-славянские надстрочники. Что уже есть и что необходимо добавить

Акцентные надстрочники, простое титло и паерок

Чтобы объясняемое далее было более понятно, рассмотрим сначала, как обстоят дела с надстрочниками греческого политонического письма. В плане акцентов греческий даже богаче, чем славянский. Имеются два вида придыханий и три -- ударений, которые могут комбинироваться. В наличии еще несколько надстрочников и один подстрочный знак. Только, в отличие от славянского, надстрочники над заглавными буквами здесь ставят слева от буквы, а не над ней.

В Юникоде греческому письму посвящено два диапазона: Greek (0370-03FF) и Greek Extended (1F00-1FFF).

 

Первый диапазон в основном содержит все для современного греческого письма. Еще -- некоторое количество букв-вариантов, устаревшие буквы и буквы коптского письма. Кроме того, здесь даны все лигатуры, необходимые для современного греческого.

Второй диапазон -- политонический. Попросту говоря, здесь проблема надстрочников решена кардинально: полнолигатурным методом. Кроме лигатур, имеется полный набор накладных надстрочников. Последний, правда, не содержит вариантов под разную высоту или ширину букв, однако при наличии полного набора лигатур накладные надстрочники вообще не требуются.

Мощность первого диапазона позволяет поместить его в 128 символов верхней половины кодовой страницы. Так и сделано. Из этого диапазона выделены лишь символы, относящиеся к современному греческому, и помещены в страницу 1253.

Второй же диапазон, насколько мне известно, используется лишь в 16-битных приложениях. Первый и второй диапазоны не пересекаются, так что можно считать, что для греческого письма выделено: с учетом зарезервированных позиций -- 400 символов, без них -- 344.

Зачем я это рассказываю?

Древнеславянская письменность (и не только письменность), по вполне известным историческим причинам, является прямой наследницей древнегреческой. Общность и примерная одинаковость сложности надстрочников по крайней мере в части акцентной части вполне очевидна. Кроме того, греческий политонический -- это тот язык, на котором сейчас по большей части не разговаривают и не пишут. Нет-нет, я не об огромном наследии древнегреческой и византийской цивилизации и больших объемах издания и цитирования на политонике. Я о том, что современные греки пользуются упрощенным письмом, так же как и русские давно уже не употребляют придыханий над первыми гласными. Рискну сравнить применение политоники с латинским языком при условии, что последний даст фору в виде изъятия его из употребления медиков и из состава научной терминологии. Что останется в этом случае от латыни? Не применяемый в широкой современной практике язык, который недалекий обыватель поторопился бы назвать "мертвым". Язык, имеющий безусловную ценность для историков и философов, из которого, однако, трудно "извлекать неплохой доход".

Не так ли видится упомянутыми обывателями церковно-славянский язык? Конечно, исторического и культурного наследия у него меньше -- в глазах мирового сообщества, по крайней мере. Но в проведении мною достаточно четких параллелей по структуре письма и положению его в современном мире никто, думаю, не рискнет мне отказать. Поэтому дальнейшее повествование о ЦС и Юникоде я постараюсь провести, опираясь на положение греческого в Юникоде.

Что имеется в Юникоде в плане акцентных надстрочников, относящихся только к церковно-славянскому письму? Практически ничего. Напомню картинку:

Это единственная часть кириллического диапазона, где имеется хоть какая-то диакритика в виде отдельных знаков. На позиции 0486 стоит странный значок COMBINING CYRILLIC PSILI PNEUMATA, на основании названия которого можно сделать предположение, что речь идет все-таки о тонком придыхании (тонкое придыхание в греческом называется psili). На позиции 0485 расположено, стало быть, придыхание густое, в новоцерковно-славянском не употребляющееся. Также имеется простое титло, что действительно приятно. Еще в наличии знак палатализации (0484, COMBINING CYRILLIC PALATALIZATION) и два составных знака больших чисел (сотня тысяч и миллион). Эти знаки к позднему изводу не относятся. Все. Это -- действительно все, что относится к славянскому письму персонально.

Есть еще общий для всех языков раздел составных надстрочников, диапазон Combining Diacritical Marks 02B0-02FF:

Нам пригодятся отсюда 0300 и 0301 для прямого и обратного ударений, 0311 или 0302 для облеченного (первое, COMBINING INVERTED BREVE, больше подходит по форме, второе же имеет близкое по функции название COMBINING CIRCUMFLEX ACCENT). На всякий случай, 0313 для тонкого придыхания. 030F взять можно, но необязательно: буква залигатурена на позициях 0476, 0477. 033E может пригодиться для паерка.

Рассуждал я пока достаточно абстрактно. Но как вы предполагаете себе эти составные диакритики на практике, в обычных шрифтах? Да нам на каждый надстрочник по два варианта потребуется как минимум, для заглавных и строчных букв. А тяжелые случаи, а буквы разной ширины? Но Юникод в этом смысле неумолим: Combining Diacritical Marks резервируются лишь по одному своему варианту для каждого диапазона. Никакие сложности реальной реализации не принимаются во внимание, это все ваши частные проблемы. OpenType с лигатурами вне юникод-индексов мог бы помочь, но где он даже сегодня? А, главное, где он был пять, десять лет назад?

Таким образом, официальный Юникод в вопросе даже предусмотренных в нем надстрочников помогает нам мало. Да, они предусмотрены, но достаточно формально и не только для нас.

Позвольте, а как же другие языки? Мало в Европе букв с закорючками наверху? А политоника, в конце концов?

А с Европой и Грецией все просто. Для них в Юникоде, повторю, нашлось место для полного лигатурирования. Им составные надстрочники вообще не нужны, и проблем с разной шириной или высотой букв тоже не возникает: в лигатуре любой надстрочник легко размещается индивидуально.

Есть еще одно существенное возражение против использования в качестве славянских надстрочников составных диакритиков общего диапазона. Давайте вспомним, зачем нам вообще необходимо пытаться легализовать письмо в Unicode.

Мы нуждаемся в качественном издательстве на церковно-славянском, со всеми вытекающими отсюда требованиями. Но для этого Unicode не нужен. Многие годы издательство без проблем обходилось самопальными кодировками и КШС. Юникод в силу своей существенной неполноты требуемого качества набора просто бы не позволил.

Мы нуждаемся в корректной обработке этого языка системой: перевод между регистрами, разделение на слова, переносы, проверка орфографии. Следовательно, для начала нам необходимо получить стандартный числовой идентификатор языка и составить NLS-описание. NLS-описания базируются на Unicode, а идентификатор нам также вряд ли дадут без NLS и легализации требуемых символов в Unicode. Итак, это первая реальная причина необходимости вхождения церковно-славянского письма в состав Unicode. Рассмотрим аспект подробнее.

Как вы думаете, зачем Юникодом зарезервирована пара позиций 0406, 0456 для украинской Ii? Ведь форма этих букв в точности повторяет латинские. В шрифтах на месте украинской Ii просто стоит ссылка на латинские знакоместа, с точным дублированием метрик и кернинг-пар. Для чего же выделять эти буквы кодами, если на бумаге их невозможно будет отличить по форме? Очень просто. Для того, чтобы дать возможность системе различать суть этих букв.

Не отображением единым жива текстовая система, есть у нее еще мощный логический уровень. Простейший пример -- сортировка. В украиноязычной системе мы имеем, скажем, список предприятий, подлежащий при отображении на экране сортировке. Понятно, что строки "International Business Machines" и "Iнтурагенство" должны попасть в разные части списка: первый -- между H и J, второй -- между И и Ї. Но каким образом система сможет различить эти случаи, если буквам I и I у нас присвоены одинаковые коды?

С использованием надстрочников из общего диапазона -- та же история. Да, это позволяет экономить место в кодовом пространстве Юникода. Однако качественную NLS-поддержку по такому языку уже не сделаешь.

Третья причина, по которой мы нуждаемся в поддержке Юникодом церковно-славянского языка -- Интернет. То есть, возможность отображения браузерами церковно-славянских текстов без предварительной загрузки необходимых для этого "самопальных" шрифтов. Сейчас либо в составе системы, либо вместе с браузером обязательно поставляется один-два полноюникодных шрифта. Ну, если даже и не полноюникодных, то содержащих большинство диапазонов. Что делает или должен бы делать браузер, увидев на странице кодировку UTF или Unicode, и встретив внутри страницы политонику? Он должен подыскать в системе шрифт с соответствующими юникодными диапазонами, наиболее подходящий по графическим характеристикам к заявленному на странице. Найдя такой, он спокойно отображает им политонический текст. Почему это возможно? Потому что греческий политонический диапазон официально входит в состав Unicode.

Если бы и церковно-славянское письмо официально входило в состав этого стандарта, проблем с отображением славянских текстов в Интернете не было бы.

Здесь, однако, необходимо учесть следующее. Подходящий для браузера шрифт должен быть общераспространенным, дабы с большой долей вероятности он мог оказаться на любой машине. Лучшие кандидаты в такие шрифты -- те, что делаются производителями браузера или операционной системы. Например, Arial Unicode MS. В чем особенность таких шрифтов? Это достаточно большие по размеру файлы, содержащие практически весь Юникод. Arial Unicode MS содержит, среди прочего, и все предусмотренные Unicode церковно-славянские символы. Содержит наряду с латиницей и пр.

А теперь представьте, что мы разделяем основные церковно-славянские надстрочники с другими диапазонами. Это означает полную несвободу в выборе их формы. Мы не сможем придать надстрочникам характерный именно для славянского письма вид, ибо те же позиции должны разделяться диакритикой всех остальных языков. Все это, повторю, находится в одном шрифте.

Таким образом, для церковно-славянского письма очень неудобно было бы использовать в качестве его надстрочников позиции общего диапазона диакритики.

 

Букво-титла

Этот раздел будет, пожалуй, самым кратким. Вопрос: что имеется в Юникоде относительно церковно-славянских букво-титл? Ответ: ничего. Вообще ничего, никаких намеков. Без сомнения, это та область, которую необходимо осваивать потенциальной комиссии по подготовке дополнений к Юникоду в части церковно-славянского письма.

И, раз уж мы заговорили о дополнениях, то...

 

Что необходимо добавить в Unicode

Я попробую сделать первичный анализ, какие дополнения необходимо внести в Unicode, дабы добиться нормальной поддержки церковно-славянского письма позднего извода. Давайте пока только позднего, ибо более древние варианты потребуют куда более существенных усилий на анализ и куда больше требований к дополнениям в результате.

Чтобы разговор был серьезным, предлагаю сразу же остановиться на полном лигатурировании. Все эти разговоры об OpenType и накладных надстрочниках не более чем прожекты далекого будущего (возможно, правда, сравнимого со временем утверждения наших предложений в Юникод-консорциуме, начни мы этим заниматься даже прямо сейчас). Полное лигатурирование -- метод, применяемый для письма всей Европы. Греция также использует именно его, а греческий политонический, напомню, наиболее близок к ЦС среди имеющихся в Unicode алфавитов.

Я буду предлагать несколько вариантов, всякий раз оговаривая, насколько важен каждый из предлагаемых участков, чем можно жертвовать, а чем -- нет. Возможно, при гипотетическом утверждении дополнений нам придется торговаться за заказываемое кодовое пространство.

Еще раз напомню ситуацию с букво-титлами в церковно-славянском. Их применение можно разделить на две части: строгое титлосокращение и остатки свободного сокращения выносными буквами. Первый класс более характерен для позднего ЦС и представляет собой написание строго фиксированного перечня основ строго определенным образом, сокращенным и с букво-титлами. Основы эти, как правило (но необязательно), имеют некоторое сакральное значение. Написание их именно так, а не иначе, является обязательным. Таким образом, комбинациями пар "буква+букво-титло", применяющимися в классе обязательных титлосокращений, жертвовать нельзя.

Второй класс -- это отголоски более ранних изводов, где сокращение слов было свободным. Использовавшиеся при этом букво-титла правильнее было бы, наверное, называть выносными буквами. Подобного вида сокращения не несли в себе каких-то сакральных смыслов и имели, на мой взгляд, исключительно функциональное значение: экономия места на бумаге. В позднем, новоцерковно-славянском "изводе" от этой практики отказались, однако некоторые наиболее удачные случаи сохранились и используются чаще всего в сносках на полях, где проблема свободного места сохранила свою актуальность. Например: , , , , . Лигатурами для второго класса можно, при большом давлении со стороны консорциума, пожертвовать первыми.

Итак, вот список лигатур. Эти лигатуры необходимы в двух экземплярах каждая, для строчного и заглавного регистров:

Синим цветом здесь отмечены комбинации, относящиеся к классу выносных букв.

Следующий список относится к буквам без однозначных регистровых пар. Для них я указал все случаи явно:

Итого на лигатуры требуется 277 знакомест. Кроме того, нам, напомню, необходимы два знакоместа для (i десятичной без точек для использования в записи чисел), одна -- для (ик, церковно-славянская цифра 400), и одна -- для кавыки. Эти четыре символа логично разместить на свободных местах кириллической зоны 0400-04FF, а 277 лигатур -- где-то в отдельном диапазоне.

На мой взгляд, цифра 277 -- не маленькая, но и не такая уж большая. Вполне сравнима с зоной греческой политоники. Зато легализация этих лигатур позволила бы решить практически все вопросы с представлением церковно-славянских текстов позднего извода. Кто бы этим занялся?

 

Предыдущий раздел
К оглавлению
Глоссарий
Следующий раздел

 

Hosted by uCoz