• Главная
  • Карта сайта
Не найдено

Про шрифти з продовженням. Частина 2

  1. ISO 8859-1 (Latin-1) і ISO 8859-15 (Latin-9)
  2. ISO 8859-2 (Latin-2) і ISO 8859-16 (Latin-10)
  3. ISO 8859-3 (Latin-3) і ISO 8859-9 (Latin-5) (iso-ir-109, ISO_8859-3, latin3, l3, csISOLatin3)
  4. ISO 8859-4 (Latin-4), ISO 8859-10 (Latin-6), ISO 8859-13 (Latin-7)
  5. ISO 8859-5, 6, 7, 8, 11
  6. ISO 8859-14 (Latin-8)
  7. далекий Схід
  8. Microsoft's code pages
  9. Apple's encodings

4 - 2010
4 - 2010   Микола Дубина   info@prodtp

Микола Дубина [email protected]

Продовження. Початок див. В КомпьАрт №3 2010 року.

ISO 8859-1 (Latin-1) і ISO 8859-15 (Latin-9)

Кодовий набір ISO 8859-1 (Latin-1) базувався на мультинаціональному шрифтовому наборі, який я використав компанією DEC в популярному терміналі VT220. Він був розроблений в рамках ECMA (European Computer Manufecturers Association) і опублікований в березні 1985 року (ECMA-94).

У Юникоде перші 256 кодових позицій збігаються з ISO 8859-1.

У Microsoft Windows для західноєвропейських мов застосовується кодування Windows -1252, яка відрізняється від ISO 8859-1 тим, що позиції 128-159 тут зайняті різними корисними друкарськими символами. Більшість браузерів Не будете звертати уваги ISO 8859-1 і Windows -1252 - фактично і в тому, і в іншому випадку вони відображають текст як Windows -1252.

Плутанина між цими двома кодуваннями привела до того, що багато програм, що генерують файли HTML, помилково позначали символи відповідними кодами з Windows -1252 замість кодів Юнікоду (виходячи з того, що номер символу в ISO 8859-1 дорівнює його номеру в Юникоде): наприклад , тире (-) позначалося & # 151; замість правильного & # 8212, три крапки - & # 133; замість правильного & # 8230; і т.д.; через поширеність цього явища сучасні браузери продовжують показувати, наприклад, & # 151; як тире, хоча насправді & # 151; - це керуючий символ end of guarded area, застосування якого в HTML безглуздо (табл. 8).

8)

Або для GR (враховуючи, що C0 і GL ідентичні ASCII, а C1 не використовується) - див. Табл. 9.

9

Деякі символи необхідно розшифрувати:

  • NBSP (non-breaking space) - це нерозривний пробіл;
  • «¡» І «¿» - іспаномовні знак і знак питання знаки, які використовуються на початку пропозиції.
  • «¢», «£» і «¥» - символи валюти: знак цента, британський фунт і японська ієна;
  • «¤» - так званий універсальний знак валюти. Колись італійці запропонували цей символ в якості заміни для знака долара в деяких локалізаціях і «політично правильної» версії ASCII;
  • «ª» і «º» застосовуються в іспанському, італійському і португальською мовами в якості цифрової приставки гендерної складової (наприклад, 1ª - перша; 2º - другий);
  • SHY - варіант переносу;
  • «°» - знак градуса, який, як не крути, сильно відрізняється від нуля і букви «О» в позиції ступеня. Ми пишемо «Nº», але «36,6 ° С»;
  • серединна точка (midpoint) «·» - використовується для формування каталанська лігатури «l·l»;
  • німецький есцет (eszett) «ß» - добавка з fz (в готичному шрифті) або fs (в Антиква), першим елементом якої є так зване довге S. Нині застосовується тільки в німецькій мові, але до XIX століття більш-менш регулярно використовувалася практично у всіх середньовічних європейських мовах з письменностями на латинській основі, особливо в курсиві. У німецьких словниках при упорядкуванні за алфавітом знак ß зазвичай прирівнюється до ss. Слід пам'ятати, що заміна символом ß двох букв ss не завжди правомірна, так як застосування символу ß має на увазі подовження попередньої голосної, тоді як ss - її вкорочення. Не слід також плутати латинську лігатуру ß і грецьку малу літеру «бета» (β);
  • «Ÿ» (Y з діерезісом) - використовується у валлійському і старому французькою мовами.

У березні 1999 року, коли з'явилася нагальна потреба в додаванні знака євро, ISO скористався цим, щоб виправити стратегічні помилки: були додані лігатури «Œ» і «œ», а також буква «Ÿ», необхідні для французів. Ще були додані літери «Z», «z», «Š», «š», які застосовуються в більшості країн Центральної Європи. Знак євро (€) зайняв місце символу універсальної грошової валюти.

Новий стандарт називається ISO 8859-15 (або Latin-9). Він відрізняється від ISO 8859-1 тільки по восьми позиціях (виділені напівжирним в табл. 10).

10)

ISO 8859-2 (Latin-2) і ISO 8859-16 (Latin-10)

Після стандарту ISO 8859-1, який також відомий як ISO Latin-1, вийшло ще три кодування для латиниці: по одній для країн Східної (ISO 8859-2), Південної (ISO 8859-3) і Північної (ISO 8859-4) Європи.

Таким чином, ISO 8859-2 (або Latin-2) включає символи, необхідні для деяких мов Центральної та Східної Європи: боснійського, хорватського, чеського, угорського, польського, румунського, словацького, словенського та сербського. Він також містить символи, необхідні для німецької та французької мов (табл. 11).

У 2001 році, вже після виходу ISO 8859-15, ISO зробив те ж саме для ISO 8859-2: ISO 8859-16 (або Latin-10) - останньої кодування зі стандарту 8859. Вона охоплює мови Центральної Європи (польська, чеська, словенський, словацький, угорський, албанський, румунський), а також французький (з лігатурою «œ»), німецька та італійська. Крім того, сюди включені румунські знаки «s» і «t» (табл. 12).

ISO 8859-3 (Latin-3) і ISO 8859-9 (Latin-5) (iso-ir-109, ISO_8859-3, latin3, l3, csISOLatin3)

ISO 8859-3 (Latin-3) присвячена «південним» мов плюс есперанто. У неї входять символи з ISO 8859-1 і ISO 8859-2, а також кілька порожніх блоків (табл. 13).

У 1989 році турки, незадоволені ISO 8859-3, домоглися прийняття ISO 8859-9 (Latin-5), яка відрізняється від ISO 8859-1 тільки шістьма знаками (виділені напівжирним) табл. 14.

14

ISO 8859-4 (Latin-4), ISO 8859-10 (Latin-6), ISO 8859-13 (Latin-7)

Стандарт ISO 8859-4 (Latin-4) присвячений мовам Півночі. Але оскільки датська, шведська, норвезька, фінська і ісландський вже охоплені ISO 8859-1, то під «мовами Півночі» тут розуміються країни Балтії: Литва, Латвія, Естонія і Гренландія. Сюди ж входить і саамська (табл. 15).

У 1992 році для мов Півночі була створена нова кодування - ISO 8859-10 (Latin-6) - табл. 16.

коментар:

  • у ізольованій «ß» з'явилася пара - гренландська «до», яка в верхньому регістрі ідентична звичайній «K»;
  • знак «Ð» зустрічається двічі: в позиції 0xA9 як хорватська «dje» (в нижньому регістрі «d») і в позиції 0xD0 як ісландська «eth» (в нижньому регістрі «ð»).

У 1998 році вийшов стандарт ISO 8859-13 (Latin-7) для балтійських мов, скомбінована з польськими знаками.

ISO 8859-5, 6, 7, 8, 11

Як передісторії до ISO 8859-5 згадаємо, що в середині 70-х років з'явилася кодування КОИ, в якій російські літери в другій половині таблиці ставилися на такі місця, щоб при відніманні 128 з коду виходила відповідна за звучанням (але не завжди з написання ) англійська літера, причому в протилежному регістрі, щоб відрізнити англійський текст від російського. Наприклад, слова «Русский Текст» перетворилися б у «rUSSKIJ tEKST». Факт залишається фактом: довгий час ЯКІ-8 існував у вигляді загальносоюзного стандарту (ГОСТ 19768-74) і навіть мало не був затверджений в якості міжнародного (ISO-IR-111 або ECMA-Cyrillic). Навіть зараз KOI-8r (всього кодувань з загальною назвою ЯКІ існує не менше семи) як був, так і залишається найпоширенішим стандартом для електронної пошти. А в кінці 80-х років він був зведений в ранг інтернет-стандарту під назвою RFC-1489. Тут, звичайно, зіграло свою роль те, що він і був на той час стандартом де-факто (підкріпленим авторитетом ГОСТу) для UNIX-систем, які домінували в Мережі.

Треба визнати, що ЯКІ-8 досить-таки незручний. Спроби придумати щось більш легкотравне були. Одна з них навіть змінила ЯКІ-8 в якості загальносоюзного стандарту (ГОСТ 19768-87). Цей ГОСТ, до речі, діє і понині. Плутанину погіршили фахівці з ISO, які включили новий порядок кириличних літер в міжнародний стандарт під назвою ISO 8859-5 (табл. 17). Згаданий ГОСТ і стандарт ISO 8859-5 виявилися настільки «нестандартними», що їх рішуче ніхто не використовує. Госстандат зараз спокійно вітає відвідувачів на своєму сайті в кодуванні Win1251. Альтернативні варіанти цього стандарту можна зустріти під назвами: csISOLatinCyrillic, iso-ir-144, ISO 8859-5: 1988, iso-8859_5-1999.

Альтернативні варіанти цього стандарту можна зустріти під назвами: csISOLatinCyrillic, iso-ir-144, ISO 8859-5: 1988, iso-8859_5-1999

Стандарт ISO 8859-6 (Arabic) використовує символи арабської мови. Символи інших мов з листом на основі арабського не підтримуються. Для коректного відображення тексту в кодуванні ISO 8859-6 потрібна підтримка двонапрямленого письма і контекстно-залежних форм символів. Відсутні «wasla» і вертикальна «fatha». Альтернативні інкарнації даного стандарту: csISOLatinArabic, iso-ir-127, ISO 8859-6: 1987, iso-8859_6-1999, ECMA-114.

ISO 8859-7 (Greek) містить символи сучасного грецької мови. Може використовуватися також для запису давньогрецьких текстів в монотоніческой орфографії. Альтернативи: csISOLatinGreek, iso-ir-126, ISO 8859-7: 1987, iso-8859_7-1987, ECMA-118, ELOT_928.

ISO 8859-8 (Hebrew) включає символи сучасного івриту (csISOLatinHebrew, iso-ir-138, iso-8859_8-1999). Застосовується в двох варіантах: з логічним порядком проходження символів (вимагає підтримки двонапрямленого письма) і з візуальним порядком проходження символів. Ідиш відсутня.

ISO 8859-11 (Thai) містить символи тайської мови (windows-874, windows-874-2000). Цей стандарт - прямий спадкоємець TIS 620 від 1986 року. Добре опрацьований і насправді охоплює не тільки тайський, але і спрощену версію кхмерского мови.

ISO 8859-14 (Latin-8)

Охоплює кельтські знаки: ірландський гельська (гельська), шотландський і валлійська. Досить повний набір знаків. З недоліків можна відзначити лише відсутність лігатури «c'h».

далекий Схід

З усіх азіатсько-далекосхідних країн найкраще справу з кодуваннями йде в Японії. У 1976 році, через три роки після випуску ISO 2022, японці підготували першу GR-кодування, тобто 94 додаткових знака до ASCII, - JIS C 6220 (в 1987 році була перейменована в JIS X 0201-1976). Кодування JIS C 6220, заснована на JISCII (1969 р), містить тільки катакану і кілька идеографических розділових знаків (крапка, кома, лапки, підвищена точка).

1 січня 1978 року, після дев'яти років наполегливої ​​роботи, перша істинно японська кодування - JIS C 6226-1978, відома сьогодні як old JIS, - офіційно вступила в силу. Вона містить 6694 знака: латиницю, грецький і кириличний алфавіти, кана і 6349 ієрогліфів кандзі. З тих пір стандарт був переглянутий три рази. Остання версія - JIS X 0208-1997 від січня 1997 року.

У 1990 році була випущена друга японська кодування - JIS X 0212-1990. Вона доповнює першу 5801 ієрогліфом і 266 іншими символами. Третя кодування - JIS X 0213-2000 - з'явилася в січні 2000 року. Вона доповнена ще двома рівнями кандзі на додаток до двох JIS X 0208-1997: третій рівень містить 1249 ієрогліфів, четвертий - 2436.

Китай теж не відстає від Японії: в 1981 році він випустив першу китайську кодування - GB 2312-80. Це кодування, в якій міститься 7445 символів, відповідає стандартові ISO 2022.

Згодом було прийнято безліч доповнень. До 1992 року кількість символів склало 8443. Після Культурної революції КНР прийняла спрощену систему написання ієрогліфів, тому існують кодування як для традиційної, так і для спрощеної форми писемності.

Тайвань також не залишився осторонь. У 1984 році вийшов стандарт, званий в народі «Велика п'ятірка» - над його створенням працювали співробітники п'яти найбільших корпорацій Тайваню. У цьому стандарті міститься 13 494 символу, 13 053 з яких ієрогліфи, розташовані на двох рівнях. Нарешті, в 1992 році побачила світ кодування CNS 11643-1992, яка побила всі рекорди за кількістю символів: всього їх 48 711, в тому числі 48 027 ієрогліфів, організованих в семи частинах приблизно по 6-8 тис. Символів.

Що стосується інших країн, які розмовляють китайською мовою, в основному Сінгапуру і Гонконгу, то вони теж все частіше використовують «Великої п'ятірки».

У Південній Кореї в 1992 році було прийнято кодування KS X 1001-1992, в якій міститься 4888 ієрогліфів, 2350 фонематических символів хангиль (hangul) і 986 інших символів, включаючи латиницю, грецький, кирилицю і японську кана, що імітують цією частиною JIS X 0208- 1 997.

Перша північнокорейська кодування KPS 9566-97 від 1997 року містила 4653 ієрогліфа, 2679 символів хангиль і 927 інших символів. Як водиться, кодування Південної і Північної Кореї абсолютно несумісні. Крім того, позиції від 0x0448 до 0x044D виконують важливу державну функцію: вони містять імена «великих вождів» Кім Ір Сена і його сина Кім Чен Іра.

Microsoft's code pages

Оскільки спочатку кодування призначалося для ОС DOS, то тут ми бачимо набір графічних символів, використовуваних для малювання інтерфейсів користувача через просту композицію з прямих, кутів, хрестів і т.д. Є навіть решітки пікселів, які моделюють різні відтінки сірого.

У США найбільш часто застосовуються кодові сторінки 437 (United States) та 850 (Multilingual). В обох випадках це 128 знаків ASCII (вся верхня половина таблиці) плюс доповнення. На рис. 2 показано, як виглядає 437-я сторінка, позначена як MS-DOS Latin US.

2 показано, як виглядає 437-я сторінка, позначена як MS-DOS Latin US

Мал. 2. 437-а сторінка MS-DOS

Звичайно ж, 437-й сторінкою кодування не вичерпується. Інші кодові сторінки MS-DOS: арабські 708-710, 720 і 864; монотоніческій грецький - 737 і 869; 775 (країни Балтії); 852 (країни Центральної Європи); 855 і 866 (кирилиця; причому 866-я тільки для російської мови); 857 (турецька); 860 (португальська); 861 (ісландський); 862 (іврит без коротких голосних); 863 (канадський французький як компіляція 437 і 850); 865 (північні країни); 874 (тайський); 932 (японський); 936 (спрощена китайська); 949 (Корея); 950 (традиційна китайська).

Що стосується Росії, то з усіх виниклих в кінці 80-х років кириличних кодувань найбільшого поширення набула так звана альтернативна кодування. Своєю назвою вона зобов'язана тому, що була висунута як альтернатива нікому не потрібного ГОСТу. Зараз вона більше відома як CP866 (Code Page 866) або кирилична кодування MS DOS. Мабуть, це найбільш продумана з усіх кодувань. Перш за все на своїх місцях залишилися символи псевдографіки і багато інших спецсимволи з другої половини ASCII, тобто оформлений з їх допомогою англійський текст абсолютно не змінюється незалежно від поточної кодової сторінки. Деяка незручність полягає в тому, що російські символи розташовуються в таблиці з розривом: мала літера «п» має номер 175, а «р» і далі починаються з номера 224, літери «Е» та «е» заміщають досить часто вживаються символи 240 ( знак тотожності) і 241 (плюс / мінус), що іноді призводить до різних негарно. Але це недоліки простимі. Крім «альтернативної», в початковий період поширення персоналок в країнах СЕВа діяли болгарська MIC (яка до сих пір використовується в болгарській Linux), якась «польська» (нині ніде не згадується), «українська», майже всі різновиди ЯКІ та CP855 , в якій символи кирилиці розташовані зовсім інакше, ніж в CP866.

В епоху Windows необхідність в графічних символах відпала, і Microsoft вирішила прийняти за основу ISO 8859, але уникнути її головного недоліку - символи 0x80-0x9F були керуючими в реалізації Microsoft.

Таким чином, кодова сторінка 1 252 Windows Latin 1, також відома як ANSI, є кодуванням ISO 8859-1 з додаванням двох рядків (табл. 18).

Кодова сторінка 1250 Windows Latin 2 розширює і змінює ISO 8859-2. Змін зазнали позиції 0x80-0xBF (табл. 19).

Згадаємо і кодову сторінку тисячі двісті п'ятьдесят-один Windows Cyrillic. Вона вигідно відрізняється від інших 8-бітних кириличних кодувань (таких як CP866, KOI8-R і ISO 8859-5) наявністю практично всіх символів, що використовуються в російській типографике для звичайного тексту (відсутній тільки значок наголоси), і містить всі символи для близьких до російській мові мов: української, білоруської, сербської та болгарського (табл. 20).

Дана кодування має два недоліки:

  • рядкова буква «я» має код 0xFF (255 в десятковій системі). Вона є винуватицею ряду несподіваних проблем в програмах без підтримки чистого 8-го біта, а також (набагато більш частий випадок) використовують цей код як службовий (в CP437 він позначає нерозривний пробіл, в Windows -1252 - «ÿ», обидва варіанти практично не застосовуються; число ж -1, в додатковому коді довжиною 8 біт представляється числом 255, часто використовується в програмуванні як спеціальне значення, наприклад індикатор кінця файлу EOF часто представляється значенням -1);
  • відсутні символи псевдографіки, наявні в CP866 і KOI8 (хоча для самих Windows, для яких вона призначена, в них не було потреби, оскільки це зробило несумісність двох застосовувалися в них кодувань більш помітною).

Apple's encodings

Компанія Macintosh з самого початку використовувала власні кодування. Незвичайність кодувань Macintosh полягає в тому, що як кодові сторінки MS DOS вони включають математичні символи. Оскільки більшість шрифтів не містить ці символи, в Mac OS була передбачена спеціальна процедура заміщення відсутніх символів з системних шрифтів. Інша особливість кодувань Macintosh - вони включають лігатури «fi» і «fl», а також знаменитий значок надкушеною яблука, який Apple використовує в якості свого логотипу.

Мал. 3. Кодування Standard Roman

Кодування, показана на рис. 3, застосовується на макінтошах і називається Standard Roman.

Кодування CP10007 (Macintosh Cyrillic; Mac OS Cyrillic character set; x-mac-cyrillic) - табл. 21.

Зрозуміло, існують і інші кодування: Icelandic, Turkish, Central European, Arabic (арабську, перську, урду), Chinese Traditional, Greek (монотоніческій), Hebrew, Japanese, Korean, Devanagari, Gujarati, Gurmukhi і Thai.

Далі буде

КомпьюАрт 4'2010

Провайдеры:
  • 08.09.2015

    Batyevka.NET предоставляет услуги доступа к сети Интернет на территории Соломенского района г. Киева.Наша миссия —... 
    Читать полностью

  • 08.09.2015
    IPNET

    Компания IPNET — это крупнейший оператор и технологический лидер на рынке телекоммуникаций Киева. Мы предоставляем... 
    Читать полностью

  • 08.09.2015
    Boryspil.Net

    Интернет-провайдер «Boryspil.net» начал свою работу в 2008 году и на данный момент является одним из крупнейших поставщиков... 
    Читать полностью

  • 08.09.2015
    4OKNET

    Наша компания работает в сфере телекоммуникационных услуг, а именно — предоставлении доступа в сеть интернет.Уже... 
    Читать полностью

  • 08.09.2015
    Телегруп

    ДП «Телегруп-Украина» – IT-компания с 15-летним опытом работы на рынке телекоммуникационных услуг, а также официальный... 
    Читать полностью

  • 08.09.2015
    Софтлинк

    Высокая скоростьМы являемся участником Украинского центра обмена трафиком (UA — IX) с включением 10 Гбит / сек... 
    Читать полностью