• Главная
  • Карта сайта
Не найдено

Науково-освітній кластер CLAIM

  1. Пилипович Андрій "Немає справи більш важкого за задумом,більш сумнівного по успіху,більш небезпечного...
  2. Вступ
  3. Склад пакету програмних засобів ANDREW's TOOLS
  4. Шрифт Andrew Greek
  5. Розкладка клавіатури
  6. Правила введення
  7. Особливості видалення акцентованих і підрядковими знаками
  8. деякі приклади
  9. Шрифт KDRS old Cyr
  10. деякі приклади
  11. Програма ANDREW's SORT 2.0
  12. Схема алгоритму програми
  13. Технічна підтримка
  14. Загальні Відомості про сортуваннях в PARADOX
  15. Мова ObjectPAL
  16. Обгрунтування вибору мови програмування
  17. Висновок

Пилипович Андрій "Немає справи більш важкого за задумом,більш сумнівного по успіху,більш небезпечного при здійсненні,ніж вводити нові порядки".

Нікколо Макіавеллі, "Государ" (1513)

зміст

Вступ.

Склад пакету програмних засобів ANDREW's TOOLS.

Шрифт Andrew Greek.

Шрифт KDRS old Cyr.

Програма ANDREW's SORT 2.0.

Висновок.

Вступ

Одним з нових напрямків в гуманітарних науках є впровадження в практичну діяльність лінгвістів, істориків і філологів сучасних засобів обробки даних, заснованих на використанні СУБД. У російській історичній лексикографії - на базі Словника російської мови XI-XVII ст. - ця методика використовується вперше.

Основою для складання історичних словників є стародавні рукописи, а також їх видання, які написані грецькою і давньоруському мовами. Використання цих рукописів і їх видань в якості вихідних даних для складання словників із застосуванням СУБД вимагає вирішення низки завдань, в числі яких найбільш важливе місце відводиться розробці шрифтів і методів обробки даних, представлених різними шрифтами.

Ця стаття складається з двох частин і описує рішення наступних завдань:

  • розробку шрифтів для введення в бази даних грецьких і давньоруських текстів;
  • розробку найбільш трудомістких процедур обробки даних (методів пошуку, сортування та ін.).

Рішення даних завдань представлено пакетом програмних засобів ANDREW's TOOLS.

Склад пакету програмних засобів ANDREW's TOOLS

Пакет ANDREW's TOOLS розробляється за замовленням Інституту російської мови Російської Академії наук (ІРЯ РАН) для підготовки та занесення грецьких і давньоруських текстів в бази даних. У пакет входять програма ANDREW's SORT і два шрифту формату ttf (ANDREW GREEK і KDRS OLD CYR) для роботи з додатками MS Windows: Paradox for Windows, Word for Windows 6.0 і ін.

ANDREW's SORT - це програма для сортування таблиць СУБД PARADOX 5.0. Програма дозволяє використовувати при сортуванні довільно заданий порядок проходження символів. При цьому вона не сортує таблицю своїми засобами, а лише готує її для сортування засобами PARADOX.

ANDREW GREEK - шрифт для друку грецьких паралелей в Електронної картотеці і базах даних Словника російської мови XI-XVII ст. Шрифт крім всіх грецьких букв містить додаткові знаки - надрядкові і підрядкові символи. Використання "нульових ширини" при введенні додаткових знаків дозволяє майже повністю імітувати друк текстів на друкарській машинці з грецької клавіатурою, яка була взята за основу при створенні шрифту і розташуванні його на стандартній клавіатурі комп'ютера.

KDRS OLD CYR - шрифт для друку давньоруських текстів (в спрощеному графічному варіанті, використовуваному в Словнику російської мови XI-XVII ст.). За основу був узятий шрифт Times New Roman Cyr, в який були додані деякі нестандартні символи і букви, а саме буква "ять" KDRS OLD CYR - шрифт для друку давньоруських текстів (в спрощеному графічному варіанті, використовуваному в Словнику російської мови XI-XVII ст і титла трьох різних довжин: а) , Б) , В) .

Особливістю грецького алфавіту є наявність в ньому крім букв спеціальних знаків - надрядкових і підрядкових символів, які ставляться, як правило, над голосними буквами або під ними. Кількість різних знаків - 15, а їх комбінацій - 27. Для малих (прописних) і заголовних букв знаки ставляться по-різному. Загальна кількість всіх комбінацій букв з наголосами та підрядковими знаками становить 170, а число букв в грецькому алфавіті - 51 (25 великих і 26 прописних). Якщо врахувати ще всі необхідні знаки (тире, крапка і ін.), То отримаємо, що загальна кількість символів більше 255. Існує кілька способів подання грецького алфавіту в ЕОМ: скорочення числа використовуваних символів, до того ж значно (до "математичного грецького" - шрифт Symbol ); використання останніх розробок, що підтримують більше 255 символів і несумісних з більшістю програм (з усіма DOS програмами, PARADOX, COREL VENTURE); використання розширеного, але все ж неповного набору символів, шляхом використання ALT-комбінацій (наприклад, шрифт WP GREEK CENTURY); використання "нульових ширини" у надрядкових і підрядкових знаків.

Особливістю давньоруських текстів є наявність в них скорочених форм запису слів (як правило, пропущені голосні літери), при цьому скорочені слова позначаються спеціальним наголосами знаком - "Титло". Іншою особливістю давньоруських текстів є присутність в алфавіті літери "ять", а в неспрощених алфавіті і інших букв ( "юси" - великий і малий; йотований голосні і ін.).

В роботі для вирішення першого завдання використовувалися "нульові ширини" при поданні надрядкових, підрядкових знаків грецького алфавіту і знаків (титл) давньоруського алфавіту.

Шрифт Andrew Greek

Загальний опис

Andrew Greek - Windows TrueType шрифт, що дозволяє здійснювати введення текстів грецькою мовою разом з наголосами та підрядковими знаками. Текст можна вводити в будь-якому текстовому редакторі, що дозволяє використовувати шрифти з символами різної ширини (в тому числі і нульовий) і підтримує шрифтової ttf-формат. Шрифт містить всі великі і малі літери грецького алфавіту, а також 15 надрядкових і підрядкових знаків, які можуть використовуватися в будь-яких можливих комбінаціях ( см. таблицю ).

В основі способу відображення або друку грецької букви з наголосами (підстрочним) знаком лежить ідея використання символу "нульовий ширини". Всі букви шрифту мають певну ширину, а надрядкові (підрядкові) знаки її не мають, тобто їх ширина - нульова. На екрані як ті, так і інші відображаються однаково. Послідовне відображення символів призводить до того, що буква, що вводиться після надрядкового (підрядкового) знака або їх групи, як би накладається на ці знаки. Це досягається завдяки особливостям побудови шрифту. Символ "нульовий ширини" на екрані відображається так само, як і символ певної ширини, а в комп'ютер він заноситься як символ з шириною, що дорівнює нулю. У зв'язку з цим наступний символ відображається на місці попереднього. Надрядкові і підрядкові знаки розміщуються вище або нижче малих літер, тому останні їх не "затуляють". Такого не відбувається в разі зображення заголовних букв з наголосами. Для того, щоб велика літера не «затуляла" надрядковий знак, після нього вводиться "маленький пробіл". Таким чином, грецька буква з наголосами (підстрочним) знаком є ​​комбінацією послідовно "накладених" один на одного символів.

Для створення шрифту використовувався пакет FONTOGRAPHER 3.5, що дозволяє сформувати (намалювати або змінити) окремі символи і розмістити їх в таблиці символів. За основу шрифту Andrew Greek був узятий шрифт WP Greek Century (© 1993 WordPerfect Corporation). У таблицю символів були додані нові і видалені невикористовувані символи, змінені їх позиції, додані надрядкові і підрядкові знаки ( см. табл. ). Таблиця символів Andrew Greek показана на рис.1. Приклад складного надрядкового знака представлений на рис.2 . Все надрядкові і підрядкові знаки має нульову ширину.

Все надрядкові і підрядкові знаки має нульову ширину

Мал. 1. Таблиця символів шрифту Andrew Greek

Таблиця. Букви і знаки шрифту Andrew Greek

Мал. 2. Приклад складного надрядкового знака

Розкладка клавіатури

на Мал. 3 показано розміщення букв і знаків грецького алфавіту по клавішах клавіатури комп'ютера. Для введення грецьких букв використовуються 34 клавіші, в тому числі: 25 буквених, 7 знакових і одна спеціальна - "маленький пробіл", а також клавіша Shift.

Для введення грецьких букв використовуються 34 клавіші, в тому числі: 25 буквених, 7 знакових і одна спеціальна - маленький пробіл, а також клавіша Shift

Мал. 3. Фрагмент клавіатури комп'ютера

Правила введення

Введення грецьких букв здійснюється в режимі роботи клавіатури "латиниця".

Введення великих літер здійснюється шляхом натискання відповідних клавіш.

Введення надрядкових (підрядкових) знаків, зображених в нижній частині клавіш, здійснюється натисканням відповідної клавіші, а зображених у верхній частині - утримуючи клавішу Shift.

Введення великих літер, які використовують наголоси і підрядковими знаками здійснюється в наступному порядку: спочатку шляхом натискання знакових клавіш вводяться надрядкові (підрядкові) знаки; потім натисканням буквеної клавіші вводиться відповідна буква.

Введення великих літер здійснюється шляхом натискання відповідної буквеної клавіші, утримуючи клавішу Shift.

Введення великих літер, які використовують наголоси і підрядковими знаками здійснюється в наступному порядку: спочатку вводяться знаки, потім натискається спеціальна клавіша "маленький пробіл", а потім - велика літера.

Особливості видалення акцентованих і підрядковими знаками

Видалення акцентованих і підрядковими знаками здійснюється за допомогою клавіші Backspace шляхом дво- або триразового її натискання. При цьому курсор повинен бути встановлений за видаляється буквою. Число натискань клавіші Backspace залежить від числа надрядкових (підрядкових) знаків, а в разі видалення великої літери воно збільшується на одиницю (враховується "маленький пробіл").

деякі приклади

Введення малої літери з наголосами та підстрочним знаками:

- вводиться надрядковий знак шляхом натискання відповідної клавіші:

- вводиться надрядковий знак шляхом натискання відповідної клавіші:

- вводиться підрядковий знак шляхом натискання відповідної клавіші, утримуючи клавішу Shift:

- вводиться підрядковий знак шляхом натискання відповідної клавіші, утримуючи клавішу Shift:

- вводиться буква:

- вводиться буква:

Введення великої літери з наголосами та підстрочним знаками:

-Вода надрядковий знак шляхом натискання відповідної клавіші, утримуючи клавішу Shift:

- вводиться "маленький пробіл" шляхом натискання спеціальної клавіші:

- водиться буква шляхом натискання відповідної клавіші, утримуючи клавішу Shift:

Приклади введеного тексту:

Шрифт KDRS old Cyr

Загальний опис

KDRS old Cyr - Windows TrueType шрифт, що дозволяє здійснювати введення давньоруських текстів (в спрощеному графічному варіанті) разом зі спеціальним наголосами знаком "Титло", а також буквою "ять". Знак "Титло" ставиться над словами, в яких під час запису пропущені деякі букви (одна або кілька). Використовуються три типи титл: коротке, якщо пропущена одна буква; середнє, якщо пропущені дві-три букви і довге, якщо пропущено більше трьох букв. Наприклад, в тексті Давньоруської словника зустрічаються слова, в яких використовуються титла і буква "ять":

Текст можна вводити в будь-якому текстовому редакторі, що дозволяє використовувати шрифти з символами різної ширини (в тому числі і нульовий) і підтримує шрифтової ttf-формат.

В основі способу відображення або друку літери алфавіту з наголосами знаком "Титло" також лежить ідея застосування символу "нульовий ширини", описана вище.

Для створення шрифту використовувався пакет FONTOGRAPHER 3.5. За основу шрифту KDRS old Cyr був узятий шрифт Times New Roman Cyr (© The Monotype Corporation plc. Data © The Monotype Corporation plc / Type Solutions Inc 1990 - 1992). У таблицю символів були внесені наступні зміни: замість символів <%>, <$>, <^>, <#> поставлені відповідно "середнє Титло" Для створення шрифту використовувався пакет FONTOGRAPHER 3 , "Короткий Титло" , "Довге Титло" і буква "ять" .

Таблиця символів KDRS old Cyr представлена ​​на Мал. 4. Приклад надрядкового знака "короткий Титло" представлений на Мал. 5.

деякі приклади

Приклад введеного тексту:


Мал. 4. Таблиця символів шрифту KDRS old Cyr


Мал. 5. Символ "короткий Титло"

При створенні словників, словников і покажчиків важливу роль відіграє сортування. Її необхідність викликана великим обсягом різних даних, для пошуку яких можна витратити годинник, дні або навіть роки. Найпоширеніша, що застосовується для текстової інформації так звана алфавітна сортування, яка здійснюється за зростанням або за спаданням. Дональд Кнут визначає такий вид сортування вужчим поняттям впорядкування.

Сучасні СУБД (PARADOX, ACCESS, FOXBASE, DBASE і ін.) Мають вбудовані методи і процедури обробки інформації (пошук, заміна, сортування та ін.). Однак ці методи використовують лише певні мовні драйвери, що підтримують тільки сучасні мови, їх стандартні набори символів, і не дозволяють виконати, наприклад, алфавітну сортування давньоруських і грецьких слів. В роботі розглядається метод сортування, при розробці якого використовуються наступні два підходи:

  • створення нових програм сортування та підключення їх до СУБД;
  • створення програм підготовки даних, представлених нестандартними наборами символів, до виду, допускає використання вбудованих в СУБД методів сортування.

Для розробки методу сортування таблиць баз даних, що містять текстові поля, представлені нестандартними наборами символів, в роботі використовувався другий підхід.

Програма ANDREW's SORT 2.0

призначення програми

Перш за все ця програма призначена для лінгвістів, що працюють з нестандартними шрифтами. Програма знімає багато обмежень і розширює можливості в роботі із засобами сортування. З'являється можливість додавання нових і видалення непотрібних символів в алфавіті. Це засіб для тих, хто не задоволений стандартними методами сортування і використанням різних мовних драйверів, зміна яких часто призводить до серйозних проблем, незручностей, втрат часу і інформації.

Програма також призначена для будь-якого користувача, у якого з'явилася потреба або бажання застосувати довільний порядок сортування даних таблиць PARADOX.

Схема алгоритму програми

Програма складається з чотирьох основних частин:

  • підготовка вихідних даних;
  • обробка вихідних даних;
  • створення нових даних;
  • обробка нових даних.

Підготовка вихідних даних здійснюється автоматично. Винятком є ​​створення таблиць порядку сортування.

Обробка вихідних даних полягає в їх введенні і перетворенні. Для зручного введення інформації було створено кілька екранних форм (рис. 6 , 7 ). Одна з важливих завдань - заповнення і перекодування таблиць порядку сортування. Всі вони мають однакову структуру ( Мал. 8 ).

Таблиці заповнюються усіма можливими (допустимими) символами PARADOX (32-127, 171-255) і їх ANSI кодами. Після редагування та закриття користувачем таблиці програма перекодує символи в поле КОДУВАННЯ. Перекодування полягає в наступному: для кожного символу створюється новий, пов'язаний з першим символ, який записується в поле КОДУВАННЯ. Мета цієї операції - зв'язати порядок сортування, заданий користувачем, зі стандартним порядком сортування PARADOX.

Мал. 6. Завдання параметрів результуючої таблиці

Мал. 7. Завдання порядку сортування

Мал. 8. Структура таблиць порядку сортування


Перекодування здійснюється відповідно до полем ПОРЯДОК, в якому користувач визначає алфавіт, тобто порядок проходження символів при сортуванні.

Якщо для різних символів в поле ПОРЯДОК введені два або більше однакових числа, то їх порядок в алфавіті однаковий (наприклад, порядок у великих і великих літер може бути однаковий). Якщо для символів не введений такий порядок або вони видалені з алфавіту, то програма не використовуватиме їх під час сортування (наприклад, знак "Титло" Якщо для різних символів в поле ПОРЯДОК введені два або більше однакових числа, то їх порядок в алфавіті однаковий (наприклад, порядок у великих і великих літер може бути однаковий) або знаки наголосу). Необхідно всім символам, використовуваним в тексті, проставити правильний порядковий номер. (Наприклад, дуже часто при складанні алфавіту символи "Комерсант", "Ь" не приводять в алфавітному порядку, мотивуючи тим, що ці знаки не зустрічаються на початку слова. Завжди потрібно пам'ятати, що сортування проводиться не за першою літерою слова, а по всім його символам. В іншому випадку слово рать буде знаходиться за алфавітом раніше слова ратник.)

При зміні та створенні порядку сортування можна додавати нові символи, в тому числі і подвійні. У старослов'янській мові існують подвійні букви, тобто літери, що складаються з двох символів. Іноді для зручності або через неписьменність замість "спеціально зроблених" букв набирають більш просту в запам'ятовуванні комбінацію з інших символів. Наприклад, букву "Оу" отримують з комбінації букв "О" і "у". Зустрічаються і більш цікаві варіанти. Букву "И" набивають у вигляді комбінації символів "Ь" і "I". Найбільш поширені ці помилки серед філологів. Це, по-моєму, викликано не тільки специфічним ставленням до букв і слів як до предмету вивчення, а й незнанням або нерозумінням принципу роботи і відображення символів на ЕОМ. При цьому майже стовідсотково працює відомий принцип Microsoft: "Як на екрані, так і на папері". Але для автоматичної обробки давньоруських і старослов'янських текстів навіть пошук представляє велику складність. А якщо ще додати хоча б два-три різних шрифту, використовуваних в одному слові для відображення одних і тих же символів, то завдання ускладнюється настільки, що раціональність і швидкість виконання операції пошуку практично дорівнюють нулю. Екранний символ є лише "етикеткою" тієї "банки" інформації, яка зберігається в пам'яті комп'ютера.

Створення нових даних полягає в складанні нової таблиці і заповненні в ній нового поля. Програма читає посимвольний кожне слово, шукає в таблиці порядку кодування пов'язані символи і якщо знаходить їх, то пише у допоміжне поле також посимвольний, а якщо символ не заданий в порядку сортування, то він не перекодируется у допоміжне (нове) поле. Таким чином, непотрібні символи не беруть участі в кодуванні.

Обробка нових даних, тобто сортування за новим полю, його видалення, здійснюється користувачем самостійно і описана вище.

Технічна підтримка

Для роботи програми необхідно мати російську версію СУБД PARADOX 5.0 або вище, а також всі необхідні умови для її нормального функціонування: комп'ютер класу IBM486 і вище, MS Windows 3.1 (російську версію) з дозволом екрану 800x600 пікселів, 6 Mb RAM.

Загальні Відомості про сортуваннях в PARADOX

PARADOX 5.0 підтрімує два типи наборів сімволів: ANSI и OEM коди. КОЖЕН шрифт має свою таблицю, яка містіть 255 сімволів. Останнім часом з появою нових версій Windows кількість символів в таблиці значно зросла, але дуже багато програм поки що не підтримують ці нововведення, серед них і PARADOX 5.0.

Це пов'язано з тим, що PARADOX 5.0 підтримує свої старі версії, в тому числі і версії DOS, тому він використовує лише 255 символів. Залежно від мовного драйвера PARADOX використовує різний порядок сортування. Програма написана для драйвера PARADOX Cyrr 866. Перші 32 символу, а також символи з 128 по 170 включно використовуються PARADOX для своїх цілей, незважаючи на те, що вони можуть бути заповнені в таблиці символів і сприймаються іншими програмами.

Нижче наведено стандартний (неточний) порядок сортування:

32, 171-190, 30, 31, 33-64 службові символи 97, 65, 98, 66 ... чергування прописних і заголовних букв латинського алфавіту (97 ... 122 - великі літери, 65 ... 90 - великі літери ) 224, 192, 225, 193 ... чергування прописних і заголовних букв російського алфавіту (224 ... 255 - великі літери, 192 ... 223 - великі літери) 91-96, 123-127, 170, 186,175, 191 , 161, 162 службові символи

Мова ObjectPAL

ObjectPAL є вмонтований мову програмування, призначений для розробки додатків, що працюють під управлінням Paradox для Windows.

ObjectPAL - це об'єктно-орієнтована мова програмування високого рівня, який реалізує розширену обробку подій. Він дає можливість розробляти програми, в точності відповідають конкретним потребам споживача, шляхом створення абсолютно нових кнопок, меню, вікон діалогу, повідомлень і т.д. Основними поняттями мови є поняття Об'єкт і ПОДІЯ.

Формальне визначення свідчить, що Об'єкт складається з даних і коду. За термінологією ObjectPAL об'єкти мають властивості (колір, положення, товщина і т.д.) і методами (код, який визначає поведінку об'єкта). Властивості - це дані. Методи - це код. Події - строго певні дії системи або користувача (відкриття форми, натискання кнопки, переміщення курсора і т.д.).

Обгрунтування вибору мови програмування

Для створення програми була вибрана мова програмування ObjectPAL за цілою низкою причин:

  • по-перше, ObjectPAL дозволяє працювати з сучасними програмами та операційними системами (MS Windows, MS Word for Windows і т.д.), які підтримують майже всі графічні і шрифтові формати;
  • по-друге, він набагато спрощує роботу з графікою, мишею, клавіатурою та іншими зовнішніми пристроями;
  • по-третє, він дозволяє працювати з багатьма базами даних, в тому числі з Dbase, Foxbase.

Висновок

Пакет програмних засобів ANDREW's TOOLS є перспективною, що розвивається системою. На даний момент в пакеті крім представлених розробок знаходиться програма ANDREW's SLOV.

Програма ANDREW's SLOV дозволяє складати перекладні словники, покажчики і бази даних на основі вже введених текстів. Вона доповнює програму ANDREW's SORT і дозволяє здійснювати повний цикл робіт з перекладу та перетворення текстової інформації в бази даних, необхідні для подальшої обробки та досліджень.

Крім програмних засобів, що працюють з нестандартними шрифтами, ANDREW's TOOLS включає в себе цілу групу різних досліджень, методик і програм зі створення баз даних, інформаційних систем на CD-ROM.

Провайдеры:
  • 08.09.2015

    Batyevka.NET предоставляет услуги доступа к сети Интернет на территории Соломенского района г. Киева.Наша миссия —... 
    Читать полностью

  • 08.09.2015
    IPNET

    Компания IPNET — это крупнейший оператор и технологический лидер на рынке телекоммуникаций Киева. Мы предоставляем... 
    Читать полностью

  • 08.09.2015
    Boryspil.Net

    Интернет-провайдер «Boryspil.net» начал свою работу в 2008 году и на данный момент является одним из крупнейших поставщиков... 
    Читать полностью

  • 08.09.2015
    4OKNET

    Наша компания работает в сфере телекоммуникационных услуг, а именно — предоставлении доступа в сеть интернет.Уже... 
    Читать полностью

  • 08.09.2015
    Телегруп

    ДП «Телегруп-Украина» – IT-компания с 15-летним опытом работы на рынке телекоммуникационных услуг, а также официальный... 
    Читать полностью

  • 08.09.2015
    Софтлинк

    Высокая скоростьМы являемся участником Украинского центра обмена трафиком (UA — IX) с включением 10 Гбит / сек... 
    Читать полностью