“Подання інформації
в комп’ютерах”
1.
Системи числення.
Проблема стискання та кодування інформації з’явилась набагато раніше ніж, власне, термін “інформація”. Згадаємо, що принаймні за часів Римсокої імперії армія використовувала метод шифрування повідомлень з метою її захисту від ворогів. Так званий шифр Цезаря став першим з відомих на сьогодні методів шифрування з таємним ключом. Іншим прикладом кодування є писемність, яка виникла так давно, що точних даних про конкретний час її появи не існує і, мабуть, ніколи не буде знайдено.
В другій половині ХХ-го століття з винайденням та розвитком ЕОМ проблема стискання та кодування привернула до себе увагу, бо з чисто теоретичної перетворилася в прикладну та вкрай необхідну. Стрімко зросли обсяги даних, з’явилась потреба в передачі дискретної інформації на далекі відстані з достатньою надійністю, проблема захисту такої інформації від несанкціанованого доступу і т. д. З розвитком комп’ютерних мереж (зокрема, INTERNET) обсяг інформації, що передається, швидко зростає і вимагає її мінімізації шляхом специфічного кодування для підтримання швидкодії мережі. Можна навести багато інших застосувань кодування інформації.
Арифметичне кодування є одним з перспективних методів стиску інформації, та, в деякому розумінні, її шифрування. Це кодування дозволяє пакувати символи вхідного алфавіту за умови, що розподіл частот цих символів відомий. Концепція методу була розроблена Еліасом в 60-х роках. Після цього метод був суттєво розвинутий та вдосконалений. Арифметичне кодування є оптимальним, досягає теоретичної границі ступеня стиску, – ентропії вхідного потоку.
Ідея арифметичного кодування.
При арифметичному кодуванні текст представляється числами з плаваючою комою в інтервалі від 0 до 1. В процесі кодування тексту інтервал, що його відображає – зменшується, а кількість бітів для його представлення збільшується. Наступні символи тексту зменшують величину інтервала, виходячи з значень їх ймовірностей, які визначаються моделлю. Більш ймовірні символи роблять це в меншій мірі ніж менш ймовірні та, таким чином, додають менше бітів до результату.
Перед початком роботи відповідний до тексту інтервал є [0 ; 1). При обробці наступного символу його ширина звужується за рахунок виділення цьому символу частини інтервалу. Наприклад, застосуемо до тексту “еаіі!” алфавіта {а, е, і, о, u, ! } модель з постійними ймовірностями, що задані в таблиці 1.
Таблиця 1. Приклад постійної моделі для алфавіта {а, е, і, о, u, ! }.
Символ
Ймовірність
Інтервал
А
0,2
[0,0; 0,2)
Е
0,3
[0,2; 0,5)
І
0,1
[0,5; 0,6)
О
0,2
[0,6; 0,8)
У
0,1
[0,8; 0,9)
!
0,1
[0,9; 1,0)
І кодувальнику, і декодувальнику відомо, що на самому початку інтервал є [0; 1). Після перегляду першого символу “е”, кодувальник звужує інтервал до [0,2; 0,5), який модель виділяє цьомк символу. Другий символ “а” звузить цей новий інтервал до першої його п’ятої частина, оскільки для “а” виділено фіксований інтервал [0,0; 0,2). В результаті отримаємо робочий інтервал [0,2; 0,26), бо попередній інтервал мав ширину в 0,3 одиниці та одна п’ята від нього є 0,06. Наступному символу “і” відповідає фіксований інтервал [0,5; 0,6), що застосовно до робочого інтервалу [0,2; 0,26) звужує його до інтервалу [0,23; 0,236). Продовжуючи таким саме способом маємо:
На початку
[0.0; 1.0 )
Після перегляду “е”
[0.2; 0.5 )
Після перегляду “а”
[0.2; 0.26 )
Після перегляду “і”
[0.23; 0.236 )
Після перегляду “і”
[0.233; 0.2336 )
Після перегляду “!”
[0.23354; 0.2336 )
Припустимо, що все те, що декодувальник знає про текст, це кінцевий інтервал [0,23354; 0,2336). Він відразу ж зрозуміє, що перший закодований символ – це “е”, тому що підсумковий інтервал цілком лежить в інтервалі, що був виділений цьому символу відповідно до Таблиці 1. Тепер повторимо дії кодувальника:
Спочатку
[0.0; 1.0 )
Після перегляду “е”
[0.2; 0.5 )
Звідси зрозуміло, що другий символ – це “а”, оскільки це призведе до інтервалу [0,2; 0,26), який цілком містить в собі підсумковий інтервал [0,23354; 0,2336). Працюючи в такий спосіб, декодувальник витягує весь текст.
Декодувальник не має потреби знати значення обох меж підсумкового інтервалу, який був одержаний від кодувальника. Навіть одного значення, що лежить всередині нього, наприклад, 0,23355 вже достатньо. (Інші числа – 0,23354, 0,23357 та навіть 0,23354321 – цілком придатні). Однак, щоб завершити процес, декодувальнику потрібно своєчасно розпізнати кінець тексту. Крім того, одне й те саме число 0,0 можна представити і як “а”, і як “аа”, і як “ааа” і т. д. Для усунення непорозуміння ми повинні позначати завершення кожного тексту спеціальним символом EOF, що відомий і кодувальнику, і декодувальнику. Для алфавіту з таблиці 1 з цією метою, і тільки з нею, буде використовуватися символ “!”. Коли декодувальник зустрічає цей символ, то він завершує свій процес.
Для фіксованої моделі, яка задається моделлю таблиці 1, ентропія 5-ти символьного тексту “еаіі!” буде –log 0,3 – log 0,2 – log 0,1 – log 0,1 – log 0,1 = – log 0,00006 » 4,22. (Тут застосовуємо логариф з основою 10, бо вищенаведене кодування виконувалося для десяткових чисел). Це пояснює, чому потрібно 5 десяткових цифр для кодування цього тексту. Таким чином, ширина підсумкового інтервалу є 0,2336 – 0, 23354 = 0,00006, а ентропія – від’ємний десятковий логарифм цього числа. Звичайно ми працюємо з двійковою арифметикою, передаємо двійкові числа та вимірюємо ентропію в бітах.
П’яти десяткових цифр здається забагато для кодування тексту з чотирьох голосних! Мабуть не зовсім вдало бу закінчувати приклад розгортанням, а не зтисканням. Однак зрозуміло, що різні моделі дають різну ентропію. Краща модель, побудована на аналізі окремих символів тексту “еаіі!”, є така множина частот символів: {“е” (0,2), “а” (0,2), “і” (0,4), “!” (0,2) }. Вона дає ентропію, що дорівнює 2,89 в десятковій системі відліку, тобто кодує вихідний текст числом з трьох цифр. Однак, більш складні моделі, як відмічалося раніше, дають в загальному випадку набагато кращій результат.
2. Одиниці виміру:
Інформація, яку використовують операційні системи, групується в певні блоки – файли, які мають той чи інший розмір. Для визначення розміру файлів використовується байтова система.
1000 байт = 1 кБт
1000 кБт = 1 Мбайт
109
= 1 Гбайт.
3. Носії інформації та їх властивості.
До носіїв інформації відносяться накопичувачі – запам’ятовуючі пристрої, призначені для тривалого зберігання обсягів інформації. Носій, що є середовищем зберігання інформації, на зовнішній вигляд може бути дисковим або стрічковим. Інформація на дискових носіях зберігається в секторах (як правило, по 512 байт). На магнітних носіях сектори розташовуються вздовж концентричних кіл – доріжок. Якщо запис ведеться на кількох поверхнях носія, то сукупність доріжок з однаковими номерами називається циліндром. Сектори і доріжки утворюються під час форматування носія. Форматування виконує користувач за допомогою спеціальних програм-утилітів. Ніяка інформація користувача не може бути записана на неформатований носій.
Гнучкі носії для магнітних накопичувачів випускають у вигляді дискет, або флоппі-дисків. Власне носій – це плоский диск зі спеціальної плівки (майлара), що має достатню міцність і стабільність розмірів. Він покритий феромагнітним шаром і поміщений у захисний конверт (оболонка дискети). На 3,5-дюймовій дискеті є віконце із засувкою, під час відкривання якої будь-яка зміна інформації на дискеті стає неможливою.
Накопичувачі на жорстких магнітних дисках – це пристрій з незмінним носієм. Інформація записується не на один, а на набір дисків, що складається з кількох пластин, ідеально плоских і з відполірованим феромагнітним шаром. При цьому запис проводиться на обидві поверхні кожної пластини.
Отже, працює не одна, а група магнітних головок, складених в єдиний блок. Пакет дисків обертається безперервно і з великою частотою (до 7500, а в окремих випадках до 10 000 об/хв.), поки ПК ввімкнений, і тому механічний контакт головок і дисків недопустимий.
Накопичувачі випускають десятки фірм. Щоб забезпечити взаємозамінність пристроїв, розроблено стандарти на їхні габаритні й електричні характеристики, які визначають номенклатуру з’єднувальних провідників. Найпоширенішими є стандарти IDE, ATAiSCSI.
Існують ще такі накопичувачі інформації як компакт-диски (CD) – цифрова інформація відображається на пластиковому диску з покриттям у вигляді западин (невідбивних плям) та острівців, що відбивають світло. На відміну від вінчестера, доріжки якого мають вигляд концентричних кіл, компакт-диск має одну безперервну доріжку у формі спіралі.
Зчитування інформації з компакт-диска відбувається за допомогою лазерного променя. Потрапляючи на острівець, що відбиває світло, він відхиляється на фотодетектор, який інтерпретує це як двійкову одиницю. Промінь лазера, що потрапляє в западину, розсіюється і поглинається – фотодетектор фіксує двійковий нуль. Як відображальна використовується алюмінієва поверхня.
Деякі типи накопичувачів допускають багаторазовий перезапис даних на диску, в них використовують різні фізичні принципи запису і читання даних, різноманітні формати, типорозміри та ємності дискет.
Накопичувач DVD – пристрій для читання цифрових відеозаписів. Зовні він схожий на звичайний CD-ROM, однак відрізняється від нього тим, що на одному боці диска може бути записано до 4,7 Гбайт інформації, а на обох – 9,4 Гбайт. Однак дані диски є досить дорогими у використанні.
Використана література:
1. Коцюбинський А.О., Грошев С.В. Сучасний самовчитель професійної роботи на комп’ютері. – К., 1999.
2. Інформатика. Комп’ютерна техніка. / За ред. Пушкаря О.І. – К., 2001.