YourLib.net
Твоя библиотека
Главная arrow Информатика (А.В. Терехов, А.В. Чернышев, В.Н. Чернышев) arrow 1.3. Измерение информации
1.3. Измерение информации

1.3. Измерение информации

   Разработаны различные способы оценки количества информации. Чаще всего используется способ оценки, предложенный в 1948 г. основоположником теории информации Клодом Шенноном. Как было отмечено выше, информация - это снятая неопределенность.
   Степень неопределенности принято характеризовать с помощью понятия «вероятность».
   Вероятность - величина, которая может принимать значения в диапазоне от 0 до 1. Она есть мера возможности наступления какого-либо события, которое может иметь место в одних случаях и не иметь места в других. Если событие никогда не может произойти, его вероятность считается равной 0. Если событие происходит всегда, его вероятность равна 1.
   Чем больше вероятность события, тем больше уверенность в том, что оно произойдет, и тем меньше информации содержит сообщение об этом событии. Если вероятность события мала, то сообщение о том, что оно случилось, очень информативно.
   Количество информации I, характеризующей состояние, в котором пребывает объект, можно определить, используя формулу Шеннона

I = -(P1log2P1 + P2log2P2 + ... + Pnlog2Pn),

где n - число возможных состояний; р1 ..., pn - вероятности отдельных состояний; log2 - функция логарифма при основании 2.
   Знак минус перед суммой позволяет получить положительное значение для I, поскольку значение log2 pi всегда неположительно. Единица информации называется битом. Термин «бит» предложен как аббревиатура от английского словосочетания «Binary digiT», которое переводится как «двоичная цифра».
   1 бит информации - количество информации, посредством которого выделяется одно из двух равновероятных состояний объекта. Формула Шеннона может быть использована и для оценки количества информации в непрерывных величинах.
   При оценке количества дискретной информации часто используется также формула Хартли

I = log2(n),

где n - число возможных равновероятных состояний; log2 - функция логарифма при основании 2. Формула Хартли применяется в случае, когда вероятности состояний, в которых может находиться объект, одинаковые.
   В общем случае справедливо утверждение, что количество информации в сообщении зависит от числа разнообразий, присущих источнику информации и их вероятностей.
   В качестве примера определим количество информации на один знак при двоичном кодировании (т.е. при использовании алфавита, состоящего из двух знаков 0 и 1). Если считать, что со знаками 0 и 1 в двоичном алфавите связаны одинаковые вероятности их появления, то

I = log2 2 = 1 бит.

   Таким образом, количество информации (в битах), заключенное в двоичном слове, равно числу двоичных знаков в нем.
   В вычислительной технике при определении количества информации чаще используется объемный подход, суть которого в следующем.Как уже было отмечено, в двоичной системе счисления знаки 0 и 1 называют битами (от английского выражения Binary digiTs - двоичные цифры). Создатели компьютеров отдают предпочтение именно двоичной системе счисления потому, что в техническом устройстве наиболее просто реализовать два противоположных физических состояния (некоторый физический элемент, имеющий два различных состояния: намагниченность в двух противоположных направлениях; прибор, пропускающий или нет электрический ток; конденсатор, заряженный или незаряженный и т.п.). В компьютере бит является наименьшей возможной единицей информации. Объем информации, записанной двоичными знаками в памяти компьютера или на внешнем носителе информации подсчитывается просто по количеству требуемых для такой записи двоичных символов. При этом, в частности, невозможно нецелое число битов (в отличие от вероятностного подхода). Итак, если у нас есть один бит, то с его помощью мы можем закодировать один из двух символов - либо 0, либо 1.
   Если же есть 2 бита, то из них можно составить один из четырех вариантов кодов: 00, 01, 10, 11 .
   Если есть 3 бита - один из восьми: 000, 001, 010, 100, 110, 101, 011, 111.
   Закономерность очевидна: 1 бит - 2 варианта, 2 бита - 4 варианта, 3 бита - 8 вариантов, 4 бита - 16 вариантов. Продолжая дальше, получим: N бит - 2N (т.е. 2 в степени N вариантов). В обычной жизни нам достаточно 150 - 160 стандартных символов (больших и маленьких русских и латинских букв, цифр, знаков препинания, арифметических действий и т.п.). Если каждому из них будет соответствовать свой код из нулей и единиц, то 7 бит для этого будет недостаточно (7 бит позволят закодировать только 128 различных символов), поэтому используют 8 бит.
   Для кодирования одного привычного человеку символа в ЭВМ используется 8 бит, что позволяет закодировать 256 различных символов.
   Стандартный набор из 256 символов называется ASCII (означает «Американский Стандартный Код для Обмена Информацией» - англ. American Standart Code for Information Interchange). Он включает в себя большие и маленькие русские и латинские буквы, цифры, знаки препинания и арифметические действия и т.п.
   Каждому символу ASCII соответствует 8-битовый двоичный код.
   Для удобства использования введены и более крупные, чем бит, единицы количества информации. Так, двоичное слово из восьми знаков содержит один байт информации, 1024 байта образуют килобайт (кбайт), 1024 килобайта - мегабайт (Мбайт), а 1024 мегабайта - гигабайт (Гбайт). В информатике смысл приставок кило-, мега- и других в общепринятом смысле выполняется не точно, а приближенно, поскольку соответствует увеличению не в 1000, а в 1024 раза.
   Скорость передачи информации по линиям связи измеряется в бодах (1 бод = 1 бит/с). В частности, если говорят, что пропускная способность какого-то устройства составляет 28 Килобод, то это значит, что с его помощью можно передать по линии связи около 28 тыс. нулей и единиц за одну секунду.
   Между вероятностным и объемным количеством информации соотношение неоднозначное. Далеко не всякий текст, записанный двоичными символами, допускает измерение объема информации в кибернетическом смысле, но заведомо допускает его в объемном. Если некоторое сообщение допускает измеримость количества информации в обоих смыслах, то они не обязательно совпадают, при этом кибернетическое количество информации не может быть больше объемного.

 
< Пред.   След. >