YourLib.net
Твоя библиотека
Главная arrow Информатика (Под общ. ред. А.Н. Данчула) arrow 1.2. Виды и свойства информации
1.2. Виды и свойства информации

1.2. Виды и свойства информации

   Для выделения видов информации необходимо выбрать классификационные признаки в качестве оснований. Ими обычно становятся свойства информации, которые представляются существенными с точки зрения предмета информатики. Свойства любого объекта можно разделить на внешние, характеризующие его взаимодействие с другими объектами, и внутренние, которые определяются его строением и проявляются при таком взаимодействии. Внешние свойства информации непосредственно определяются информационным субъектом и информационным объектом. Внутренние свойства информации определяются структурой содержащих ее данных, лишь опосредованно зависящей от информационного субъекта и информационного объекта.
   Информационным субъектом в конечном счете всегда является человек, который может воспринимать информацию с помощью пяти органов чувств, определяющих деление информации на виды по способу восприятия. 80—90% информации воспринимается с помощью зрения: движущиеся и неподвижные изображения, написанный текст — это визуальная информация. 8—15% информации человек получает с помощью слуха: человеческая речь, музыка, другие звуки — это аудиоинформация. При помощи остальных органов чувств (осязания, обоняния, вкуса) человек получает только 1—5% информации. Сообщения на естественном языке (символьную информацию) человек в исключительных случаях может воспринимать с помощью осязания, например из книг для слепых, текст которых составлен из знаков азбуки Брайля.
   С классификацией информационных субъектов как потребителей информации связано ее деление на виды по степени значимости информации: личная, специальная, общественная. Специальная информация значима для определенной группы людей, объединенных по профессии, интересам, роду занятий и т. п. В ней можно выделить научную, производственную, управленческую, техническую и т. д. Общественная информация значима для большинства или значительной части общества. Она подразделяется на общественно-политическую, научно-популярную, эстетическую, бытовую и т. д.
   Основываясь на классах информационных объектов, выделяют такие крупные виды информации, как естественная (информация о природных объектах), социальная, техническая. Внутри этих видов возможно дальнейшее разделение на подвиды, в том числе с использованием вышеупомянутых классификационных признаков. В качестве примера укажем генетическую информацию, передающуюся в живой природе от родителей к потомкам, социально-экономическую информацию, характеризующую экономическую сторону общественной жизни.
   Современные компьютеры не являются информационными субъектами, они лишь мощное средство, помогающее человеку хранить, передавать и преобразовывать информацию. Информационными объектами компьютеры являются лишь в специальной области, связанной с их разработкой и применением. Поэтому наиболее важно с точки зрения современных методов обработки информации на ЭВМ разделение информации на виды в соответствии с ее внутренними свойствами. В первую очередь это относится к формам представления информации. Говоря о формах представления информации, вопросы ее содержания и его использования мы оставляем в стороне, лишь для пояснения. Поэтому разделение информации на виды по формам представления определяется используемыми типами и структурами данных. По типу данных информацию делят на числовую, текстовую (символьную), графическую, звуковую, видеоинформацию. В программировании возникает необходимость определения и других типов данных, поэтому используется более развернутая их классификация (см. гл. 4).
   Тип данных определяет не только способы представления информации для ее хранения, передачи и обработки, но и набор операций, которые можно производить с этими данными.
   Так, например, числовая информация, как и текстовая, представляется в виде последовательности символов, но основное отличие заключается не в том, что числовые данные используют более узкий набор символов (цифры, знаки «+», «—» и др.), а в том, что с числовыми данными можно выполнять арифметические операции, а для работы с текстовыми данными используется совсем другой набор операций. Первые вычислительные машины обрабатывали лишь числовую информацию, что нашло отражение в их названии. В настоящее время большая часть обрабатываемых данных — текстового типа. Графические данные: рисунки, схемы, чертежи, фотографии — наиболее наглядны и доступны для восприятия и осознания (интерпретации) человеком, так как сразу передают необходимый образ, а числовые и текстовые данные требуют мысленного воссоздания образа (см. п. 1.7). В последнее время в компьютерах все шире используется звуковая и видеоинформация, а также мультимедийная (многосредовая) форма представления информации, в которой комбинируются данные всех вышеперечисленных типов.
   Большие наборы данных состоят из элементов данных одинакового или различных типов. Эти элементы данных могут быть независимыми, т. е. допускать включение в набор данных в любом порядке. Однако чаще они не являются независимыми: между ними имеются некоторые отношения. Например, элементы данных могут следовать в наборе друг за другом в порядке, определяемом по какому-то признаку, которым обладает каждый элемент данных. В общем случае отношения между элементами данных отражают отношения между информационными объектами, соответствующими этим элементам данных, наборы данных являются информационными моделями систем, образуемых этими объектами.

 Рис. 1.6. Линейная структура

Рис. 1.6. Линейная структура

   Работа с большими наборами данных легче автоматизируется, если элементы данных расположены в наборе в соответствии с некоторыми правилами, образуя заданную структуру.
   В этом случае говорят, что данные являются структурированными. Структура данных определяет способ адресации элемента данных. Адрес позволяет найти в наборе нужный элемент данных, не зная его значения. Выделяют три основных типа структур данных: линейные, табличные и иерархические.
   В линейных структурах элементы данных располагаются последовательно, друг за другом. Между соседними элементами данных существует отношение непосредственного предшествования. С каждым элементом данных непосредственно или косвенно сопоставляется его порядковый номер в наборе данных, определяющий его адрес, по которому в свою очередь элемент данных однозначно определяется (рис. 1.6).
   Примером линейной структуры является последовательность символов в слове, последовательность слов в предложении, набор чисел в одномерном массиве (строке). Очевидно, что при изменении последовательности расположения элементов данных в этих наборах содержащаяся в них информация либо полностью или частично теряется, либо может быть получена только с помощью более сложных методов интерпретации.
   Табличные структуры данных сложнее линейных и отличаются от них тем, что адрес элемента данных определяется не одним номером, а несколькими. Чаще всего используют плоские (двух-мерные) таблицы, в которых имеется конечное число (т+п) линейных структур, т из них называются строками, а остальные п — столбцами. Структура таблицы определяется принадлежностью каждого элемента данных одновременно двум линейным структурам: строке и столбцу. В каждой строке имеется по одному элементу данных каждого столбца, которые расположены в порядке возрастания номера столбца. Аналогично элементы данных любого столбца, которые берутся по одному из каждой строки, расположены в порядке возрастания номера строки. Поэтому адрес элемента данных однозначно задается двумя параметрами: номером строки и номером столбца, в которых он расположен. На рис. 1.7 показана плоская таблица с тремя строками и тремя столбцами, элементами которой являются числа.

 Рис. 1.7. Плоская таблица

Рис. 1.7. Плоская таблица

   Очень часто информацию удобно представить в виде набора данных с иерархической структурой. Это объясняется широким распространением соответствующего типа отношений между информационными объектами. Это, например, отношения «целое-участь» и «общее—частное». Первое из них возникает при построении организационных структур, систем административного деления, технических объектов; оно часто используется при адресации информационных ресурсов. Например, министерство может делиться на департаменты, департаменты — состоять из нескольких управлений, управления, в свою очередь, — из нескольких отделов. В верхней части рис. 1.8 представлен фрагмент иерархической структуры информационных ресурсов, располагающихся на диске С: персонального компьютера (файловой структуры этого диска). Отношение «общее—частное» широко применяется в различных классификациях и при научной систематизации объектов.
   Иерархическую структуру данных, в отличие от табличной, нельзя представить в виде комбинации конечного числа независимых линейных структур. Это связано с тем, что в иерархической структуре (иерархии) любому элементу данных может непосредственно предшествовать только один элемент, сам же он, в свою очередь, может предшествовать нескольким. Другими словами, переход к непосредственно следующему элементу неоднозначен: имеет место ветвление. Таким образом, каждый элемент данных может «порождать» не одну, а несколько зависимых линейных структур, совокупность которых также является иерархической структурой. При этом число порождаемых линейных структур не является постоянным, для разных элементов данных оно может быть различным (в том числе и нулевым). Исходную иерархическую структуру часто называют деревом; иерархические структуры, «порождаемые» каким-либо элементом, называются поддеревьями; вершина, «порождающая» дерево, называется его корнем (рис. 1.8).
   Адрес элемента данных в иерархической структуре определяется путем доступа — маршрутом (перечнем всех элементов данных), ведущим от корня дерева к нужному элементу данных.
   Адрес элемента данных (файла) история.doc определяется путем доступа:
   Диск С: > Мои документы > Рефераты > История.doc.
   Знак > используется как разделитель элементов данных маршрута.

 Рис. 1.8. Иерархическая структура данных

Рис. 1.8. Иерархическая структура данных

   С технологической точки зрения интерес представляет разделение данных на виды по типу их носителя. Выше уже упоминались такие носители данных, как бумажные, магнитные, оптиче ские. Классификация такого типа важна с точки зрения обеспечения преобразования данных с целью смены их носителя.
   Говоря о свойствах информации, необходимо иметь в виду, что даже в учебной литературе можно встретить их перечни, весьма различающиеся не только по количеству и составу, но и по определению некоторых свойств. Иногда такие перечни бывают многочисленными и слабоструктурированными. Многочисленность свойств информации несомненна, но важно выделить из них основные и раскрыть их через другие, менее существенные. Такой подход хорошо согласуется с точкой зрения, утверждающей, что важнейшими свойствами информации являются те, которые можно рассматривать как показатели ее качества.
   Прагматический аспект является основным для рассмотрения информации. С этой точки зрения основное свойство (показатель качества) информации — ее ценность, которая определяется важностью стоящих перед информационным субъектом задач, которые он может решить с ее помощью.
   С другой стороны, для того чтобы воспользоваться ценной информацией, необходимо прежде всего ее иметь. Возможность получения информации информационным субъектом определяет ее доступность. Доступность информации характеризуется возможностью получения доступа к источнику информации, пропускной способностью каналов связи, финансовыми, трудовыми, временными и другими ресурсами, необходимыми для получения информации. Характеристики, от которых зависит доступность информации, относятся в основном к синтаксическому, а также семантическому аспекту информации.
   Информация становится доступной в форме данных, в которых еще необходимо разобраться. Понятность информации определяется возможностью уяснить содержание полученных данных, составить по ним представление об информационном объекте. Эго свойство целиком относится к семантическому аспекту информации. Если информация понятна, то это означает, что в ней выделены информационные единицы, установлены связи между ними, а также проведено сопоставление этих единиц и связей с информационным объектом.
   После того как содержание данных понято, предстоит выяснить вопрос о ею полезности для информационного субъекта. Полезность информации определяется степенью необходимости и успешности ее использования для решения задач, стоящих перед информационным субъектом. Полезность информации зависит и от таких ее свойств, как полнота, актуальность и достоверность.
   Полнота информации определяется тем, насколько содержащегося в ней набора информационных единиц необходимо и достаточно для решения стоящей перед информационным субъектом задачи. Если какие-то необходимые для решения задачи свойства информационного объекта не нашли отражения в информационных единицах, то информация называется неполной. Отсутствие полноты информации в широком круге реальных задач привело к созданию специальных методов принятия решений в условиях неполной информации. Информация, содержащая отдельные информационные единицы, которые не нужны для решения стоящей перед информационным субъектом задачи, называется избыточной. Значительное увеличение избыточности поступающей информационному субъекту информации является одним из средств информационной войны с ним.
   Достоверность информации определяется степенью отражения свойств информационного объекта и его частей в информационных единицах с необходимой точностью. Информация с намеренно недостоверными значениями некоторых информационных единиц называется дезинформацией.
   Актуальность информации определяется ее способностью соответствовать задачам, решаемым информационным субъектом в данный момент. Неактуальная информация может быть как устаревшей (в случае, если не было организовано или слишком долго осуществлялось ее обновление), так и преждевременной.
   Анализ вышеприведенных свойств показывает, что полезность информации, имея отношение как к семантическому, так и к прагматическому аспекту, обеспечивает их связь.
   Резюмируя вышеизложенное, можно сделать вывод, что четырьмя основными интегральными свойствами информации (показателями ее качества) являются ценность, полезность, понятность и доступность, обеспечивающие целостное представление о качестве информации в прагматическом, семантическом и синтаксическом аспектах (рис. 1.9).
   Все вышеперечисленные свойства информации описаны на качественном уровне. Возможность, методы и практическая применимость способов их количественной оценки в настоящее время представляют собой предмет научных исследований и дискуссий. Однако имеются и количественные характеристики информации. Наиболее распространенной из них является объем данных Уд. Эта характеристика относится к синтаксичес-кому аспекту, т. е. не связана ни с содержанием, ни с использованием информации. Если данные представлены в виде кода, состоящего из п символов некоторого алфавита, то объем данных равен числу символов кода Vд=n.
   Заметим, что объем данных, по-разному кодирующих одну и туже информацию, будет, как правило, разным. Например, объем данных, содержащих информацию о числе 14 (четырнадцать), будет равен 2 (число цифр) для числового кода и 12 (число букв) для алфавитного кода. Естественно, что для корректного сравнения объема различных данных необходимо, чтобы они были закодированы одним и тем же способом. В качестве такого универсального способа применяют широко распространенное в вычислительной технике кодирование с использованием двоичного алфавита, состоящего всего из двух символов 0 и 1. Наименьшей единицей объема данных является бит — объем данных, состоящих из одного символа двоичного алфавита. Более крупной единицей является байт — объем данных, состоящих из 8 символов двоичного алфавита, т. е. равный 8 битам. Более крупной единицей объема данных являются килобайт (Кбайт), мегабайт (Мбайт) и гигабайт (Гбайт). 1 Кбайт = 2ю байт = 1024 байт. 1Мбайт = 1024 Кбайт. 1 Гбайт = 1024 Мбайт.
   Исторически одной из самых ранних и получившей широкое распространение в теории информации количественной характеристикой является введенное К. Шенноном количество информации I. Эта характеристика основывается на довольно общей модели информационного объекта, т. е. фактически затрагивает не только синтаксический, но и семантический аспект информации. Однако высокая степень общности модели в сочетании с ее узкой применимостью, как правило, делает невозможным практическое использование количества информации по Шеннону для оценки содержания данных.

 Рис 1.9. Свойства информации

Рис 1.9. Свойства информации 


   Информационный объект может находиться в одном из N состояний, причем вероятность его нахождения в k-m состоянии равна Рк. Информационный субъект, узнав, в каком именно состоянии находится информационный объект, устраняет имеющуюся у него неопределенность, т. е. получает информацию. Количество информации о том, что объект находится в k-m состоянии, равно

 Ik=log2(1/Pk)=-log2Pk,

т. е. тем выше, чем менее вероятно нахождение объекта в этом состоянии. Поскольку заранее неизвестно, в каком именно состоянии будет находиться объект, то количество информации I находится как средневзвешенное Ik с весами Pk, равными вероятностям k-х состояний. 

Рисунок

   Рассмотрим частный случай, когда все состояния равновероятны, т. е. Pk=I/N. Тогда количество информации

I=log2N.

   Если N=2m, то I=m. Но (см. п. 1.6) с помощью m двоичных символов можно закодировать 2m различных слов, каждое из которых можно рассматривать как сообщение о том, что информационный объект находится в кодируемом этим словом состоянии.
   Следовательно, в этом случае

I=Vд=m.

   Это равенство характеризует связь между двумя рассмотренными количественными характеристиками информации, а также поясняет использование для них обеих одной и той же единицы измерения — бита. Один бит информации по Шеннону снижает вдвое число неизвестных равновероятных состояний информационного объекта. 

 
< Пред.   След. >