YourLib.net
Твоя библиотека
Главная arrow Информационные технологии (Е.Л. Румянцева, В.В. Слюсарь) arrow 2.1. Технологии сбора и хранения информации
2.1. Технологии сбора и хранения информации

2.1. Технологии сбора и хранения информации

   Сбор предполагает получение максимально выверенной исходной информации и является одним из самых ответственных этапов в работе с информацией, поскольку от цели сбора и методов последующей обработки полностью зависит конечный результат работы всей информационной системы.
   Технология сбора подразумевает использование определенных методов сбора информации и технических средств, выбираемых в зависимости от вида информации и применяемых методов ее сбора. На заключительном этапе сбора, когда информация преобразуется в данные, т. е. в информацию, представленную в формализованном виде, пригодном для компьютерной обработки, осуществляется ее ввод в систему [19].
   Когда сбор информации завершен, собранные данные сводятся в систему для создания, хранения и поддержания в актуальном состоянии информационного фонда, необходимого для выполнения различных задач в деятельности объекта управления. Следует отметить, что хранимые данные должны быть в достаточном объеме доступны для извлечения из места хранения, отображения, передачи или обработки по запросу пользователя. А сбор данных должен обеспечивать необходимую полноту и минимальную избыточность хранимой информации, что может быть достигнуто за счет выбора данных, оценки их необходимости, а также анализа существующих данных и разделения их на входные, промежуточные и выходные.
   Входные данные — это данные, получаемые из первичной информации, создающие исходное описание предметной области и подлежащие хранению.
   Промежуточные данные формируются из других данных в процессе преобразований и обработки, и, как правило, не подлежат длительному хранению.
   Выходные данные есть результат обработки входных данных по соответствующему алгоритму; они служат основанием для принятия управленческих решений и подлежат хранению в течение определенного срока.
   Для сбора данных необходимо сначала определить технические средства, позволяющие осуществлять сбор быстро и высококачественно и поддерживающие операции ввода информации и представления данных в электронной форме. В качестве средств сбора в информационных системах обычно выступают агрегаты, представляющие собой совокупность устройств и программного обеспечения к ним, которые служат для преобразования информации, представленной в неэлектронной форме, в электронную для ее последующего использования в системе.
   С развитием компьютерной техники стали появляться разнообразные технические средства, позволяющие осуществлять ручной или автоматизированный сбор информации непосредственно из ее источника либо через промежуточные звенья. Следует отметить, что в каждом отдельном случае технические средства выбираются в зависимости от типа собираемой информации и ее назначения (рис. 2.1).
   Так, для различных этапов сбора текстовой и графической информации, а также для выбора из предлагаемых системой вариантов обычно применяются такие средства, как клавиатура, различные манипуляторы («мышь», шаровой джойстик, световое перо и т. д.), сканер, планшет, сенсорный экран, монитор.
   Для сбора звуковой информации чаще всего используются диктофон и микрофон, в некоторых случаях применяются звуковые датчики и аппаратура распознавания речи, а также средства записи эфира радиостанций.
   Сбор видеоинформации осуществляется с помощью видеокамер и фотоаппаратов; кроме того, существуют средства, позволяющие записывать видеосигналы телевизионного вещания [24].

Рис. 2.1. Технические средства сбора информации 

Рис. 2.1. Технические средства сбора информации

   В промышленных системах в зависимости от сферы применения часто используются также технические средства для сканирования штрих-кода, захвата изображений, автоматические датчики объема, давления, температуры, влажности, системы распознавания сигналов и кодов и т. д.
   В целом применение подобных промышленных средств сбора информации называют технологией автоматической идентификации, т. е. идентификацией и/или прямым сбором данных в микропроцессорное устройство (компьютер или программируемый контроллер) без использования клавиатуры. Такая технология применяется для исключения ошибок, связанных со сбором данных, и ускорения процесса сбора; она позволяет не только идентифицировать объекты, но и следить за ними, кодировать большое количество информации.
   Автоматическая идентификация объединяет пять групп технологий, обеспечивающих решение проблемы сбора разнообразных данных:
   1. Технологии штрихового кодирования (Bar Code Technologies).
   2. Технологии радиочастотной идентификации (RF1D — Radio Frequency Identification Technologies).
   3. Карточные технологии (Card Technologies).
   4. Технологии сбора данных (Data Communications Technologies).
   5. Новые технологии, такие, как распознавание голоса, оптическое и магнитное распознавание текста, биометрические технологии и некоторые другие.
   При первоначальной разработке технологии сбора данных после выбора технических средств необходимо продумать план сбора данных, который обычно включает несколько этапов, особенно характерных для исследовательских проектов:
   • определение проблемной ситуации и формулирование цели сбора данных;
   • детальное изучение предметной области с помощью опроса экспертов, изучения литературы и групповых дискуссий и уточнение задач сбора данных;
   • разработка концепции сбора данных на основании выработки гипотез, их практической проверки, выявления причинно-следственных связей;
   • детальное планирование сбора данных, определение источников информации (вторичные данные, уже собранные кем-то до проекта, или первичные, новые данные);
   • отбор источников информации и сбор вторичных данных;
   • оценка полученных вторичных данных (актуальность, точность, полнота, пригодность для дальнейшей обработки);
   • планирование сбора первичных данных, выбор способа сбора;
   • проведение сбора и ввода первичной информации;
   • анализ полученных данных;
   • представление результатов сбора данных, передача их на хранение и в обработку.
   В зависимости от целей, сферы деятельности и располагаемых технических средств можно выделить целый спектр методов сбора данных:
   1) в экономических информационных системах (например, маркетинга):
   • опрос и интервью — групповой, индивидуальный или телефонный опрос, опрос в форме анкетирования, формализованные и неформализованные интервью;
   • регистрация (наблюдение) — систематическое, планомерное изучение поведения того или иного объекта или субъекта;
   • эксперимент — исследование влияния одного фактора на другой при одновременном контроле посторонних факторов;
   • панель — повторяющийся сбор данных у одной группы опрашиваемых через равные промежутки времени;
   • экспертная оценка — оценка исследуемых процессов квалифицированными специалистами-экспертами;
   2) в геоинформационных системах:
   • сбор информации из нормативной и методической документации;
   • сбор пространственных (координатных и атрибутивных) данных;
   • мониторинг потоков данных, поступающих с научно-исследовательских воздушных и морских судов, береговых станций и буев в оперативном и задержанном режиме;
   • сбор данных, поступающих по каналам удаленного доступа к данным;
   3) в статистических информационных системах:
   • сбор данных с первичных документов;
   • заполнение собственных форм и шаблонов при сборе данных;
   • сбор данных из подотчетных организаций с помощью заполнения ими предписанных форм отчетности;
   4) в информационных системах управления производственными процессами широко применяются методы сбора данных, основанные на технологии автоматической идентификации.
   Собранная информация, переведенная в электронную форму, представляет собой одну из основных ценностей любой современной организации, поэтому обеспечение надежного хранения и оперативного доступа к информации для дальнейшей ее обработки являются приоритетными задачами. Процедура хранения информации заключается в формировании и поддержке структуры хранения данных в памяти ЭВМ [24].
   Несмотря на высокий уровень развития современных информационных технологий, на данный момент не существует универсальной методики построения системы хранения данных, которая была бы приемлемой для большинства организаций. В каждом отдельном случае такая задача решается индивидуально, однако представляется возможным сформулировать основные требования, предъявляемые к современным структурам хранения:
   • независимость от программ, использующих хранимые данные;
   • обеспечение полноты и минимальной избыточности данных;
   • возможность актуализации данных (т. е. пополнения или изменения значений данных, записанных в базе);
   • возможность извлечения данных, а также сортировки и поиска по заданным критериям.
   Наиболее часто в роли структур хранения данных выступают базы или банки данных [19, 23, 24].
   База данных (БД) — специально организованная совокупность взаимосвязанных данных, отражающих состояние выделенной предметной области в реальной действительности и предназначенной для совместного использования при решении задач многими пользователями.
   БД представляет собой комплекс информационных, технических, программных, лингвистических и организационных средств, обеспечивающих сбор, хранение, поиск и обработку данных.
   Банк данных — универсальная база данных, обслуживающая любые запросы прикладных программ вместе с соответствующим программным обеспечением.
   Для обеспечения доступа к базе данных, составления обобщенных и детализированных отчетов, выполнения анализа данных с помощью запросов используются системы управления базами данных (СУБД). Среди наиболее ярких можно отметить: Lotus Approach, Microsoft Access, Borland dBase, Borland Paradox, Microsoft Visual FoxPro, а также базы данных Microsoft SQL Server и Oracle, используемые в приложениях, построенных по технологии «клиент—сервер» [24].
   Кроме баз и банков данных, современную структуру хранения информации предоставляют хранилища данных, которые включают следующие функциональные блоки [31]:
   • инструменты настройки информационной модели, отражающей все виды информации, необходимой для решения задач предприятия;
   • репозиторий метаданных, т. е. описание структуры хранилища данных, доступное как внутренним программам хранилища, так и внешним системам, обеспечивающее гибкость хранилища;
   • технология сбора данных из внешних источников, а также из удаленных подразделений с помощью двух методов:
   — применение средств ETL (Extract, Transformation, Loadin — извлечение, трансформация, загрузка), присущих специальным системам, для извлечения данных из других баз данных, трансформации в соответствии с правилами, описанными в системе, и загрузки в хранилище данных;
   — применение стандартного формата сбора данных и разработка процедур их выгрузки на стороне источника, что обеспечивает однородность данных, извлеченных из разных систем, и децентрализацию разработки за счет передачи ее специалистам, знающим исходную систему;
   • механизмы расчета агрегатов и показателей, базирующихся на детальных данных хранилища, с помощью технологий иерархической настройки структуры данных или показателей, а также встроенного языка программирования;
   • пользовательские интерфейсы, позволяющие коллективу сотрудников разделять функции и выполнять различные задачи, включая администрирование, дизайн приложений, технологическую поддержку хранилища, анализ данных по запросам и т. д.;
   • механизмы выполнения произвольных запросов, включая средства генерации запросов и необходимых индексов;

Рис. 2.2. Операции для быстрого восстановления данных в системах хранения 

Рис. 2.2. Операции для быстрого восстановления данных в системах хранения

   • инструменты настройки и выпуска отчетов как конечных продуктов хранилища данных, в том числе отчетов регламентированной формы, аналитических и настраиваемых пользователем.
   Следует отметить, что немаловажным требованием к любой системе хранения данных является обеспечение резервного копирования, архивирования, структурированного хранения и восстановления данных в требуемые сроки (рис. 2.2).
   Эти операции можно организовать с помощью пофайлового анализа подлежащих хранению данных, учитывающего даты создания, модификации и последнего обращения к файлам, их расширение, расположение в каталогах файловой системы и т. д. Рассмотрим эти операции более подробно.
   Резервное копирование — это создание копий файлов для быстрого восстановления работоспособности системы при возникновении аварийной ситуации. Копии файлов хранятся на резервных носителях в течение определенного времени, а затем перезаписываются. Различают полное, инкрементальное и дифференциальное резервное копирование.
   Полное резервное копирование предполагает создание копий всех данных, подлежащих резервному копированию, что позволяет в случае аварийной ситуации быстро восстановить информацию; однако такое копирование занимает довольно продолжительное время.
   Дифференциальное резервное копирование предполагает дублирование только тех файлов, которые были созданы или изменены с момента проведения предыдущего сеанса полного копирования. При возникновении аварийной ситуации для восстановления данных потребуются последняя полная и дифференциальная копии.
   Инкрементальное резервное копирование предполагает создание копий только тех файлов, которые были созданы или изменены с момента последнего полного, дифференциального или инкрементального копирования. Такое копирование осуществляется довольно быстро, однако при возникновении аварийной ситуации для восстановления данных потребуется последняя полная и все последующие инкрементальные копии, а процедура восстановления будет очень длительной.
   Учитывая достоинства и недостатки существующих методов резервного копирования, на практике параллельно применяют полное копирование (например, 1 раз в неделю) и инкрементальное (например, 1 раз в день).
   Архивное копирование есть процесс копирования файлов для бессрочного или долговременного хранения на архивных носителях. Архивное копирование также может быть полным, инкрементальным и дифференциальным, однако оно осуществляется реже резервного копирования.
   Для удешевления процесса хранения редко используемых данных применяют систему структурированного хранения, т. е. организации иерархической структуры устройств хранения информации, когда на верхнем уровне находятся жесткие диски, а на нижних уровнях — съемные накопители, которые объединяются в единый логический диск для хранения редко используемой информации. Перемещение файлов по уровням организуется таким образом, чтобы объем свободного пространства на дисках серверов сохранялся в заданных пределах [24].

 
< Пред.   След. >