2.1. Понятие информационной технологии как системы средств и методов работы с информацией

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 
17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 

Когда говорят о необходимости и возможности перехода на новые информационные (компьютерные) технологии, очень часто можно услышать два полярных мнения. Первое - компьютеры сейчас такие «умные», что ничего знать не надо, главное получить мощный компьютер с хорошим программным обеспечением и он решит все практические информационные проблемы. Второе мнение - противо­положное - компьютерная техника настолько сложна, что осваивать ее после определенного возраста просто не имеет смысла, поэтому лучше все вопросы, связанные с работой на компьютере, поручить толковому молодому специалисту (лучше программисту), который всегда, будучи под рукой, намного эффективнее справится со всеми проблемами из сферы компьютерных информационных техноло­гий.

Второе мнение очень часто можно услышать от руководящего состава, проходившего обучение или повышение квалификации. По­нять настроение подобной категории слушателей можно, но согла­ситься с их выводами нельзя. Для доказательства приведем один ре­альный случай, имевший место в практике управления низовыми подразделениями ОВД.

На одном из верхних уровней управления ОВД была поставле­на задача - в кратчайшие сроки собрать со всех региональных цен­тров данные о лицах конкретной категории, передать их в центр, ко­торые затем следует обобщить, и подготовить итоговый список. Ре­шено было воспользоваться компьютерными базами данных регио­нальных центров, в полной мере содержащими все необходимые сведения об интересующих лицах. Учитывая срочность выполнения задачи, региональным центрам было дано указание - извлечь эти данные из компьютеров, распечатать на бумаге и передать по факсу в соответствующую информационную службу центрального органа. Информационная служба, ответственная за подготовку итогового

84

документа, должна была обобщить полученные данные и в кратчай­ший срок предоставить полный список, в котором не допускались ошибки.

На первый взгляд, принятое решение и организация его испол­нения выглядят, вроде бы, нормально. Однако вместо быстрого реше­ния поставленной задачи она была выполнена не за один день, а более чем за десять. При этом ошибки в итоговом документе заведомо при­сутствовали, поскольку документы, принимаемые по факсу из других городов, содержали большое число графических искажений, в резуль­тате чего, например, иногда цифра «8» воспринималась как «б» и на­оборот.

В этом реальном примере отразилось незнание общих принци­пов и элементов современной компью- -рной информационной техно­логии. Как и всякая другая технология, она имеет свои плюсы и мину­сы, свои преимущества и недостатки. Если не ориентироваться в них, то вместо повышения эффективности информационной технологии деятельности практических подразделений органов внутренних дел можно получить обратный эффект - замедление работы, искажения и даже полные потери важных информационных данных.

Как же следовало решать приведенную задачу? Ответ на этот вопрос будет дан в конце главы. Хотя тот, кто владеет современной информационной культурой, наверняка уже знает ответ. Остальные, познакомившись с содержанием данной главы, скорее всего, само­стоятельно найдут решение.

Говоря о технологии, будем подразумевать ее вполне конкрет­ное определение, которое, если быть предельно кратким, можно было бы сформулировать так: технология - это совокупность средств и ме­тодов для достижения поставленных целей. Подобное определение можно было бы развивать, уточнять, снимая возможные противоре­чия, обнаруживаемые разными критиками. Однако мы остановимся на таком простом определении только лишь потому, что оно подчеркивает главное для нашего изложения - технология объединяет в себе две не­пременные части - средства и методы. Средства - это инструмент, сы­рье, некоторый исходный продукт и т.п. А методы - это правила, прие­мы, способы манипулирования имеющимися средствами для достиже­ния заданных целей. Последнее стало модным называть «ноу-хау»'.

«Know-how» в переводе с английского - «знать, как».

85

 

В развитии цивилизации можно выделить несколько важных вех становления информационных технологий, которые в итоге при­водили к существенному изменению жизни человека. По оценкам ученых, довербальное развитие человечества длилось около полумил­лиона лет. Появление речи в жизни человека произошло примерно 50 тысяч лет тому назад, письменности - 5 тысяч лет. Книгопечатание было изобретено в Германии в XV веке Иоганном Гуттенбергом (1400-1468 гг.), хотя первые печатные тексты появились в Японии еще в VIII веке. Нет необходимости пояснять, что эти вехи значили в развитии цивилизации. Подчеркнем лишь одно - появление и внедре­ние новшеств в информационной технологии не только ставит зри­мые вешки для историков, но и выводит на качественно новый уро­вень само развитие человечества.

В приведенном примере затронут лишь один элемент информа­ционной технологии в жизни человека - его речь (устная и письмен­ная). Параллельно с ней развивались иные средства коммуникации -графика (рисунки, живопись, схемы, карты), жесты и музыка. Причем многие исследователи полагают, что именно последние являются первичной формой передачи информации, которая существует и наи­более интенсивно используется во всем живом мире. Человек до сих пор передает свои эмоциональные чувства музыкой. Музыкальные ноты всегда присутствуют и в стихах, и в театральных представлени­ях, и в повседневном разговоре (в интонации), и даже в написанных

здесь строчках.

Следующей важной вехой развития информационных техноло­гий в жизни человека стало последнее столетие, когда были изобрете­ны телеграф2, кино, звукозапись, радиовещание, телевидение, голо-графия и, наконец, компьютеры. Появление каждого из этих новых информационных средств внесло решающий вклад в развитие циви­лизации. Но наиболее существенный вклад, по-видимому, внесет именно цифровая информационная технология. Почему по-видимому? Да потому, что этот процесс в настоящее время еще толь­ко подходит к своему окончательному становлению. Он еще не за­вершен. То, что человечество имеет сейчас, - это пока не устоявшиеся формы цифрового представления информации, из-за чего возникают все трудности по его обучению и внедрению в практику.

2 Телеграф изобрели в 1837 г. Уильям Кук (1806-1879 гг.) и Чарльз Уитстон (1802-1875 гг.).

86

Почему же именно цифровая информационная технология наи­более перспективна? Во-первых, потому, что она является наиболее универсальной и надежной формой хранения, передачи и обработки информации. Во-вторых, благодаря той же универсальности снима­ются все технические ограничения на обмен информацией между лю­быми субъектами. Во всем мире расширяются компьютерные сети, по которым передаются все виды информационных сообщений, а это уже качественно иная форма цивилизации, по-новому раскрывающая смысл понятия ноосферы, введенного Вернадским в начале нашего века.

Уяснив наиболее важные этапы в развитии информационных технологий, можно вернуться к вопросу о компьютерных технологи­ях. Почему они называются компьютерными, а не цифровыми? Ответ прост. Поскольку цифровая форма работы с информацией началась именно с решения вычислительных задач, новую информационную технологию чаще называют компьютерной. Хотя правильнее ее было бы называть цифровой информационной технологией.

Действительно, какие вычислительные возможности компьюте­ра используются при наборе и редактировании текста, например, дан­ного учебника? По существу - никакие. Единственным вычислением, производимым в программе, с помощью которой готовился данный текст, является, пожалуй, лишь подсчет количества символов в на­бранном тексте, расчет позиции автоматического переноса слов, ко­личества страниц и указание номера текущей страницы, а также ука­зание координаты курсора - мерцающей метки текущего положения точки ввода новых символов на тексте, отображаемом на экране мо­нитора. Если компьютер использовать только для подобных целей, то вычислительные операции в его работе будут занимать менее милли­онных долей процента от общего времени работы компьютера. В этом случае компьютер было бы правильнее называть не компьютером, а «информатером».

Когда говорят о программном обеспечении, следует помнить, что большинство программ по сути своей являются не вычислитель­ными, а средствами обработки, ввода и вывода информационных данных. Программы в основном указывают центральному исполни­тельному элементу любого компьютера (процессору), куда перемес­тить те или иные данные, представляемые в однотипной форме раз­ных серий битов (нулей и единичек), какие из этих данных сравни­вать, какие сопоставлять, корректировать или заменять и т.п. В этом

87

 

смысле сама программа является носителем информации способа об­работки данных. В ней определено, что делать с той или иной инфор­мационной записью в том или ином случае.

Большинство программ общего применения в настоящее время не используют именно вычислительные возможности компьютеров, хотя все современные модели компьютеров обязательно включают в себя помимо главного, центрального процессора еще и вспомогатель­ный - сопроцессор, позволяющий ускорять сложные математические расчеты. Стоимость такого сопроцессора сопоставима со стоимостью центрального процессора, и оба они находятся в одном корпусе большой интегральной микросхемы. Возникают резонные вопросы:

зачем нужен сопроцессор и можно ли без него обойтись?

Если на компьютере предполагается устанавливать программ­ное обеспечение старого образца на основе операционных систем ти­па «MS-DOS», под управлением которых будут работать лишь про­граммы редактирования текстовой (символьной) информации или программы ведения символьных (текстовых) БД, то, конечно же, ни­какие сопроцессоры не нужны. В этих системах они будут работать вхолостую, зря потреблять энергию и напоминать лишь о нерацио­нальных материальных затратах на развитие информационных техно­логий.

Однако если планируется использовать программное обеспече­ние, работающее с другими информационными данными: статистиче­скими (числовыми) массивами, графическими образами, звуком и др., то сопроцессор помогает существенно ускорить работу компьютера. Вот почему все современные компьютеры серии IBM-PC модели 486 и выше обязательно включают в себя сопроцессор. Операционные системы типа «WINDOWS» активно используют сложные математи­ческие расчеты при масштабируемом выводе сложных графических образов на экран монитора. Так, в подготавливаемом пользователем документе каждый раз при любом изменении размеров рисунка с по­мощью манипулятора типа «мышь» в соответствующей программе включается механизм сложных перерасчетов дискретного цифрового описания графического образа, чтобы отображаемый на экране рису­нок в новом произвольном масштабе имел предельно минимальные

искажения.

С точки зрения пользователя, программное обеспечение в пер­вую очередь различается по типу обрабатываемой информации и по тем функциям, которые в нем имеются. Например, до недавнего вре-

88

мени четко выделялись программы, получившие название «редакторы текстов». Эти программы работали только с символьной информаци­ей - текстами. Несмотря на однотипность функций всех текстовых ре­дакторов, в мире их насчитывалось несколько сотен типов, выбор од­ного из них в общем-то являлся делом вкуса. Однако при любом вы­боре того или иного программного продукта всегда учитывался нема­ловажный фактор стандартности представления символьной инфор­мации в основных «емкостях» хранения информационных записей - в файлах. Рано или поздно все программы редактирования текстов на­чинали включать в себя атрибуты оформления текста: смену шриф­тов, выделения текста курсивом или подчеркиванием, рисование таб­личек, графиков и т.п. Вся эта информация хранилась в одном и том же файле вместе с фактическим текстом (его символами). А посколь­ку разные изготовители программ по-своему кодировали переход от одной атрибутики к другой, то в итоге текстовые файлы, подготов­ленные с помощью одной программы-редактора, оказывались «непонятными» для другой. Возникала несовместимость форматов информационных записей в файлах. Эта сложная проблема решалась медленно путем стандартизации всех форм цифрового представления информационных записей.

Еще совсем недавно единственным стандартом представления символьной (текстовой) информационной записи был ASCII3. Но он нормировал только латинские символы и, естественно, совершенно не затрагивал кириллицу. Из-за этого в практической работе часто воз­никали проблемы при переходе с одной модели компьютеров на дру­гую, у которой не совпадали кодировочные таблицы символов. Пере­нос текстовых файлов или баз данных на русском языке становился невозможным без специальных программ-конверторов, перекодиро­вавших гигантские текстовые (символьные) файлы с одной системы кодировки символов, принятой на старых компьютерах, в другую, ис­пользуемую на новых. С тех пор, как в нашей стране остановились на единой кодировочной таблице символов, все п юблемы с обменом символьной информации решились сами по себе. Однако возникла новая проблема - стандартизация представления информации в дру­гих формах: графической, звуковой, картографической и др.

j American Standard Code for Information Interchange (ASCII) - американский стандартный код для обмена информационными данными.

89

 

Не дожидаясь появления единого информационного стандарта, разработчики дактилоскопических и фоноскопических систем, фото­роботов и прочих специализированных компьютерных систем не­сколько лет назад начали оперировать со своими цифровыми фор­мами представления информационных данных. Появилось (и будет появляться) множество однотипных по целевому назначению и функциональным возможностям систем, которые не согласованы по структуре представления информации. Это приводит к тому, что при необходимости обмена информацией между разными программны­ми системами у пользователя порой возникают непреодолимые трудности: нельзя перенести цифровые дактилокарты с одной дакто-системы на другую, обмениваться шаблонами портретных элементов между разными системами фотороботов, прослушивать звуковые файлы, подготовленные с помощью разных фоноскопических сис­тем, и т.д.

При отсутствии активных шагов со стороны ведущих информа­ционных служб не только МВД, но и других ведомств как в нашей стране, так и за рубежом инициативу в свои руки взяли основные раз­работчики компьютерных программных систем. Для них это оказа­лось весьма выгодным делом4. Поэтому одна из ведущих фирм по производству системного и прикладного программного обеспечения общего назначения (фирма Microsoft) самостоятельно приступила к внедрению стандартов представления информационных записей раз­ного вида. Следует признать, что вопрос стандартизации фактически «языка цифрового общения» действительно является решающим в развитии современных информационных технологий. Пока он не бу­дет решен однозначно, к нему следует внимательно прислушиваться и не приобретать любое, пусть даже самое дешевое и эффектное, пред­ложение новых программных средств, сулящих сиюминутные выго­ды. Поэтому, если программное средство изготовлено для работы со своими «внутренними» информационными форматами представления информационных записей, понятными только этому программному средству (а с этими информационными записями придется работать не один год), то следует семь раз подумать, прежде чем принимать такую программную систему для своей работы.

4 Здесь, видимо, сработал принцип: кто владеет информацией - тот владеет

всем.

90

Реализация и демонстрация преимущества единого информаци­онного стандарта в настоящее время хорошо иллюстрируются разра­боткой той же фирмой Microsoft: операционной системы и пакета прикладных программ общего назначения, названного «Microsoft Office», которые включают в себя следующие наиболее употребимые в общем случае программные средства: редактирование текстов, гра­фические образы, ведение сложных табличных расчетов, баз данных и средств компьютерной коммуникации. Подобных офисных систем существует немало. О некоторых из них более подробно будет рас­сказано в следующих разделах.

Компьютерная информационная технология очень дорогая. Став некоторым элементом престижа, она подчас попадает в руки не тем, кому она действительно нужна, а к тем, кто имеет возможность ее получить. При этом забывается, что неэффективное использование колоссальных возможностей компьютерной технологии может нанес­ти значительный ущерб правоохранительным органам в целом. Этот ущерб заключается даже не столько в непроизводительных затратах финансовых средств на закупку дорогостоящей компьютерной техно­логии, сколько в деформации и даже разрушении той общей инфор­мационной технологии, которая является основой эффективного функционирования органов внутренних дел.

Чтобы несколько снять эту проблему, рекомендуется придержи­ваться следующих двух принципов:

1) практическую деятельность на компьютерную технологию переводить только тогда, когда традиционные информационные сред­ства и методы становятся неприемлемыми или малоэффективными;

2) компьютерная технология должна приносить новые знания об объекте управления (или исследования), если этого не происходит, то от нее следует отказаться.

Последний принцип часто нарушается в тех многочисленных случаях, когда компьютерная технология начинает применяться не для получения новых знаний об объекте исследования или управле­ния, а только для рутинной подготовки текстов, справок или диа­грамм, а сами материалы для этих текстов или диаграмм напрямую берутся из каких-нибудь других источников без привлечения инфор­мационно-поисковых, учетно-статистических, аналитических и иных возможностей, реализованных на компьютере. Это именно тот слу­чай, который имел место в практическом решении задачи, описанной в начале данной главы.

91

 

информации

Очень часто на вопрос о том, что хранится в памяти компьюте­ра, можно услышать ответ - информация. Это не совсем верно, по­скольку даже если взять такую древнюю форму хранения информа­ции, как письменный текст, то оказывается, что в одном из них может быть много полезной информации, а в другом - мало, несмотря на то, что оба текста по объему равны. То же самое касается и устной речи:

из двух высказываний одинаковой продолжительности и с абсолютно одинаковым словарным составом одно высказывание может оказаться пустым, а другое - полезным. Причем для одного слушателя одно и то же дословно совпадающее сообщение может оказаться весьма полез­ным, а для другого - пустым сотрясанием воздуха. На этом принципе построены некоторые криптографические методы передачи важной для принимающего информации, скрывающейся во внешне малоин­формативном сообщении. Поэтому понятие информации обязательно включает в себя категорию полезности или нужности.

В энциклопедическом словаре по информатике информация определяется как «содержание сообщения, сигнала, памяти, а также сведения, содержащиеся в сообщении, сигнале или памяти». Следова­тельно, чтобы правильно принять информацию, необходимо сначала понять, о чем, собственно, идет речь, а затем уже - какие же сведения

кроются в этом сообщении.

В компьютерной технологии это оказывается очень важно, по­скольку все привычные нам виды хранения и передачи информации в компьютере представляются одинаково стандартным образом в виде битов6, каждый их которых может принимать только два значения:

«1» или «О». Эти знаки можно трактовать так: «истина» или «ложь», «да» или «нет», а если проводить аналогию с живым мозгом, то одна клетка мозга - нейрон, находясь в «возбужденном» или «невозбуж-

5 Информатика: Энциклопедический словарь для начинающих/Под ред.

академика РАЕН Д.А.Поспелова. - М., 1994. С. 41.

6 Слово «бит» (двоичная цифра) произошло от английского сокращения «bit» (binary digit) - один из двух знаков 0 или 1, используемых в двоичной системе счисления. В системах обработки и хранения данных: наименьшая порция ин­формации, воспринимаемая компьютером, которая физически реализуется, на­пример, в виде одиночного импульса, передаваемого по схеме, или минимального участка магнитного диска, способного хранить знак «О» или «I».

92

ции. 1 пятому, если использовать средства визуализации содержания памяти компьютера и заглянуть в нее, то можно увидеть, что в памяти записаны лишь одни нули и единички. А если выделить какой-то фрагмент памяти, то, глядя на эти нули и единички, нельзя ничего сказать о том, что они обозначают, если не знать содержания этого фрагмента памяти.

Может возникнут вопрос: а как же тогда в этой памяти могут запоминаться тексты, рисунки, звуки и т.п., если все в итоге принима­ет форму нулей и единиц? И неужели эти нули и единички когда-то были портретом или, наоборот, могут превратиться в него? Да, это -так. Об этом более подробно будет рассказано ниже. А сейчас лиш­ний раз подчеркнем, что в памяти компьютера абсолютно вся инфор­мация хранится в однотипном виде нулей и единиц.

Если содержание памяти компьютера неизвестно, то опреде­лить, что там находится («Этюд в багровых тонах» или этюд Шопе­на), в общем случае невозможно. А если содержание памяти известно, например символьный текст или графический образ того же текста, но выполненного от руки и переведенного с помощью сканера в циф­ровую (компьютерную) форму, то, расшифровывая комбинации нулей и единичек, чем, собственно, постоянно только и занимаются отдель­ные блоки компьютера, можно определить и отразить на экране мо­нитора, какие же конкретно сведения содержатся в этой памяти, т. е. можно установить, какой текст там записан, о чем, собственно, идет речь.

Существует строгое математическое определение понятия ин­формации, которое, в свою очередь, опирается на понятие энтропии. Упрощенно понятие энтропии можно определить как уровень неоп­ределенности ситуации, от которой хотелось бы полностью избавить­ся. Математическое определение энтропии в упрощенном виде может выглядеть так:

(2.1)

где Е - энтропия (или информационная мера неопределенности), log2() - функция логарифма по основанию 2, N - количество возможных со­стояний интересующего объекта, процесса или явления.

Если, задав некоторый вопрос или получив некоторое сообще­ние об интересующем нас объекте, снимается часть неопределенно­сти, т. е. вместо числа возможных вариантов N его состояния получа­ется уменьшенное число N2, то новая энтропия будет равна Е2 =

 

logzCNz). Разность между исходной энтропией (неопределенностью) и последующей принято называть количеством полученной информа­ции:

I = Е - Ег                                (2.2)

Предположим, что нам удалось задать вопрос так, что новое число возможных состояний (или ответов) стало равным N; = N/2, т. е. если до вопроса были возможны N вариантов равновероятных отве­тов, а ответ на вопрос сузил это число вдвое, то теперь получаем ко­личество информации I = Е - Ег = logzCN) - logz(N/2) = log2(N) -

log2(N)+log2(2)=log2(2)=l.

Поскольку понятие количества информации полностью базиру­ется на понятии энтропии, то при оценке количества получаемой ин­формации можно поступать двояко: или следить за тем, на сколько снижается энтропия, и величину этого снижения использовать в каче­стве меры количества информации, или оценивать, сколько может быть ответов на задаваемый вопрос и все ли ответы будут равноверо­ятными. Если последнее утверждение верно, то в качестве количест­венной меры информации можно брать величину

I = log2(M),                            (2.3)

где М - число возможных равновероятных ответов. Эту же формулу

для удобства можно записать иначе:

log2(Konn4ecTBO равновероятных вариантов ответа) = = (количеству информации).

Поэтому на любой вопрос, ответ на который с равной вероятно­стью может быть «да» или «нет», всегда получаем одну единицу ин­формации I = logz(M) = logz(2) = 1.

Поскольку один бит памяти компьютера может хранить только два возможных варианта ответа на некоторый вопрос (ноль или еди­ницу), то в одном бите памяти компьютера можно хранить не более

одной условной единицы информации.

Много это или мало? Если запись, состоящая из нескольких би­тов, высокоинформативная, то это очень много (скажем точнее - пре­дельно много), а если эта запись так же пуста, как некоторые пусто­порожние фразы, то даже большое количество заполненных инфор­мационных битов может быть вообще неинформативным.

Приведем два простых примера. Первыу - чисто ученический -игра в угадывание чисел. Предположим, один участник игры загады­вает любое число от 1 до 128, а второй игрок должен его угадать за минимальное количество вопросов, ответы на которые могут быть

94

только односложными («да» и «нет»). Если формулировать вопросы таким образом, чтобы ответы на них содержали максимально воз­можное количество получаемой информации, то теоретически для угадывания числа потребуется задать семь вопросов. Хотя многие учащиеся поначалу утверждают, что в худшем случае может потребо­ваться задать 127 вопросов.

Оптимальная стратегия постановки вопросов очень проста - ка­ждый вопрос должен делить текущее множество возможных вариан­тов задуманного числа на две равновеликие группы. Первый вопрос зададим так: задуманное число больше, чем 64? Если ответ будет «нет», то значит задуманное число лежит в интервале 1-64. А если от­вет будет «да», то в интервале 65-128. В любом случае уровень неоп­ределенности оказывается сниженным со 128 до 64 возможных вари­антов задуманного числа. В зависимости от новой исходной ситуа­ции, вторым вопросом может быть (если оказалось, что задуманное число лежит в интервале от 65 до 128); задуманное число больше, чем 96? Ответ на этот вопрос также даст нам одну единицу информации. Если исходный уровень энтропии сначала равнялся Ео = log2(128) = 7, то после первого вопроса он стал равен е| = log2(64) = 6. А после вто­рого - Ё2 = logz(32) = 5. Каждый раз, задавая вопрос, ответ на который приносит одну единицу информации, мы снижаем неопределенность на единицу. Поэтому-то данная задача и решается за семь ходов.

Приведенный пример предельно упрощен. В реальной жизни все намного сложнее. Но понимание информационных законов по­зволяет лучше ориентироваться в реальных жизненных ситуациях. Например, в развитие предыдущей игры существует другая, в которой угадываются не числа, а слова. Если учесть, что задуманным может быть любое слово русского языка7, то поначалу может показаться, что данная игра может закончиться очень нескоро. Однако, оценивая ме­ру неопределенности в исходном состоянии этой задачи, получаем Е = logz( 100000) яа 16,6 условных единиц, т. е. примерно за 17 одно­сложных вопросов в принципе можно угадать любое русское слово. Реально это удастся далеко не каждому, поскольку надо уметь каж­дый раз задавать не абы какие вопросы, а лишь такие, ответы на кото­рые сужали бы вдвое текущую неопределенность.

Рассмотрим второй пример. Предположим, мы занимаемся рас­крытием некоторого преступления, о котором ничего неизвестно,

7 В обычном орфографическом словаре их около 100 тыс.

95

 

кроме того, что оно совершено одним из жителей города с миллион­ным населением. Поначалу энтропия (или уровень неопределенности) будет примерно равна Е = logz( 1000000) яа 20 условных единиц. При этом условно предполагается, что преступление с равной вероятно­стью мог совершить любой житель города, включая грудных детей и немощных стариков.

Предположим, что мы получили некоторое сообщение, из кото­рого достоверно следует, что преступник мужского пола. На сколько единиц снизилась при этом энтропия? Оказывается - ровно на одну условную единицу, если полагать, что число мужчин в этом городе примерно равно числу женщин и вероятности совершения преступле­ния мужчиной и женщиной одинаковы. Новый уровень неопределен­ности стал равен logz( 1000000/2) » 19. Он снизился на одну единицу, значит, в сообщении находилась одна условная единица информации. Но вспомним; что оценить информативность сообщения в подобных случаях можно и иначе, идя от обратного - не от того, сколько оста­лось подозреваемых, а от того, во сколько раз сузился их круг. Для этого следует воспользоваться формулой (2.3). Если сначала была альтернатива - «мужчина» или «женщина», то, сняв ее, получаем ко­личество информации равное log2(2)=l. Это та же самая условная единица информации. Подобным приемом будем пользоваться и дальше. Вместо того, чтобы рассчитывать оставшуюся неопределен­ность, постараемся оценить информационную емкость сообщения, которая рассчитывается по той же формуле (2.3), т. е. будем работать не с числом оставшихся подозреваемых, а с числом возможных вари­антов ответов на вопрос, позволяющих разбивать текущую неопреде­ленную ситуацию на равные и равновероятные части (не обязательно две). Поясним это дальнейшим ходом «раскрытия» преступления.

Предположим, что на следующем этапе стал достоверно извес­тен возраст преступника. Если допустить, что средняя продолжитель­ность жизни составляет 64 года и все возрастные группы жителей го­рода заполнены равномерно, то, получив сообщение о возрасте пре­ступника, фактически имеет примерно шесть условных единиц ин­формации, поскольку в нашем случае log2(M) = log2(64) = 6 (см. фор­мулу 2,3).

Таким образом, два сообщения о поле и возрасте преступника снизили энтропию с 20 до 13 условных единиц. А если из некоторых сообщений станет известен еще и день рождения преступника, то эн-

96

тропия уменьшится еще на 8,5 условных единиц, поскольку в году 365 дней и по формуле (2.3) получаем log2(M) = logz(365) » 8,5. В ито­ге - из 20 единиц информации, которые необходимы нам для полного «раскрытия» преступления, уже получено 15,5 условных информаци­онных единиц, что составляет примерно три четверти от требуемого. Осталось добыть всего лишь 4,5 двоичных единиц информации и преступление будет полностью «раскрыто».

Приведенный пример иллюстрирует, каким образом можно ко­личественно оценивать информационную емкость разных сообщений. Данные, собираемые в ходе реального раскрытия того или иного пре­ступления, зачастую несут лишь малые доли условных единиц ин­формации. Некоторые сообщения могут иметь разное содержание, но фактически нести одинаковую информацию.

Остановившись на достигнутом в «раскрытии» преступления, предположим теперь, что получено новое сообщение, из которого достоверно следует лишь то, что преступник мужского пола. В этом случае мы фактически ничего нового не узнаем, никакой новой ин­формации не получаем, поскольку уровень неопределенности (энтропии) при этом не изменяется. С таким явлением хорошо знако­мы все, кому приходилось изучать тома уголовных или уголовно-розыскных дел, многие документы которых могут иметь разное со­держание, но не привносить новой информации в раскрытие преступ­ления в силу либо повторяемости содержащихся в них сведений, (безусловно, важных для раскрытия преступления), либо их ненужно­сти для раскрытия.

Возвращаясь к первоначальному вопросу о том, что же нахо­дится в памяти компьютера, теперь можно ответить так - в ней может находиться информация, но будет она там или нет и какая именно -зависит от того, что в эту память записано и как следует понимать эту запись. Поэтому, когда говорят: «в памяти содержится некоторая за­пись», или «в память записана или занесена некоторая информация», или «в память внесена запись», или «в память внесена информация», следует помнить, что некоторые из этих высказываний могут в той или иной ситуации оказаться некорректными. Однако, чтобы не воз­никало подобной путаницы, в компьютерной технологии принято любую запись, пусть даже абсолютно неинформативную, называть файлом. Более точное определение понятия «файл» будет дано ниже. Однако прежде, чем перейти к более точному определению понятия

4 Заказ 1497

97

 

»файл», следует сказать несколько слов о другой единице представле­ния информационных записей в компьютерной технологии.

Информационная запись в виде одного бита - это минимально возможная (атомарная) информационная запись. Однако, если бы компьютер оперировал только такими минимальными информацион­ными записями, то его реальное быстродействие было бы недопусти­мо низким. Поэтому любой компьютер за одно элементарное дейст­вие оперирует не с одним битом, а с целой серией битов, которая на­зывается машинным словом. Чем выше класс компьютера, тем длина одного машинного слова больше. Обычно машинные слова состоят из 8, 16, 32 или 64 битов. 64 битовые компьютеры - это высокопрофес­сиональная вычислительная техника, применяемая в основном в сложных физических и технических системах. Лучшими 64 битовыми компьютерами в 1995-1997 гг. были компьютеры серии Alpha фирмы DEC. Первые бытовые компьютеры, например IBM-PC/XT, были 8 битовыми. Следующее поколение бытовых компьютеров IBM-PC/AT (модель IBM-286) были 16 битовыми. А модели IBM-386, IBM-486 и Pentium являются 32 битовыми компьютерами.

Чтобы сравнивать объемы информационных записей в разных компьютерных системах, обычно используют 8 битовое машинное слово, которое называется байтом. Следовательно, байт - это 8 битов, составляющих единое целое, интерпретируемых и обрабатываемых компьютером информационных записей. Исторически сложилось так, что байт стал основной единицей измерения всех объемов информа­ционных записей. Причин тому очень много, начиная от чисто техни­ческих (электронных) и заканчивая особенностями письменной куль­туры разработчиков компьютерных технологий. Следует вспомнить, что на первых компьютерах в основном обрабатывалась числовая и символьная информация. А поскольку в европейской культуре коли­чество всех письменных символов не превышает 256, то для их коди­ровки оказывается достаточным именно 8 битов. Если бы компьютер­ная технология начала развиваться не в европейской, а в восточной культуре, где для кодировки всех иероглифов потребовались бы ты­сячи комбинаций кодов из элементарных битов, то возможно, что роль одного байта играло бы машинное слово длиной не в 8, а в 16 или даже в 32 бита. С помощью 16 битов можно закодировать 65 536 символов, а с помощью 32 битов - более 4 млрд. различных символов (точнее - 4 294 967 296 символов).

98

Для входящих в мир цифровых информационных технологий порой бывает сложно привыкнуть к новой информационной единице записи - байт. Но поскольку с помощью одного байта обычно кодиру­ется один символ, то на первых порах для удобства можно ставить знак равенства между буквой и байтом. Поэтому, если говорится, что некоторый документ, содержащий только символьную информацию, по объему равен N байт, то можно считать, что в нем содержится N символов (букв). Причем к символам относятся также все пробелы между словами, а также ряд других невидимых символов типа окон­чания строки (возврата каретки пишущей машинки) и др. Всегда сле­дует помнить, что реально в памяти компьютера хранятся не сами символы (буквы), а наборы битов (нулей и единичек) из восьми штук, называемых байтами. Разное сочетание этих нулей и единичек соот­ветствует разным символам, с которыми имеют дело в реальной жиз­ни.

Для пользователя компьютерной технологией основной струк­турной единицей информационной записи является файл. Если попы­таться ранжировать основные элементы хранения информации в па­мяти компьютера, то в порядке возрастания они располагаются сле­дующим образом:

бит - минимальная (атомарная) единица информационной запи­си, принимающая, например, значения: ноль или единица;

«байт - информационная запись, состоящая из восьми битов;

файл - информационная запись, состоящая из произвольного числа байтов.

Более крупным носителем информации обычно называется том, содержащий произвольное число файлов.

Остановимся на некоторых условностях, принятых в компью­терной технологии, при работе с файлами. Итак, не вдаваясь в детали, можно сказать, что файл - это некоторая информационная запись, на­ходящаяся в памяти компьютера или на некотором томе - магнитном носителе цифровой информации типа дискеты, винчестера, стримме­ра (магнитной ленты) и т.п. Следует подчеркнуть, что по своей логи­ческой структуре электронная память компьютера и любого носителя цифровой информации абсолютно идентичны. Все они состоят из би­тов, сгруппированы в байты, из которых составляются файлы. Поэто­му, если заглянуть в память компьютера, можно увидеть там лишь множество нулей и единичек (см.рис.2.2.1). Точно так же выглядят и «внутренности» любого файла. Подчеркнем - информация разного ти­па хранится в однотипных ячейках памяти компьютера.

4*

99

 

Рис.2.2.1. Трансформация разных видов информационных записей в единую цифровую форму

Слово «файл» пришло к нам из английского языка (file), где оно имеет очень много значений: напильник, пилочка для ногтей, хитрец, пройдоха, жулик, скоросшиватель, шпилька, подшитые бумаги, дело, подшитый комплект газет, картотека, ряд, шеренга, хвост, очередь и др. Отсюда ясно, почему именно это слово было выбрано для обозна­чения компьютерной информационной записи. В нем одновременно скрывается смысл многих свойств того, что хотелось бы обозначить этим словом8.

Существует формальное определение понятия файла - это «поименованная целостная совокупность данных на внешнем носите­ле»9. Оно полностью соответствует сложившимся современным поня­тиям. Поэтому только на внешних носителях информации цифровые записи называются файлами, а если они переносятся в электронную (внутреннюю) память компьютера, то обычно файлами уже не назы­ваются.

Поскольку обработка центральным процессором возможна толь­ко тех информационных записей, которые находятся в электронной оперативной памяти, то после загрузки содержимого файла с магнит­ного диска в оперативную электронную память некоторое время в ком­пьютере существуют две идентичные цифровые информационные за­писи. Первая - это та, которая первоначально находилась (и осталась) на диске. И вторая - это копия первой, но уже загруженная в электрон­ную оперативную память. То, что находится в оперативной памяти компьютера, файлом уже не называется. Более того, строго говоря, не всегда битовая картинка цифровой записи в файле совпадает с копией этой же записи в памяти компьютера, поскольку, чтобы обработать данные, содержащиеся в файле, не обязательно загружать его полно­стью в электронную память. Электронная память всегда более ограни­чена по объему, чем внешняя. Поэтому зачастую из файла загружают­ся лишь его фрагменты, необходимые для работы. Как и когда это происходит, пользователь обычно не знает. Если он при этом удаляет внешний носитель информации, например дискету из компьютера, то программа, управляющая обработкой информации, может попросить вернуть дискету на место. В том случае, если программа недоброка­чественная, то может произойти сбой в работе всего компьютера.

8 На рис.2.2.1 длинные шеренги рядов насечек из единиц, объединенных единой информационной связью.

9 Борковский А.Б. Англо-русский словарь по программированию и инфор­матике (с толкованиями). - М., 1987.

101

 

Таким образом действуют все типы компьютеров. Поэтому сле­дует запомнить, что обрабатывая некоторую информацию на компью­тере, мы в действительности работаем с информационными записями, расположенными в электронной оперативной памяти компьютера. И если их не сохранить на внешнем носителе информации (диске или дискете), то после выключения компьютера вся вновь введенная, из­мененная или обработанная информация будет безвозвратно утеряна. Операция переноса информации из энергозависимой, и поэтому не­долговременной, электронной оперативной памяти на долговремен­ную внешнюю (магнитные диски) называется сохранением. Сохраня­ется же информация, только в файлах.

Учитывая отмеченные особенности, уместно упомянуть распро­страненную ошибку начинающих пользователей компьютерной тех­нологии, плохо представляющих названные процессы. Нельзя выклю­чать (или перезагружать) компьютер после ввода или обработки дан­ных, без их сохранения в файле.

Более того, следует ввести за правило - никогда не выключать (или перезапускать) компьютер, не завершив корректно все работаю­щие программы. Дело в том, что большинство прикладных программ, начиная свою работу, открывают старые или заводят новые файлы, считывают из них или записывают служебную информацию, которая используется на всем протяжении существования и использования данной программной системы. В момент выхода из программы все обмены информационными данными между оперативной памятью и файлами на внешних носителях корректно завершаются, за что несет ответственность сама программа. Если это не происходит, то рано или поздно могут возникнуть неполадки в работе не только данной систе­мы программ, но и всего компьютера.

Возвращаясь к формальному определению понятия файла как поименованной целостной совокупности данных на внешнем носите­ле, рассмотрим основные атрибуты «поименованное™».

Естественно, что первым главным атрибутом любого файла яв­ляется его имя. Имя файла - это несовпадающая с другими именами файлов совокупность символов, обозначающая определенную цифро­вую информационную запись на внешнем носителе. В разных компь­ютерных системах (точнее - в операционных системах) существуют свои ограничения на имена файлов. Но есть некоторые общие прави­ла. Например, в имени файлов нельзя употреблять разделительные

102

символы: пробелы, точки, запятые, двоеточия, кавычки, точки с запя­тыми и др.

В разных системах грамматика написания имен файлов неоди­накова. Обычно существуют ограничения на количество, перечень и порядок следования символов, допустимых в имени файлов. В одних системах имя файла может состоять не более, чем из шести символов, в других - из восьми и т.п. Так, в операционной системе «MS-DOS» версии 3.3 имя файла могло состоять не более, чем из восьми симво­лов, только из латинских букв, цифр и некоторых специальных сим­волов (например, подчеркивания) и не начинаться с цифры. Причем различий больших и маленьких букв не делалось. Имена файлов raport_l, Raport_l и RAPORT_1 считались тождественными. Позже, в той же операционной системе по версии 6.22, уже можно было при­менять символы русского алфавита и имя файла могло начинаться с цифры.

В более поздних версиях операционных систем (Windows-NT и Windows-95) имена файлов могли иметь уже до 256 символов в дли­ну, причем делались различия в малых и больших буквах, из-за чего файлы с именами pismo и Pismo считались разными.

Вторым важным атрибутом файла является его тип. Поскольку содержимое любого файла состоит из того или иного набора бай­тов/битов, то по ним нельзя определить тип данных, содержащихся в них (см рис.2.2.1 и рис.2.3.3). Для этого к имени файла обязательно прибавляется обозначение его типа. Грамматические правила написа­ния типа файла похожи на правила написания имен.' файла. В опера­ционной системе «MS-DOS» тип файла обозначается не более, чем тремя символами. А чтобы имя файла не путалось с его типом, они разделяются точкой. Сначала пишется имя файла, ставится точка и затем следует расширение (тип) имени файла. Например: filename.ext

или Raport_l.doc.

Обычно пользователь не волен в выборе типов расширения имени файла, поскольку он обозначает тип хранимой в файле инфор­мации, а этих типов не так уж и много: текстовая информация, графи­ческая, звуковая, картографическая, статистическая и т.п. Поэтому обычно имя файла задает пользователь так, как он считает нужным, чтобы ему позже было ясно, что и где находится, а вот расширения имен файлов должны быть согласованы с требованиями операцион­ной системы и тех программ, с помощью которых эти файлы обраба­тываются.

103