СОДЕРЖАНИЕ


http://n-t.ru/

Популярная информатика
Николай ЧУРСИН
Книга доступна в формате HTML (только текст).
 
Внимание, информация!
Что же такое информация?
Наука о научной информации
Почему академики не учат первоклассников?
Законы царства документов
Выход в автоматизации?
Предисловие
Информатика возникла сравнительно недавно (примерно тридцать лет назад) и по сравнению с другими науками еще совсем молода. Но несмотря на это, в настоящее время она выдвинулась в ряд важнейших областей знания. Причина ее стремительного развития состоит в том, что предмет ее исследования – научная информация, свойства и закономерности ее распространения – приобретает в современном мире исключительно важное значение.
В условиях научно-технической революции научная информация является одним из национальных ресурсов, которые определяют, в конечном счете, социально-экономическое развитие страны. Эффективное использование научной информации – задача не только специальных информационных органов, но и всех тех, кто непосредственно занят в научной или производственной сфере. Поэтому, в какой бы области знаний не работал сейчас ученый или специалист, для него очень важно уметь грамотно обрабатывать информацию: искать, отбирать, анализировать и использовать ее. Именно поэтому ему не обойтись без знания информатики так же, как, например, не обойтись без знания математики.
В современных условиях, когда объем необходимых для человека знаний резко и быстро возрастает, уже невозможно делать главную ставку на усвоение определенной суммы, фактов Важно прививать умение самостоятельно пополнять свои знания, ориентироваться в стремительном потоке научной и политической информации. Решению этой задачи может способствовать ознакомление будущих ученых, конструкторов, технологов, руководителей производства с достижениями информатики. Именно им и адресована эта книга.
Начиная разговор об информатике, целесообразно подчеркнуть, что информатика – динамичная область знаний Содержание многих ее понятий, даже основных, в будущем, вероятно, изменится. Однако мы уверены, что ни в ближайшем, ни тем более в отдаленном будущем не уменьшится значение информатики для человеческого общества.
 
Внимание, информация!
Оглавление
 
Текст издания:
Николай Николаевич Чурсин. Популярная информатика.
К.: «Техника», 1982.





Внимание, информация!
Комфорт и перегрузки
Информация... Такое привычное, как будто бы не содержащее ничего таинственного, понятие Оно прочно вошло в нашу повседневную жизнь, и мы пользуемся им часто и уверенно, не вдумываясь в его смысл. Да, может быть, и не стоило бы вдумываться, если бы с некоторых пор человечество не почувствовало огромное влияние информационных процессов на всю историю своего развития, влияние, которое все возрастает и возможные последствия которого человечеству крайне важно предвидеть уже в настоящем.
Что же несет человеку воспринимаемая им из внешнего мира информация в наше время? На первый взгляд – комфорт. Информация – это и газетные полосы, и экраны телевизоров, и прогноз погоды, и объявление в аэропорту – ощутимые элементы жизни современного человека, несущие ему неисчислимые удобства и позволяющие сделать вывод о том, что чем больше информации, тем увереннее чувствует себя человек, тем больше его возможности и тем выше степень комфорта, который он ощущает.
Однако, приглядевшись повнимательнее, мы увидим, что информация несет нам не только комфорт, но и подвергает серьезному испытанию наш организм, все больше «переключая» его с физической деятельности, которая так естественна для него, на деятельность умственного, информационного характера, в которой наши мышцы не участвуют. Мы все являемся свидетелями все большей замены физического труда трудом умственным, т.е. трудом, связанным с обработкой информации. Вместе с тем обработка информации требует от нас большого напряжения, и перегрузки информационные не менее страшны для организма, чем перегрузки физические. Если учесть, что профессий, связанных с тяжелым физическим трудом, осталось уже не так много, а профессий, требующих от человека напряженного умственного труда, становится все больше и, кроме того, тенденция увеличения «информационной нагрузки» на человека сохраняется, то, пожалуй, настало время серьезно задуматься над тем, что же несет человечеству его удивительная способность обрабатывать информацию. Добро или зло? С одной стороны, мы, благодаря ей, пользуемся комфортом даже в безбрежном океане и космосе, а с другой – она становится причиной огромных нервных перегрузок.
Как видим, влияние информации на жизнь нашего современника велико и противоречиво. Чтобы представить, каким будет это влияние в будущем, надо понять, почему оно стало таким, каким мы наблюдаем его сегодня. Желание глубже понять роль информации в жизни человеческого общества, видимо, приведет нас к самым ранним стадиям его развития.
Знание – сила!
Приоткроем завесу тысячелетий и попытаемся выяснить, что же позволило человеку успешно бороться с силами природы.
Вспомним: человек, казалось, проигрывал в жизнеспособности многим представителям животного мира. У него не было мощных зубов, волосяного покрова, способного защитить его от холода. В быстроте и силе он не мог сравниться с крупными хищниками. Быстроту, силу и крепость зубов ему заменяло умение обрабатывать информацию на таком высоком уровне, которого мы не можем обнаружить ни у одного представителя животного мира. Благодаря этому умению он мог делать сначала каменные, а затем и металлические орудия, заменявшие ему в борьбе с хищниками когти и зубы. Он умел шить одежду, строить жилища, предохранявшие его от холода в самую суровую стужу.
Однако, по мнению X. Арнтца, президента Международной федерации по документации (Нидерланды), не следует связывать выражение «использование информации» только с человеком, чтобы объяснить различную сущность человека и животного. Мы можем только восхищаться полетом птиц или организацией колоний пчел и муравьев. В каких-то пределах животные также обрабатывают и используют информацию. В этом нет ничего удивительного, так как биологические начала человека принципиально не отличаются от того, что мы наблюдаем в мире животных. Следовательно, когда мы говорим о том, что способность человека обрабатывать информацию является его монополией, мы не должны предполагать, что у животных нет такой способности. Но не позднее, чем с начала человеческой истории, способность человека оценивать информацию достигла уровня, который в животном царстве не наблюдался и в зародыше. Тот уровень обработки информации, которого достиг человек, та степень сложности информационных процессов, которая ему доступна, являются исключительно его достоянием.
Изучив повадки окружавших его животных, древний человек научился побеждать их, противопоставляя физической силе силу своего ума, иными словами способность обрабатывать информацию Сознательно используя огонь, наши предки получили еще большую независимость от природных условий существования. Уже в то время они смогли в какой-то мере поставить силы природы себе на службу. И хотя физическая сила, выносливость, ловкость имели еще огромное значение для человека, эти качества постепенно оттеснялись на второй план. Умственные способности в борьбе за существование стали играть первостепенную роль. То, что, по выражению Х. Арнтца, раньше давали физическая сила, подвижность, быстрота, теперь гарантирует искусство владения информацией Располагать информацией – значит обладать силой.
Каждому человеку свойственна неистребимая потребность в информации, не всегда осознанная каждым из нас в отдельности, но органически присущая человеческому обществу в целом. Не только способность воспринимать и обрабатывать информацию, но и ощущение в ней потребности, под час такой же сильной, как и потребность в одежде, пище, являются удивительными, и, пожалуй, самыми характерными качествами, резко выделяющими человека из всех представителей живой природы.
Значение знаний в жизни человека не только не уменьшилось, как можно было ожидать, после окончательного его утверждения в качестве хозяина планеты, а наоборот, еще больше возросло, поскольку положение человека в современном обществе во многом определяется его способностью к обработке информации.
Информационный кризис: голод при изобилии
Итак, знание – сила. Тогда информация, питающая знание, – источник этой силы? Помноженные на труд, упорство и вдохновение, знания могут творить чудеса! Именно так и было на протяжении многих тысячелетий. Информация облегчала труд человека: знания позволяли ему придумывать различные приспособления, рычаги, двигатели, использующие силу пара, падающей воды, ветра и, наконец, силу атома. Всем, что имеет человек сейчас, он обязан своему умению воспринимать и обрабатывать информацию. Вся история становления и развития человека сопровождалась совершенствованием этого умения и ростом объема информации, накопленной обществом.
Первым весьма эффективным способом хранения и распространения информации стала книга. Конечно же, письменность существовала задолго до книгопечатания, однако после его распространения количество книг, уже не рукописных, а печатных, неизмеримо возросло. Количественный рост носителей информации – книг – способствовал скорейшему распространению информации. Человеку стало гораздо легче добывать ее в нужной ему области знаний. Затем на помощь книгам подоспели другие средства хранения и распространения информации: радио, кино, телевидение, магнитофон – вплоть до запоминающих устройств современных ЭВМ.
Поток информации на самых различных носителях, с которыми приходилось сталкиваться человеку, возрастал все быстрее... И вот случилось то, что, по логике этого процесса, должно было рано или поздно произойти: люди столкнулись с трудностями в переработке этого потока. Информация по-прежнему была необходимой. Благодаря ей человек достиг огромного, фантастического могущества. Но чрезвычайно большие возможности человеческого мозга не беспредельны.
Человеку становится все труднее справляться с резко возросшими информационными нагрузками, которые ему приходится испытывать во всех областях его деятельности. Рост потоков информации так велик, что его часто называют информационным взрывом, употребляя это выражение без кавычек – настолько точно оно отражает действительное положение дел. Примеров более чем достаточно. Мы приведем лишь некоторые, наиболее впечатляющие. По данным ЮНЕСКО, в начале XIX в. во всем мире выходило около 100 периодических научных изданий. К 1850 г. количество периодических изданий увеличилось до 1000, к 1900 г. превысило 10000, а теперь, по оценке некоторых специалистов, оно приближается к 100 000. Кроме того, непрерывно увеличивается количество статей в журналах: сейчас ежегодно публикуется около 3 млн. статей. Книг за последние 25 лет выпущено почти столько же, сколько за предшествующие 500 лет.
В настоящее время одно поколение читает научных и технических документов в десять раз больше, чем их прочитали за всю историю цивилизации! Однако не вся информация, накопленная человечеством, содержится в общедоступных печатных изданиях. Более половины ее приходится на долю так называемых непубликуемых источников – отчетов, докладов, меморандумов и т.д. Накоплены огромные объемы информации, которая хранится на магнитных лентах, микрофильмах, формулярах и т.д. Тысячи тонн магнитных лент и микрофильмов, содержащих геофизические, метеорологические, океанографические, медицинские данные, возможно, никогда не будут использованы.
Но, может быть, растущее количество людей, занимающихся обработкой информации, дает нам надежду на улучшение положения в будущем. Вероятно, нет. Население земного шара удваивается примерно каждые 45 лет, число ученых – каждые 15 лет, научно техническая информация – каждые 10...15 лет. Поэтому если бы со временем все население Земли было представлено учеными, то, вероятно, и они не смогли бы усвоить полностью информацию о новых достижениях науки, не говоря уже о ранее накопленном опыте.
Рассмотрим еще один пример, иллюстрирующий «механизм» информационного взрыва. Представим себе, что на каком-то предприятии имеется три подразделения, которые сообщаются между собой при помощи трех информационных каналов. С вводом нового подразделения количество информационных каналов (связей) на предприятии удваивается новое подразделение должно быть связано с каждым из имеющихся. Предполагая, что между подразделениями предприятия циркулируют примерно равные объемы информации, приходим к выводу, что объем информации возрос в 2 раза.
Дальнейшее увеличение числа подразделений неизменно сопровождается опережающим ростом объемов информации, циркулирующей между ними. Академиком А.А. Харкевичем было доказано, что информация растет, по крайней мере, вдвое быстрее промышленного потенциала.
Основную опасность таят в себе не потоки информации сами по себе, а их соотношение с возможностями человека по их обработке. И так как информационный взрыв изменил это соотношение не в пользу человека, то наступил информационный кризис. С одной стороны, по мнению Х. Арнтца, тот, кто желает человечеству счастливого будущего, может только приветствовать дальнейший прогресс, а следовательно, и все более интенсивный рост информации. С другой стороны, информация становится поистине мучительной ношей. Лавина информации столь сокрушительна, что человек просто капитулирует, не в силах ее переработать Его интерес к информации ослабевает, а та информация, которую ему предлагают, рассматривается им не как жизненно важная помощь, а как дополнительное затруднение.
Хотя дальнейший прогресс человечества немыслим без возрастания объемов информации, тот же рост ее становится и помехой прогрессу! В этом суть информационного кризиса Быстро увеличивающиеся потоки информации все труднее обрабатывать, а следовательно, и использовать. В результате обычным явлением стало дублирование разработок.
Как преодолеть информационный кризис? Чем в результате станет для нас искусство владения информацией добром или злом, источником силы и залогом нашей уверенности в будущем или источником дополни тельных и немалых – затруднений?
Теперь самое время задать вопрос: а что такое информация? Что мы знаем о ней? Можно ли сформулировать определение информации? В настоящее время человечество, столкнувшись с первыми проявлениями информационного взрыва, занялось изучением сущности понятия информации и ее свойств. Однако на сегодняшний день мы не можем сказать, что знаем все или почти все об информации Долгое время – тысячелетиями – люди накапливали информацию, вооружались знаниями, не задумываясь, как это происходит. Теперь дальнейшее овладение знаниями невозможно без пристального изучения этого процесса. Оказалось, что нам нужны не просто знания и не просто информация. Нам необходимы знания о знании и информация об информации. В результате появилось множество научных дисциплин, изучающих различные аспекты понятия информации, все, что так или иначе связано с этим понятием. И первые результаты этого развернутого «наступления на информацию» дают возможность предполагать, что информационный кризис будет преодолен.







Что же такое информация?
Немного теории...
Слово «информация» происходит от латинского – разъяснение, изложение, осведомленность. В течение многих веков понятие информации не раз претерпевало изменения, то расширяя, то предельно сужая свои границы. Сначала под этим словом понимали «представление», «понятие», затем – «сведения», «передачу сообщений». В XX в. бурное развитие получили всевозможные средства связи (телефон, телеграф, радио), назначение которых заключалось в передаче сообщений. Однако эксплуатация их выдвинула ряд проблем: как обеспечить надежность связи при наличии помех, какой способ кодирования сообщения применять в том или ином случае, как закодировать сообщение, чтобы при минимальной его длине обеспечить передачу смысла с определенной степенью надежности. Эти проблемы требовали разработки теории передачи сообщений, иными словами, теории информации. Одним из основных вопросов этой теории был вопрос о возможности измерения количества информации.
Попытки количественного измерения информации предпринимались неоднократно. Первые отчетливые предложения об общих способах измерения количества информации были сделаны Р. Фишером (1921 г.) в процессе решения вопросов математической статистики. Проблемами хранения информации, передачи ее по каналам связи и задачами определения количества информации занимались Р. Хартли (1928 г.) и X. Найквист (1924 г.). Р. Хартли заложил основы теории информации, определив меру количества информации для некоторых задач. Наиболее убедительно эти вопросы были разработаны и обобщены американским инженером Клодом Шенноном в 1948 г. С этого времени началось интенсивное развитие теории информации вообще и углубленное исследование вопроса об измерении ее количества в частности.
Для того чтобы применить математические средства для изучения информации, потребовалось отвлечься от смысла, содержания информации. Этот подход был общим для упомянутых нами исследователей, так как чистая математика оперирует с количественными соотношениями, не вдаваясь в физическую природу тех объектов, за которыми стоят соотношения. Например, если находится сумма двух чисел 5 и 10, то она в равной мере будет справедлива для любых объектов, определяемых этими числами. Поэтому, если смысл выхолощен из сообщений, то отправной точкой для информационной оценки события остается только множество отличных друг от друга событий и соответственно сообщений о них.
Предположим, нас интересует следующая информация о состоянии некоторых объектов: в каком из четырех возможных состояний (твердое, жидкое, газообразное, плазма) находится некоторое вещество? на каком из четырех курсов техникума учится студент?
Во всех этих случаях имеет место неопределенность интересующего нас события, характеризующаяся наличием выбора одной из четырех возможностей. Если в ответах на приведенные вопросы отвлечься от их смысла, то оба ответа будут нести одинаковое количество информации, так как каждый из них выделяет одно из четырех возможных состояний объекта и, следовательно, снимает одну и ту же неопределенность сообщения.
Неопределенность неотъемлема от понятия вероятности. Уменьшение неопределенности всегда связано с выбором (отбором) одного или нескольких элементов (альтернатив) из некоторой их совокупности. Такая взаимная обратимость понятий вероятности и неопределенности послужила основой для использования понятия вероятности при измерении степени неопределенности в теории информации. Если предположить, что любой из четырех ответов на вопросы равновероятен, то его вероятность во всех вопросах равна 1/4. Одинаковая вероятность ответов в этом примере обусловливает и равную неопределенность, снимаемую ответом в каждом из двух вопросов, и, следовательно, каждый ответ несет одинаковую информацию.
Теперь попробуем сравнить следующие два вопроса: на каком из четырех курсов техникума учится студент? Как упадет монета при подбрасывании: вверх «гербом» или «цифрой»? В первом случае возможны четыре равновероятных ответа, во втором – два. Следовательно, вероятность какого-то ответа во втором случае больше, чем в первом (1/2 > 1/4), в то время как неопределенность, снимаемая ответами, больше в первом случае. Любой из возможных ответов на первый вопрос снимает большую неопределенность, чем любой ответ на второй вопрос. Поэтому ответ на первый вопрос несет больше информации! Следовательно, чем меньше вероятность какого-либо события, тем большую неопределенность снимает сообщение о его появлении и, следовательно, тем большую информацию оно несет.
Предположим, что какое-то событие имеет m равновероятных исходов. Таким событием может быть, например, появление любого символа из алфавита, содержащего m таких символов. Как измерить количество информации, которое может быть передано при помощи такого алфавита? Это можно сделать, определив число N возможных сообщений, которые могут быть переданы при помощи этого алфавита. Если сообщение формируется из одного символа, то N = m, если из двух, то N = m · m = m2. Если сообщение содержит n символов (n – длина сообщения), то N = mn. Казалось бы, искомая мера количества информации найдена. Ее можно понимать как меру неопределенности исхода опыта, если под опытом подразумевать случайный выбор какого-либо сообщения из некоторого числа возможных. Однако эта мера не совсем удобна. При наличии алфавита, состоящего из одного символа, т.е. когда m = 1, возможно появление только этого символа. Следовательно, неопределенности в этом случае не существует, и появление этого символа не несет никакой информации. Между тем, значение N при m = 1 не обращается в нуль. Для двух независимых источников сообщений (или алфавита) с N1 и N2 числом возможных сообщений общее число возможных сообщений N = N1N2, в то время как логичнее было бы считать, что количество информации, получаемое от двух независимых источников, должно быть не произведением, а суммой составляющих величин.
Выход из положения был найден Р. Хартли, который предложил информацию I, приходящуюся на одно сообщение, определять логарифмом общего числа возможных сообщений N:
I (N) = log N
(1)
Если же все множество возможных сообщений состоит из одного (N = m = 1), то I (N) = log 1 = 0, что соответствует отсутствию информации в этом случае. При наличии независимых источников информации с N1 и N2 числом возможных сообщений
I (N) = log N = log N1N2 = log N1 + log N2,
т.е. количество информации, приходящееся на одно сообщение, равно сумме количеств информации, которые были бы получены от двух независимых источников, взятых порознь. Формула, предложенная Хартли, удовлетворяет предъявленным требованиям. Поэтому ее можно использовать для измерения количества информации.
Если возможность появления любого символа алфавита равновероятна (а мы до сих пор предполагали, что это именно так), то эта вероятность р = 1/m. Полагая, что N = m,
I = log N = log m = log (1/p) = – log p,
(2)
т.е. количество информации на каждый равновероятный сигнал равно минус логарифму вероятности отдельного сигнала.
Полученная формула позволяет для некоторых случаев определить количество информации. Однако для практических целей необходимо задаться единицей его измерения. Для этого предположим, что информация – это устраненная неопределенность. Тогда в простейшем случае неопределенности выбор будет производиться между двумя взаимоисключающими друг друга равновероятными сообщениями, например между двумя качественными признаками: положительным и отрицательным импульсами, импульсом и паузой и т.п. Количество информации, переданное в этом простейшем случае, наиболее удобно принять за единицу количества информации. Именно такое количество информации может быть получено, если применить формулу (2) и взять логарифм по основанию 2. Тогда
I = – log2 p = – log2 1/2 = log2 2 = 1.
Полученная единица количества информации, представляющая собой выбор из двух равновероятных событий, получила название двоичной единицы, или бита. Название bit образовано из двух начальных и последней букв английского выражения binary unit, что значит двоичная единица. Бит является не только единицей количества информации, но и единицей измерения степени неопределенности. При этом имеется в виду неопределенность, которая содержится в одном опыте, имеющем два равновероятных исхода.
На количество информации, получаемой из сообщения, влияет фактор неожиданности его для получателя, который зависит от вероятности получения того или иного сообщения. Чем меньше эта вероятность, тем сообщение более неожиданно и, следовательно, более информативно. Сообщение, вероятность которого высока и, соответственно, низка степень неожиданности, несет немного информации.
Р. Хартли понимал, что сообщения имеют различную вероятность и, следовательно, неожиданность их появления для получателя неодинакова. Но, определяя количество информации, он пытался полностью исключить фактор «неожиданности». Поэтому формула Хартли позволяет определить количество информации в сообщении только для случая, когда появление символов равновероятно и они статистически независимы. На практике эти условия выполняются редко. При определении количества информации необходимо учитывать не только количество разнообразных сообщений, которые можно получить от источника, но и вероятность их получения.
Наиболее широкое распространение при определении среднего количества информации, которое содержится в сообщениях от источников самой разной природы, получил подход. К Шеннона. Рассмотрим следующую ситуацию.
Источник передает элементарные сигналы k различных типов. Проследим за достаточно длинным отрезком сообщения. Пусть в нем имеется N1 сигналов первого типа, N2 сигналов второго типа, ..., Nk сигналов k-го типа, причем N1 + N2 + ... + Nk = N – общее число сигналов в наблюдаемом отрезке, f1, f2, ..., fk – частоты соответствующих сигналов. При возрастании длины отрезка сообщения каждая из частот стремится к фиксированному пределу, т.е.
lim fi = pi, (i = 1, 2, ..., k),
где рi можно считать вероятностью сигнала. Предположим, получен сигнал i-го типа с вероятностью рi, содержащий – log pi единиц информации. В рассматриваемом отрезке i-й сигнал встретится примерно Npi раз (будем считать, что N достаточно велико), и общая информация, доставленная сигналами этого типа, будет равна произведению Npi log рi. То же относится к сигналам любого другого типа, поэтому полное количество информации, доставленное отрезком из N сигналов, будет примерно равно

Чтобы определить среднее количество информации, приходящееся на один сигнал, т.е. удельную информативность источника, нужно это число разделить на N. При неограниченном росте приблизительное равенство перейдет в точное. В результате будет получено асимптотическое соотношение – формула Шеннона

В последнее время она стала не менее распространенной, чем знаменитая формула Эйнштейна Е = mc2. Оказалось, что формула, предложенная Хартли, представляет собой частный случай более общей формулы Шеннона. Если в формуле Шеннона принять, что
р1 = p2 = ... = рi = ... =pN = 1/N, то

Знак минус в формуле Шеннона не означает, что количество информации в сообщении – отрицательная величина. Объясняется это тем, что вероятность р, согласно определению, меньше единицы, но больше нуля. Так как логарифм числа, меньшего единицы, т.е. log pi – величина отрицательная, то произведение вероятности на логарифм числа будет положительным.
Кроме этой формулы, Шенноном была предложена абстрактная схема связи, состоящая из пяти элементов (источника информации, передатчика, линии связи, приемника и адресата), и сформулированы теоремы о пропускной способности, помехоустойчивости, кодировании и т.д.
В результате развития теории информации и ее приложений идеи Шеннона быстро распространяли свое влияние на самые различные области знаний. Было замечено, что формула Шеннона очень похожа на используемую в физике формулу энтропии, выведенную Больцманом. Энтропия обозначает степень неупорядоченности статистических форм движения молекул. Энтропия максимальна при равновероятном распределении параметров движения молекул (направлении, скорости и пространственном положении). Значение энтропии уменьшается, если движение молекул упорядочить. По мере увеличения упорядоченности движения энтропия стремится к нулю (например, когда возможно только одно значение и направление скорости). При составлении какого-либо сообщения (текста) с помощью энтропии можно характеризовать степень неупорядоченности движения (чередования) символов. Текст с максимальной энтропией – это текст с равновероятным распределением всех букв алфавита, т.е. с бессмысленным чередованием букв, например: ЙХЗЦЗЦЩУЩУШК ШГЕНЕЭФЖЫЫДВЛВЛОАРАПАЯЕЯЮЧБ СБСЬМ. Если при составлении текста учтена реальная вероятность букв, то в получаемых таким образом «фразах» будет наблюдаться определенная упорядоченность движения букв, регламентируемая частотой их появления: ЕЫТ ЦИЯЬА ОКРВ ОДНТ ЬЧЕ МЛОЦК ЗЬЯ ЕНВ ТША.
При учете вероятностей четырехбуквенных сочетаний текст становится настолько упорядоченным, что по некоторым формальным признакам приближается к осмысленному: ВЕСЕЛ ВРАТЬСЯ НЕ СУХОМ И НЕПО И КОРКО. Причиной такой упорядоченности в данном случае является информация о статистических закономерностях текстов. В осмысленных текстах упорядоченность, естественно, еще выше. Так, в фразе ПРИШЛ... ВЕСНА мы имеем еще больше информации о движении (чередовании) букв. Таким образом, от текста к тексту увеличиваются упорядоченность и информация, которой мы располагаем о тексте, а энтропия (мера неупорядоченности) уменьшается.
Используя различие формул количества информации Шеннона и энтропии Больцмана (разные знаки), Л. Бриллюэн охарактеризовал информацию как отрицательную энтропию, или негэнтропию. Так как энтропия является мерой неупорядоченности, то информация может быть определена как мера упорядоченности материальных систем.
В связи с тем, что внешний вид формул совпадает, можно предположить, что понятие информация ничего не добавляет к понятию энтропии. Однако это не так. Если понятие энтропии применялось ранее только для систем, стремящихся к термодинамическому равновесию, т.е. к максимальному беспорядку в движении ее составляющих, к увеличению энтропии, то понятие информации обратило внимание и на те системы, которые не увеличивают энтропию, а наоборот, находясь в состоянии с небольшими значениями энтропии, стремятся к ее дальнейшему уменьшению.
Теория информации «переросла» рамки поставленных первоначально перед ней задач. Ее начали применять к более широкому кругу явлений. Увеличение количества информации стали связывать с повышением сложности системы, с ее прогрессивным развитием. Так, по данным некоторых исследований, при переходе от атомного уровня к молекулярному количество информации увеличивается в 103 раза. Количество информации, относящейся к организму человека, примерно в 1011 раз больше информации, содержащейся в одноклеточном организме.
Процесс развития в определенном аспекте можно моделировать, используя процесс передачи информации. Применение информационной модели развития дает возможность прояснить механизм прогресса с учетом усложнения, упорядочения и повышения степени организации материальных систем.
Трудно переоценить значение идей теории информации в развитии самых разнообразных научных областей.
Однако, по мнению К. Шеннона, все нерешенные проблемы не могут быть решены при помощи таких магических слов, как «информация», «энтропия», «избыточность»
Теория информации основана на вероятностных, статистических закономерностях явлений. Она дает полезный, но не универсальный аппарат. Поэтому множество ситуаций не укладываются в информационную модель Шеннона. Не всегда представляется возможным заранее установить перечень всех состояний системы и вычислить их вероятности. Кроме того, в теории информации рассматривается только формальная сторона сообщения, в то время как смысл его остается в стороне. Например, система радиолокационных станций ведет наблюдение за воздушным пространством с целью обнаружения самолета противника Система S, за которой ведется наблюдение, может быть в одном из двух состояний x1 – противник есть, x2 – противника нет. Важность первого сообщения нельзя оценить с помощью вероятностного подхода. Этот подход и основанная на нем мера количества информации выражают, прежде всего, «структурно-синтаксическую» сторону ее передачи, т.е. выражают отношения сигналов. Однако понятия «вероятность», «неопределенность», с которыми связано понятие информации, предполагают процесс выбора. Этот процесс может быть осуществлен только при наличии множества возможностей. Без этого условия, как можно предположить, передача информации невозможна.
Рассмотрим пример Р. Эшби. Заключенного должна навестить жена Сторож знает, что она хочет сообщить мужу, пойман ли его сообщник. Ей не разрешено делать никаких сообщений. Но сторож подозревает, что они договорились о каком-то условном знаке. Вот она просит послать мужу чашечку кофе. Как сторож может добиться, чтобы сообщение не было передано? Он рассуждает так: может быть, она условилась передать ему сладкий чай или несладкий кофе, тогда я могу помешать им, добавив в кофе сахару и сказав об этом заключенному. Может быть, она условилась послать или не послать ему ложку, тогда я могу изъять ложку и сказать ему, что передача ложек воспрещена. Она может послать ему не кофе, а чай, но все знают, что в это время выдается только кофе. И сторож, стремясь пресечь всякую возможность связи, сводит все возможности к одной – только кофе, только с сахаром, только без ложки. Если все возможности сведены к одной, связь прерывается, и посылаемый напиток лишен возможности передать информацию.
Р. Эшби осуществил переход от толкования информации как «снятой» неопределенности к «снятой» неразличимости. Он считал, что информация есть там, где имеется (дано или выявляется) разнообразие, неоднородность. В данном случае единицей измерения информации может быть элементарное различие, т.е. различие между двумя объектами в каком-либо одном фиксированном свойстве. Чем больше в некотором объекте отличных (в строго определенном смысле) друг от друга элементов, тем больше этот объект содержит информации. Информация есть там, где имеется различие хотя бы между двумя элементами. Информации нет, если элементы неразличимы.
В середине 50-х годов, используя материал статистической теории информации, Р. Эшби изложил концепцию разнообразия, согласно которой под разнообразием следует подразумевать характеристику элементов множества, заключающуюся в их несовпадении. Так, множество, в котором все элементы одинаковы (допустим, это последовательность а, а, а, и т.д.), по мнению Эшби, не имеет «никакого» разнообразия, ибо все его элементы одного типа. Если разнообразие его измерить логарифмически, то получим логарифм единицы (единица означает однотипность элементов множества) – нуль. Множество с таким разнообразием соответствует единичной вероятности выбора элемента, т.е. какой элемент множества не был бы выбран, он будет одного и того же типа. Суть концепции разнообразия, по Эшби, заключается в утверждении, что теория информации изучает процессы «передачи разнообразия» по каналам связи, причем «информация не может передаваться в большем количестве, чем это позволяет количество разнообразия».
Исходя из идей основоположника кибернетики Н. Винера и результатов, полученных К. Шенноном, Эшби открыл закон, названный законом необходимого разнообразия, который так же, как закон Шеннона для процессов связи, может быть общим для процессов управления. Суть этого закона состоит в следующем. Для управления состоянием кибернетической системы нужен регулятор, ограничивающий разнообразие возмущений, которые могут разрушить систему. При этом регулятор допускает такое их разнообразие, которое необходимо и полезно для системы.
При допустимом разнообразии состояний кибернетической системы Рc и разнообразии возмущений Рв количество разнообразия регулятора Рр=Рв/Рc. Эта формула является одной из количественных форм выражения закона необходимого разнообразия. В логарифмической форме этот закон имеет вид
log Pp = log Рв/Рc или log Pp = log Рв – log Рc.
Обозначив соответствующие логарифмы разнообразия как информационные содержания систем, получим Iв = Iр + Iс. Из формулы следует, что сумма информационных содержаний системы и регулятора равна информационному содержанию внешних возмущений.
Регулирование, возмущения – это термины, связанные с процессом управления. Поэтому закон необходимого разнообразия является одним из основных в кибернетике – науке об управлении.
Если в начале книги понятие информации рассматривалось применительно только к процессам связи, а затем использовалось для характеристики сложности и упорядоченности материальных систем, то теперь уже речь идет об управлении ими! Впитывая всевозможные взгляды и концепции, понятие информации становится более емким и «дорастает» до уровня философских категорий – самых общих понятий, которыми только можно оперировать вообще! Если, например, понятие информации связывать с разнообразием, что вполне правомерно, то причиной существующего в природе разнообразия, по мнению академика В.М. Глушкова, можно считать неоднородность в распределении энергии (или вещества) в пространстве и во времени. Информацию же В.М. Глушков характеризует как меру этой неоднородности Информация существует постольку, поскольку существуют сами материальные тела и, следовательно, созданные ими неоднородности Всякая неоднородность несет с собой какую-то информацию.
С понятием информации в кибернетике не связано свойство ее осмысленности в обычном житейском понимании. Многие специалисты считают, что информация охватывает как сведения, которыми люди обмениваются между собой, так и сведения, существующие независимо от людей. Например, звезды существуют независимо от того, имеют люди информацию о них или нет. Существуя объективно, они создают неоднородность в распределении вещества и поэтому являются источниками информации.
В данном случае понятие информации определяется уже на уровне таких изначальных понятий философии, как материя и энергия. По мнению В.М. Глушкова, информация независима от нашего сознания. Ее объективный характер основан на объективности существования ее источника – разнообразия. Для того чтобы построить строгую теорию информации, К. Шеннону пришлось отвлечься от ее смысла. В.М. Глушков развивает этот подход, предлагая очень общее и емкое понятие информации и подчеркивая при этом ее независимость от получателя, что оставляет в стороне и смысловую сторону информации.
Очень близка к «разнообразностной» трактовке информации идея алгоритмического измерения ее количества, выдвинутая в 1965 г. А.Н. Колмогоровым. Суть ее заключается в том, что количество информации определяется как минимальная длина программы, позволяющей преобразовать один объект (множество) в другой (множество). Чем больше различаются два объекта между собой, тем сложнее (длиннее) программа перехода от одного объекта к другому. Так, воспроизвести последовательность букв а, а,..., а можно при помощи очень простой программы. Несколько большей окажется длина программы, восстанавливающей последовательность а, в, с, а, в, с,... Длина программы при этом измеряется количеством команд (операций), позволяющих воспроизвести последовательность. Этот подход, в отличие от подхода Шеннона, не базирующийся на понятии вероятности, позволяет, например, определить прирост количества информации, содержащейся в результатах расчета, по сравнению с исходными данными. Вероятностная теория информации на этот вопрос не может дать удовлетворительного ответа.
До сих пор мы рассматривали подходы, связанные с количественным аспектом понятия информации без учета смысловой стороны информации. Эти подходы позволили привлечь к изучению информации точные математические методы. В результате были созданы всевозможные кибернетические устройства (понятие информации является центральным в кибернетике), вычислительные машины и пр. Все это стало возможным благодаря достижениям теории информации. Человек научился ее преобразовывать, кодировать и передавать на огромные расстояния с непостижимой точностью.
Классическая теория информации Шеннона, значительно дополненная и обогащенная новыми подходами, все же не может охватить всего многообразия понятия информации и, в первую очередь, ее содержательного аспекта. Теория информации К. Шеннона также не занимается определением ценности информации. Количество информации ее интересует лишь с точки зрения возможности передачи данных сообщении оптимальным образом.
В нашей стране и за рубежом ведутся интенсивные и серьезные исследования в области машинного перевода. Однако, если перевод технических текстов уже стал на сегодняшний день реальностью, то с переводом художественной литературы, несравненно более богатой смысловыми оттенками, подтекстом, образными выражениями, компьютеры справляются пока гораздо хуже.
Попытки оценить не только количественную, но и содержательную сторону информации дали толчок к развитию семантической (смысловой) теории информации. Исследования в этой области теснее всего связаны с семиотикой – теорией знаковых систем. Одним из важнейших свойств информации, которое мы можем наблюдать, является ее неотделимость от носителя: во всех случаях, когда мы сталкиваемся с любыми сообщениями, эти сообщения выражены некоторыми знаками, словами, языками Семиотика исследует знаки как особый вид носителей информации. При этом знаком является условное изображение элемента сообщения, словом – совокупность знаков, имеющих смысловое значение, языком – словарь и правила пользования им. Таким образом, рассуждая о количестве, содержании и ценности информации, содержащейся в сообщении, можно исходить из возможностей соответствующего анализа знаковых структур.
В качестве знаковых систем используются естественные и искусственные языки, в том числе информационные и языки программирования, различные системы сигнализации, логические, математические и химические символы. Они служат средством обмена информацией между высокоорганизованными системами (способными к обучению и самоорганизации). Примером могут быть живые организмы, машины с определенными свойствами.
Рассматривая знаковые системы, выделяют три основных аспекта их изучения: синтактику, семантику и прагматику.
Синтактика изучает синтаксис знаковых структур, т.е. способы сочетаний знаков, правила образования этих сочетаний и их преобразований безотносительно к их значениям. Отметим в связи с этим, что рассматриваемые ранее способы определения количества информации можно отнести к синтаксическим способам.
Семантика изучает знаковые системы как средства выражения смысла, определенного содержания, т.е. правила интерпретации знаков и их сочетаний, смысловую сторону языка.
Прагматика рассматривает соотношение между знаковыми системами и их пользователями, или приемниками-интерпретаторами сообщений. Иными словами, к прагматике относится изучение практической полезности знаков, слов и, следовательно, сообщений, т.е. потребительской стороны языка.
Основная идея семантической концепции информации заключается в возможности измерения содержания (предметного значения) суждений. Но содержание всегда связано с формой, поэтому синтаксические и семантические свойства информации взаимосвязаны, хотя и различны. Получается, что содержание все-таки можно измерить через форму, т.е. семантические свойства информации выразить через синтаксические. Поэтому и исследования семантики базировались на понятии информации как уменьшении или устранении неопределенности, с которым мы уже знакомы.
Сразу же заметим, что методы точного количественного определения смыслового содержания информации в настоящее время еще не разработаны, поэтому мы ограничимся только кратким описанием подходов к решению этой проблемы.
Первую попытку построения теории семантической информации предприняли Р. Карнап и И. Бар-Хиллел. Они положили начало применению идей и методов символической логики и логической семантики к анализу информационного содержания языка науки. Р. Карнап и И. Бар-Хиллел предложили определять величину семантической информации посредством так называемой логической вероятности, которая представляет собой степень подтверждения той или иной гипотезы. При этом количество семантической информации, содержащейся в сообщении, возрастает по мере уменьшения степени подтверждения априорной гипотезы. Если вся гипотеза построена на эмпирических данных, полностью подтверждаемых сообщением, то такое сообщение не приносит получателю никаких новых сведений. Логическая вероятность гипотезы при этом равна единице, а семантическая информация оказывается равной нулю. Гипотеза здесь полностью вытекает из данных опыта. И наоборот, по мере уменьшения степени подтверждения гипотезы, или запаса знаний, количество семантической информации, доставляемой сообщением, возрастает. Чем больше логическая вероятность высказывания, тем меньше должна быть мера его содержания, т.е. чем больше описаний состояния «разрешает» то или иное высказывание, тем меньше должна быть его семантическая информативность и, наоборот, чем больше описаний состояния им исключается, тем больше должна быть его информативность. Таким образом, семантико-информационное содержание высказывания определяется не тем, что содержит данное высказывание, а тем, что оно исключает.
Концепция Карнапа – Бар-Хиллела, получившая впоследствии развитие в трудах Кемени, является только началом исследований в области измерения содержания передаваемой информации. Эта концепция позволяет, например, выявить связь гипотезы с начальным достоверным значением, в частности, сделать заключение о степени подтверждения гипотезы.
Финский ученый Я. Хинтикка распространил основные идеи семантической теории информации Карнапа и Бар-Хиллела на логику высказываний. Для многих ситуаций (наблюдения, измерения, подтверждения гипотезы, научного предсказания, объяснения) он предложил метод определения уменьшения неопределенности, которое, например, претерпевает гипотеза g после получения того или иного эмпирического факта h или вообще изменения информационного содержания высказывания g при получении высказывания h.
Однако, несмотря на определенные достижения, концепция Карнапа – Бар-Хиллела оказалась малопригодной для анализа содержания естественного языка. Эта теория, основанная на вероятностной логике, неприменима к анализу основного массива научного знания – достоверного знания. С точки зрения указанной теории, например, высказывание «На Луне есть нефть» содержит информацию, а высказывание «На Земле есть нефть» лишено информации, поскольку это достоверное знание. Такая ситуация представлялась довольно парадоксальной!
Подчеркнем еще раз в связи с этим, что семантическая теория информации еще молода и делает лишь первые шаги. Некоторые исследователи, например, советский ученый Е.К. Войшвилло, становятся на путь синтеза статистического (Шеннон) и логико-семантического (Карнап, Бар-Хиллел) подходов к информации.
Об одной очень интересной модели семантической информации мы расскажем ниже, а сейчас рассмотрим прагматические концепции информации.
Изучение отношений между знаками и их потребителями с точки зрения использования получаемой информации и влияния знаков на поведение систем составляет основу прагматической теории информации. Для всех подходов здесь характерно стремление связать понятие прагматической информации с целью, целенаправленным поведением и выдвинуть те или иные количественные меры ценности информации.
Исходя из этих соображений, А.А. Харкевич предложил связать меру ценности информации с изменением вероятности достижения цели при получении этой информации:
I = log (p1/p0) = log p1 – log p0,
где р0 и р1 – вероятность достижения цели соответственно до и после получения информации.
А.А. Харкевич первым подчеркнул фундаментальный характер связи прагматических свойств информации с категорией цели, понимаемой как опережающее отражение, модель будущего результата деятельности.
Другой подход к проблеме ценности информации осуществлен М.М. Бонгардом. Он вводит понятие «полезная информация», связывая сообщение с тем, какую задачу решает получатель, что он знает до прихода сообщения и как его истолковывает. Этот подход имеет вероятностно-алгебраическую сущность и носит более общий характер, чем подход, предложенный А.А. Харкевичем.
Значительную роль в развитии прагматической теории информации сыграли работы американского логика Д. Харраха, поставившего перед собой цель показать, как символическая логика и теория семантической информации могут быть использованы для анализа некоторых аспектов человеческой коммуникации. Эту цель он пытается достигнуть путем создания «модели того, как разумный получатель оценивает последовательность сообщений на основе определенных семантических и прагматических свойств». Харрах предлагает обеспечить получателя «программой обработки сообщений», с помощью которой извлекается из получаемых сообщений «годная к употреблению сумма сообщений». Именно к этому результату переработки сообщений, а не к сообщениям в их первоначальной форме могут быть применены количественные меры информации. Созданная Харрахом логическая модель коммуникации служит тем языковым каркасом, в рамках которого программа может быть образована и применена.
Следует отметить, что прагматические и семантические оценки зачастую трудно разделить. В некоторых случаях они сливаются. В самом деле, семантические оценки характеризуют смысл, содержательность сообщений, а прагматические – их ценность, полезность. Но совершенно очевидно, что бессодержательные сообщения не могут быть полезными.
Как семантические, так и прагматические теории информации могут быть практически применены пока только к очень небольшому числу явлений реальной действительности. Но не следует забывать, что они имеют еще и теоретическое значение. В борьбе идей, мнений, гипотез и выводов, в их соперничестве и сотрудничестве рождается истина.
По каждому из перечисленных направлений исследований в теории информации написано много трудов. Несмотря на это, фронт наступления на понятие информации широк: его пристально изучают философы, биологи, физики, математики. Исследования, проводимые в разных направлениях, способствуют углублению понятия информации, подчеркивая в нем оттенки, специфичные для той или иной области знаний Огромна практическая ценность полученных результатов.
Однако, что же такое информация? Можно ли ей дать одно исчерпывающее определение?
Это сложное простое понятие!
Каждое из рассмотренных нами определений информации имеет несколько аспектов. Каждое из них связано с определенной мерой количества информации. Для того чтобы объединить их, попытаемся каждое из определений представить в наиболее общем виде. Рассмотрим понятие информации как сраженного разнообразия. Источником разнообразия, по мнению В.М. Глушкова, является неоднородность распределения материи и энергии в пространстве и во времени. Отсюда и определение, данное В.М. Глушковым: информация – это мера неоднородности распределения материи и энергии в пространстве и во времени, показатель изменений, которыми сопровождаются все происходящие в мире процессы. Если теперь перейти к более общему определению, то можно считать информацию свойством материи.
Теперь рассмотрим другое определение информации: «информация – мера упорядоченности». Это определение также является одним из вариантов «разнообразностного» ее понимания. Упорядоченность всегда связана с ограничением разнообразия, которое мы можем понимать как управление. Действительно, управлять системой – значит ограничивать ее разнообразие. Ограничение разнообразия связано с получением информации. Управление невозможно без информационных процессов. Но имеет ли смысл говорить об управлении, когда речь идет о процессах, происходящих в неживой природе? Поскольку у объектов неживой природы не может быть целей, то говорить об управлении и, следовательно, об информации, когда речь идет о неживой природе, не имеет смысла. Управление и, следовательно, информационные процессы имеют место только в кибернетических и биологических системах. Поэтому понятие информации можно связывать только с объектами живой природы, а также с объектами, созданными руками человека. Обобщая сказанное, можно сделать вывод, что информация является свойством только живой материи.
В настоящее время, таким образом, существует довольно сложная и разветвленная система теорий, методов и идей, связанных с понятием информации. Однако принцип единства материального мира заставляет все-таки искать общее определение этого понятия. На основе изучения высших форм отражения В.И. Ленин выдвинул гипотезу о том, что вся материя обладает свойством, по существу родственным с ощущением, свойством отражения, тем самым наметив диалектическую связь между процессами отражения, имеющими место в неживой природе, и ощущением, свойственным живому миру. Развивая эту гипотезу, советские философы обратили внимание на связь понятий информации и отражения. По сути дела, информация может применительно к живому восприниматься как «опережающее» отражение действительности, на котором строится взаимодействие живого организма с окружающим миром и все свойственные живому процессы управления.
Указывая на различие живой и неживой материи, В.И. Ленин призывал искать и связь между этими формами ее существования. «Исследовать и исследовать, каким образом связывается материя, якобы не ощущающая вовсе, с материей из тех же атомов (или электронов) составленной и в то же время обладающей ясно выраженной способностью ощущения. Материализм ясно ставит нерешенный еще вопрос и тем толкает его к разрешению» – писал В.И. Ленин.
Интенсивными исследованиями представителей самых разнообразных наук – от математики и физики до биологии и философии – шаг за шагом собирается воедино образ, пожалуй, самого исключительного феномена в истории науки – понятия информации.







Наука о научной информации
В поисках «виновника» кризиса
Если понимать информацию в обычном, «житейском» смысле – как сведения, сообщения, представления, то даже при таком ограниченном ее толковании можно сделать полезные наблюдения.
Прежде всего обратим внимание на то, что информационная нагрузка распределяется среди членов общества неравномерно, т.е. информационный кризис ощущается ими в разной степени. И эта степень зависит от рода занятий того или иного человека, от его профессии. Рассмотрим, кто испытывает постоянную необходимость новой информации, кто страдает от ее избытка.
В первую очередь, это, конечно, ученые и специалисты Они как научный авангард человечества принимают на себя основной удар информационного кризиса. Но почему именно они и почему именно в наше время, а не, к примеру, столетие или два назад?
Научный труд как разновидность человеческого труда обладает весьма интересным свойством предметом его, равно, как и результатом, является информация. Поскольку мы наблюдаем становление науки как непосредственной производительной силы, то можно заметить и сопутствующее этому процессу явление сближения производственных и информационных потребностей, т.е. информационные потребности ученых или специалистов все больше приобретают характер потребностей производственных. Можно наблюдать и обратное: производственные потребности все в большей степени становятся потребностями информационными. Научная информация становится, таким образом, важнейшим элементом общественного производства. Следствием этой все возрастающей важности являются и огромная численность ученых (это не «прихоть» общества, а отражение его практических потребностей!), и тот факт, что именно ученые и специалисты больше других подвержены влиянию информационного кризиса.
Нам могут возразить, что не только ученые и специалисты, но и самые широкие слои населения планеты испытывают влияние возросших потоков информации благодаря развитию средств массовой информации, например, телевидения.
Наша информационная нагрузка в быту – это только надводная часть айсберга. Подводная его часть – информация, циркулирующая в сфере науки и производства. Именно в этой сфере находятся истоки информационного кризиса, истоки, имеющие объективные исторические причины, связанные с научно-технической революцией.
Информационный взрыв и связанные с ним кризисные явления – прямое следствие научно-технической революции, превратившей науку в непосредственного участника производства. Это дает нам основания связывать информационный кризис с движением именно научной информации. И если попытаться как-то противостоять ему, то, вероятно, нужно начинать с изучения процессов создания и распространения научной информации.
Что же следует понимать под термином «научная информация»? Как определяют ее советские ученые А.И. Михайлов, А.И. Черный, Р.С. Гиляревский, научная информация – это получаемая в процессе познания логическая информация, которая адекватно отображает закономерности объективного мира и используется в общественно-исторической практике.
Из определения вытекает, что научной можно считать только ту информацию, которая удовлетворяет нескольким серьезным требованиям. Иначе, без предъявления этих требований, мы бы постоянно путались в том, является ли данная информация научной или нет. Например, два академика обсуждают организационные вопросы предстоящего международного симпозиума. Является ли информация, которой они обмениваются, научной? А если они будут обсуждать какую-либо научную статью, наконец, просто обмениваться опытом?
Чтобы ответить на подобные вопросы нам придется обратиться к определению научной информации. Оно гласит, что, во-первых, научная информация получается человеком в процессе познания, и, следовательно, неразрывно связана с его практической, производственной деятельностью, поскольку последняя является основой познания. Во-вторых, научная информация – это логическая информация, которая образуется путем обработки информации, поставляемой человеку органами чувств, при помощи абстрактно-логического мышления. Например, совокупность данных о температуре в различных точках нашей страны, не будет еще научной информацией. Информация будет научной в том случае, когда между данными будет установлена связь. При этом надо учитывать и третье условие отнесения той или иной информации к научной. Она должна адекватно отображать объективный мир. Однако выполнения этих условий не достаточно.
Чтобы информация считалась научной, она должна удовлетворять еще одному, четвертому условию: она должна непременно использоваться в общественно-исторической практике. Именно поэтому к научной информации не могут быть отнесены научно-фантастические литературные произведения. Не может считаться научной адекватная и логически обработанная информация, полученная кем-то в результате многолетних наблюдений за погодой только с той целью, чтобы выбрать себе наиболее подходящее время для отпуска. Этот пример показывает, что не всякое использование информации делает ее научной. Так, данные метеорологических наблюдений, обработанные с целью составления прогнозов погоды, согласно определению, уже представляют собой научную информацию. И если мы пришли к выводу о том, что метеорологическая информация может быть отнесена к научной информации, то, при условии выполнения перечисленных условий, к ней может быть отнесена и астрономическая, биологическая, химическая информация, т.е. информация, находящаяся в сфере компетентности любой отрасли науки.
Итак, информатика!
Поскольку информация в связи с научно-технической революцией приобрела исключительное значение в жизни общества, то вполне закономерно, что сама она с определенного времени стала объектом изучения, объектом научных исследований. Диалектико-материалистическое понимание соотношения науки и общества исходит из того, что человеческое познание в общем определяется практическими потребностями общества. Как реализация одной из этих потребностей и появилась область науки, изучающая научную информацию. Эта область науки называется информатикой. В английском языке термину «информатика» соответствует англо-американский термин «Information Science» (наука об информации).
Информатика – сравнительно молодая, бурно развивающаяся научная дисциплина. Предмет исследования ее постоянно уточняется. По этой причине разными учеными предлагались различные определения информатики.
Известные советские ученые А.И. Михайлов, А.И. Черный, Р.С. Гиляревский дают следующее определение информатики: «Информатика – это научная дисциплина, изучающая структуру и общие свойства научной информации, а также закономерности всех процессов научной коммуникации». Предметом изучения информатики по определению являются: структура и общие свойства научной информации; закономерности всех формальных и неформальных процессов научной коммуникации.
Здесь наряду с уже известным читателям понятием научной информации фигурирует и понятие, которому еще не дано определения – «научная коммуникация». Что же это такое?
Чтобы плодотворно заниматься наукой, подчеркивал Н. Винер, нужно иметь возможность обмениваться мыслями с другими учеными. Причина необходимости такого обмена, по его мнению, состоит в том, что важные исследования задерживаются из-за того, что в одной области неизвестны результаты, уже давно ставшие классическими в смежной области.
Развитие науки и техники немыслимо без процессов обмена научной информацией, которые обобщаются понятием научной коммуникации – совокупности процессов представления, передачи и получения научной информации, образующих основной механизм существования и развития науки.
Научная информация в обществе может передаваться двумя путями: либо при помощи личных контактов, личного участия ученых или специалистов в процессе передачи информации (выступление на конференции, переписка, личная беседа и т.д.), либо при помощи научно-технической литературы (т.е. помещения информации в официальных изданиях). В соответствии с этим процессы научной коммуникации делятся на неформальные и формальные. В предмет изучения информатики, таким образом, входят те и другие процессы коммуникации, так как в совокупности они представляют собой единый процесс распространения информации в обществе.
С точки зрения эффективности обмена информацией необходимо совершенствовать оба канала научной коммуникации. В большинстве случаев, однако это трудно осуществить по экономическим соображениям. В конечном итоге расходы на обеспечение процесса научной коммуникации могут превысить реальные или возможные доходы от науки в той или иной области деятельности, что недопустимо.
Рассматривая предмет информатики, мы здесь коснулись сферы компетенции экономики. И это не случайно, ибо с тех пор, как мы наблюдаем становление науки как непосредственной производительной силы, научная информация все с большим основанием представляется понятием экономическим. Это свидетельствует о сложности предмета исследований информатики, охватывающей ряд самостоятельных наук, начиная от кибернетики и теории информации и заканчивая науковедением и документалистикой.
Каковы же задачи информатики? Как и для большинства отраслей науки, их можно разделить на теоретические и прикладные. Теоретические задачи, стоящие перед данной научной дисциплиной, заключаются в выяснении закономерностей создания семантической информации, ее преобразования и использования в различных сферах деятельности человека (научная информация не может не быть семантической, т.е. смысловой!). Прикладные задачи информатики заключаются в разработке наиболее рациональных методов осуществления информационных процессов, в определении способов наиболее оптимальной организации связи как внутри науки, так и между наукой и производством, с широким применением современных технических средств. Таким образом, информатика развивается, с одной стороны, как наука, с другой, – как прикладная дисциплина.
Знакомство с определением, предметом исследования и задачами информатики приводит нас к мысли о том, что именно на долю этой дисциплины выпала честь теоретической разработки и воплощения в жизнь конкретных методов борьбы с информационным кризисом.
Зарождение и развитие информатики можно рассматривать как реакцию человечества на проявления информационного кризиса, направленную на его ослабление или, если это возможно, на его ликвидацию.
Итак, искомая область науки определена, причем для ее образования оказалось вполне достаточно традиционного понятия информации (сведения, сообщения). Значит ли это, что разнообразные теоретические концепции, связанные с понятие информации, остаются вне поля зрения информатики? Естественно, нет. С самого зарождения информатики был предопределен ее особый интерес к сущности информации как таковой, к ее природе, к определению содержания и объема понятия информации. Хотя сама эта проблема выходит за рамки информатики, являясь объектом философских исследований, информатика никак не могла остаться к ней равнодушной, без соотнесения с общим понятием информации невозможно глубокое познание одного из ее видов – информации научной. Иными словами, чтобы успешно заниматься информатикой, т.е. решать поставленные перед ней задачи, необходимо достаточно знать и об информации вообще. Вот почему в книге, посвященной информатике, так много места уделено вопросам, не относящимся к информатике непосредственно, но, по нашему мнению, очень важных для понимания содержания этой дисциплины и ее места среди других отраслей знания.
Среди методов исследования особое место занимает информационный подход к познанию действительности, заключающийся в рассмотрении окружающих нас явлений с точки зрения происходящих в них информационных процессов. Если знание математики предполагает не только знание набора формул, но и умение применять их к решению конкретных задач, то познание информатики невозможно без умения взглянуть на мир через призму информационных представлений, а ведь в этом и заключается информационный подход Можно сказать, что информатика начинается с информационного подхода, который в ней применяется к конкретному предмету исследований – научной информации.
Как это осуществляется на практике и каковы на сегодняшний день достижения информатики – читатели узнают в последующих разделах книги.



Почему академики не учат первоклассников?
Тезаурус – значит «сокровищница»
рассматривая различные определения понятия информации и связанные с ними теории, мы сознательно не упомянули об одной модели семантической информации, о которой мы хотели бы рассказать отдельно. Но сначала попытаемся разобраться в двух часто встречающихся ситуациях.
Ситуация первая – когда вам сообщают что-либо уже известное, например, что дважды два – четыре, что после ночи наступает день, а Волга впадает в Каспийское море.
Ситуация вторая – когда вам сообщают что-либо на неизвестном вам языке, когда вы видите совершенно незнакомую математическую формулу, пусть даже имеющую богатый смысл, т.е. нечто совершенно вам непонятное.
Обе ситуации можно описать при помощи выражений «известно все» или «неизвестно ничего». Эти выражения говорят о противоположности двух описанных ситуаций. Однако у них есть и нечто общее. Этим общим является наличие всех компонентов коммуникации: источника и приемника информации, потока информации от источника к приемнику. Однако, как в первой, так и во второй ситуации знания последнего остались без изменений, т.е. информация была передана, приемник ее получил, но обнаружить это невозможно! Если мозг приемника не отразил никаких изменении о внешнем мире после получения сообщения, а это случилось как в первой, так и во второй ситуациях, следовательно, передачи, точнее говоря, получения информации не произошло.
Итак, чтобы определить, несло ли данное сообщение для его получателя информацию, или нет, необходимо зафиксировать изменения, которые произошли в его представлении об окружающем мире, в его знаниях после получения сообщения. Для этого, в свою очередь, надо определить, как «устроены» знания человека, и в чем выражаются те изменения, о которых мы говорим. Иными словами, надо построить модель передачи семантической информации, так как именно эта модель, в отличие от структурно-синтаксических концепций информации, касается смысла сообщений.
Такая модель была предложена советским ученым Ю.А. Шрейдером. Суть ее состоит в том, что количество информации, извлекаемое человеком из сообщения, можно определить степенью изменения его знаний. Действительно, если о получении информации судить только по изменениям в знаниях, то чем больше изменений произошло в знаниях, тем больше информации было получено. Это предположение, вероятно, не вызовет возражений.
Однако каким же образом определить степень изменения в знаниях. Например, в школе учитель может легко определить степень изменения знаний учеников после прослушанного урока с помощью простого опроса. Однако он не может объяснить, почему степень изменения знаний учеников неодинакова, почему одни из них воспринимают материал быстрее других? Разобраться в самом механизме изменения знания человека позволяет модель Ю.А. Шрейдера.
Все здание человеческого знания, согласно этой модели, можно рассматривать в виде совокупности смысловыражающих элементов и смысловых отношений между ними. Множество смысловыражающих элементов и смысловых отношений на нем называется тезаурусом. Слово «тезаурус» происходит от греческого «????????» – сокровище, сокровищница. И вы, наверное, согласитесь с тем, что все огромное множество понятии и отношении между ними, иными словами, тезаурус, и составляет главное сокровище человека – его знания. Таким образом, тезаурус – это знание, представленное в виде понятий и отношений между ними, т.е. определенным образом структуризованное знание.
Фрагмент знания, например, образ дерева, растущего на земле, можно представить в виде смысловыражающих элементов: «дерево», «земля» и смыслового отношения между ними – «расти на». Таким же образом можно представить и любой фрагмент нашего знания. Очень важно, что понятие «дерево» можно также рассматривать в виде элементов «ствол», «ветви», «листья», связанных отношениями: «быть частью», «расти на» и т.д. Более сложные понятия образуются из более простых при помощи соответствующих отношений. Тезаурус поэтому имеет сложную структуру, в которой одни понятия и отношения, группируясь, образуют другие, в свою очередь образующие все более сложные понятия и отношения. И так как тезаурус является способом представления знаний, а знания у разных людей различны, то, естественно, отличаются и соответствующие им тезаурусы. Тезаурус ребенка, например, намного беднее тезауруса взрослого человека, т.е. содержит гораздо меньше элементов и отношений между ними.
Чтобы полнее представить понятие тезауруса, можно попытаться получить его графическую интерпретацию. Для этого смысловыражающие элементы представим в виде точек, а смысловые отношения – в виде соединяющих эти точки отрезков. Тогда тезаурус имеет образ «паутинки».
Подробнее с понятием тезауруса мы познакомимся ниже, а сейчас вернемся к основанной на нем модели передачи семантической информации. Теперь уже можно четко сформулировать смысл этой модели. Заменяя понятие «знание» понятием «тезаурус», можно утверждать, что человек получает информацию только в том случае, когда в его знаниях, т.е. в его тезаурусе после получения сообщения произошли какие-либо изменения. И чем больше изменений внесло сообщение в тезаурус приемника, тем большее количество информации он получил из этого сообщения. Изменить же тезаурус – это значит изменить его смысловыражающие элементы или смысловые отношения между ними.
Теперь попытаемся применить эту модель к процессу передачи информации. Пусть источник, обладающий тезаурусом A, передает какое-то сообщение приемнику, обладающему тезаурусом Q. Сообщение содержит фрагмент представлений источника о внешнем мире, т.е. фрагмент его тезауруса. Этот фрагмент при передаче сообщения как бы накладывается на тезаурус приемника. В результате происходит их сопоставление, сравнение. Рассмотрим возможные варианты этого процесса.
Если в тезаурусе Q фрагмент тезауруса A (в дальнейшем вместо выражений тезаурус Q и тезаурус A мы будем употреблять соответственно Q и А) содержится целиком, то никаких изменений в Q не происходит, следовательно, Q не извлекает из сообщения никакой информации. Этот случай совпадает с первой из двух ситуаций, о которых мы говорили ранее, когда сообщение содержит сведения, уже известные получателю. Графически это можно представить как полное вхождение, включение фрагмента A в фрагмент Q.
Предположим теперь, что какая-то часть фрагмента A содержится в Q. Это значит, что в Q можно обнаружить такие же элементы и отношения, как и во фрагменте A; в последнем, кроме этого, содержатся компоненты (элементы и отношения), которых нет в Q. Фрагменты A и Q таким образом, имеют «общую часть» Графически этот случай может быть выражен как пересечение двух тезаурусов.
Общая часть компонентов играет важную роль в процессе восприятия сообщения приемником. Так как составляющие ее компоненты связаны с остальными компонентами фрагмента A, то «неизвестные» Q (т.е. не содержащиеся в Q) компоненты могут быть восприняты Q как комбинация, сочетания «уже известных» (содержащихся в Q) компонентов, входящих в эту общую часть. Для иллюстрации сказанного опять обратимся к схеме.
Фрагмент A имеет элемент X, который не содержится в Q. Однако во фрагменте A Х связан отношениями b, с, d с элементами B, С, D, которые содержатся в Q. Тогда Q воспринимает новое для него понятие X, такое же, как во фрагменте A, сочетание B, С, D, b, с, d. Тезаурус Q изменяет свою структуру, образуя новую комбинацию из уже имеющихся компонентов. Этой комбинации приписывается имя неизвестного элемента X, так как именно с ним связаны общие для фрагмента A и Q компоненты. Так образуется новый смысловыражающий элемент, который становится составной частью тезауруса приемника.
Эти рассуждения, вероятно, нуждаются в примере. Представьте, что вы говорите малышу: «Мы были в лесу» «Мы были» – это он знает, а слово «лес» ему пока непонятно, поэтому смысл всего сказанного остается неясным. Тогда вы объясните, что «лес» – это, когда много-много деревьев Понятие «дерево» и «много-много» малышу скорее всего знакомы. И вот сочетание этих понятий и приводит к образованию нового понятия, тек изменению тезауруса. Следовательно, объясняя что-либо новое, непонятное выражают через известное. Возвращаясь опять к модели, заметим, что если сообщение, т.е. фрагмент тезауруса A, содержит как уже имеющиеся в тезаурусе Q элементы и отношения, так и новые для него, то изменение Q под действием фрагмента A осуществляется путем выражения новых элементов и отношений через уже имеющиеся. Если это не удается, следовательно, ввести новое понятие в тезаурус и изменить его невозможно.
Рассмотрим еще один пример. Попытаемся объяснить ребенку, что «Лес – это совокупность значительного количества деревьев, произрастающих в непосредственной близости друг от друга». Конечно, малыш получит очень мало информации из такого сообщения, ведь он узнает в нем только слова «деревья» да, может быть, «друг от друга». Знание только этих понятий оказывается недостаточным для того, чтобы с их помощью выразить остальные. Тезаурус приемника информации в данном случае, возможно, и зафиксирует связь между понятием «лес» и «деревья», но характер этой связи останется нераскрытым. Добавление в тезаурусе к понятию «деревья» неизвестной смысловой связи с неизвестным смысловыражающим элементом (им является понятие «лес») и будет тем изменением, которое внесет сообщение в тезаурус приемника. Незначительные изменения в тезаурусе получателя свидетельствуют о незначительном количестве информации, которое он извлек из сообщения.
Когда в фрагмент A входят элементы и отношения, каких нет в Q, то приемник не извлечет из сообщения никакой информации и изменения его тезауруса не произойдет. Этот случай соответствует второй из рассмотренных выше ситуаций, когда сообщение является «полной загадкой» для его получателя.
Отсюда следует, что модель, использующая понятие тезауруса, удобна для описания процесса коммуникации.
Если теперь предположить, что чем больше тезаурус приемника, тем больше вероятность того, что в нем будут содержаться элементы и отношения, составляющие тезаурус сообщения, то количество информации, получаемое из сообщения, будет зависеть в итоге от величины тезауруса приемника. Зависимость свидетельствует о том, что минимальному значению величины тезауруса ?min соответствует нулевое количество полученной из сообщения информации. Такое же (нулевое) количество информации соответствует и максимальному тезаурусу ?max. Наибольшее же количество информации Jmax извлекается приемником из сообщения при величине его тезауруса, близкой к средней.
Фактически величина тезауруса приемника измеряется относительно тезауруса источника информации. Таким образом, эффективность передачи информации зависит от соотношения тезаурусов источника и приемника.
На основании этих выводов можно объяснить, например, почему академики обычно не учат первоклассников. Если сравнить их тезаурусы, то нетрудно убедиться в том, что тезаурус академика несравненно богаче, шире и сложнее тезауруса школьника первоклассника. Это значит, что тезаурус приемника очень мал по сравнению с тезаурусом источника. Видно, что мало и количество информации, извлекаемое в этом случае. Следовательно, такое обучение неэффективно, так как первоклассники, не получая значительной информации от академика, практически ничему не научатся.
Если учителями будут школьники, а академиками – ученики, то на графике мы переместимся в точку 3 и увидим, что при приближении к этой точке значение количества воспринимаемой информации опять очень мало. И академикам, конечно, не стоит учиться у первоклассников.
Чтобы повысить эффективность обучения, иными словами, увеличить количество информации, извлекаемой приемником из сообщения, очевидно, необходимо уменьшить разницу в тезаурусах ученика и учителя (приемника и источника). Поскольку нам надо учить первоклассников, т.е. исходить из наперед заданной величины тезауруса приемника, то необходимо уменьшить тезаурус источника информации. Сделав это, мы получим тезаурус учителя младших классов, не обладающего обширными и глубокими познаниями академика, но, как оказывается, незаменимого с точки зрения эффективного обучения первоклашек. Взглянув на график снова, мы обнаружим, что тезаурус приемника в этом случае будет находиться поблизости точки 2. При этом значение I близко к максимальному.
В процессе обучения учитель передает свои знания ученикам. При этом после каждого сообщения учителя тезаурусы учеников изменяются, приближаясь к тезаурусу учителя. В этом, наверное, и состоит задача учителя. Но что мы видим на графике?
Значение ? при этом упорно ползет от точки 2 к точке 3, а вместе с этим падает и значение I. Этого может не произойти, если учитель будет постоянно расширять свой тезаурус. Тогда соотношение тезаурусов не будет изменяться. На практике, однако, так бывает редко: обычно школьник становится студентом, а значит, место учителя занимает профессор. Оптимальное соотношение тезаурусов, таким образом, восстанавливается.
Так понятие тезауруса, являющееся основой модели семантической информации, позволяет предсказать результат коммуникации, исходя даже из очень грубой оценки соотношения тезауруса ее участников.
Понятие тезауруса применимо не только к знаниям отдельного человека, но и к знаниям человечества в целом: можно говорить о тезаурусе человечества как о сумме накопленных им знаний.
Можно сравнить тезаурусы людей различных специальностей. Если отвлечься от их носителей-людей, то можно исследовать тезаурусы специальностей или тезаурусы определенных областей знания. В качестве инструмента для исследования тезауруса может использоваться вторая сигнальная система человека – его язык. В виде плоскостей схематично изображены совокупность объектов окружающего человека мира (картина реального мира), отражение этой картины мозгом человека (план содержания), выражение этого отражения при помощи языка (план выражения).
Реально существующие объекты и отношения внешнего мира A, B и C, отражаясь мозгом человека, образуют его тезаурус, располагающийся в плане содержания. Каждому элементу и отношению плана содержания соответствует понятие, выраженное при помощи слов естественного языка. Исследуя понятия и отношения между ними, мы определим соответствующий им тезаурус. Соответствие тезауруса в плане содержания тезаурусу терминов в плане выражения не следует понимать как полную идентичность. Исследовать же тезаурус терминов гораздо легче, чем понятия и отношения, зафиксированные миллиардами нервных клеток мозга человека. Представленный в виде упорядоченного словаря понятий с указанными отношениями между ними тезаурус терминов является подлинной сокровищницей, хранилищем знаний людей на определенном уровне исторического развития.
Когда информация становится знанием
Применяя модель передачи семантической информации Ю.А. Шрейдера, мы установили, что при значительной разнице тезаурусов источника и приемника информации количество информации, извлекаемое из сообщения приемником, невелико. Например, если тезаурус ученого, работающего в какой-либо области науки, значительно шире среднего тезауруса специалиста в этой области, то знакомящиеся с его работами коллеги вероятнее всего не смогут извлечь из них сколь-нибудь значительного количества информации, т.е. не поймут их.
Именно так и происходит, когда совершаются «преждевременные научные открытия»: для человеческого общества они остаются некоторое время «вещью в себе», так как общество еще не в состоянии оценить их значение. Примерно такая же ситуация возникает, когда человеку – не специалисту в какой-либо отрасли науки – предлагается прочитать очень содержательную статью в этой отрасли. Для него такая статья по существу не содержит никакой информации.
Факты из истории науки, на которые обращают внимание А.И. Михайлов, А.И. Черный, Р.С. Гиляревский, хорошо иллюстрируют сказанное. Приведем некоторые из них.
23 февраля 1826 г. в Казанском университете на заседании физико-математического факультета русский математик Н.И. Лобачевский (1792...1856) выступил с докладом, в котором изложил начала созданной им неевклидовой геометрии. Текст этого доклада, озаглавленного «Сжатое изложение основ геометрии со строгим доказательством теоремы о параллельных», был утерян рецензентами. В 1829...1830 гг. в журнале «Казанский вестник» были опубликованы мемуары Н.И. Лобачевского «О началах геометрии», в которые вошло его сочинение 1826 г. Это было одно из крупнейших достижений математической мысли во всей истории мировой науки.
Но ни работа «О началах геометрии», ни последовавшие за ней другие сочинения Н.И. Лобачевского, почти никем не были поняты и подвергались резкой критике.
К.Ф. Гаусс, хотя и восхищался открытием Н.И. Лобачевского, но делал это только в письмах к друзьям. Правда, по предложению К.Ф. Гаусса, Геттингенское королевское общество избрало Н.И. Лобачевского своим членом-корреспондентом. Однако по неизвестным причинам К.Ф. Гаусс до конца своей жизни не выступил в защиту геометрии Лобачевского на страницах научной печати и не оказал русскому математику той моральной поддержки, в которой Н.И. Лобачевский тогда очень нуждался. Только через 12 лет после смерти Н.И. Лобачевского его величайшее научное открытие получило полное признание и широкое распространение.
Примерно такая же судьба постигла Эвариста Галуа (1811...1832). Три раза Э. Галуа представлял свою работу «Исследование алгебраических уравнений простой степени» во Французскую академию наук. Дважды рукопись исчезала там бесследно. Когда в 1831 г. он послал в академию третий вариант этой работы (это был «Мемуар об условиях разрешимости уравнений в радикалах»), то этот вариант был отвергнут рецензентами С. Лакруа и С. Пуассоном, которые дали ему отрицательную оценку.
Современники Э. Галуа не смогли понять и в должной степени оценить его идеи, которые и поныне поражают своей абстрактностью и глубиной. Поэтому работы Э. Галуа были «переоткрыты» во второй половине XIX века, когда началось широкое проникновение теоретико-групповых идей во все области математики. Ныне Э. Галуа по праву считается создателем теории групп – одного из важнейших разделов современной математики.
В 1811 г. Амедео Авогадро (1776...1856) опубликовал статью, в которой высказал гипотезу о том, что в равных объемах различных газов при одинаковых условиях содержится одинаковое количество молекул. В 1858 г. только один С. Канниццаро понял огромное значение гипотезы А. Авогадро, своими работами и выступлениями в значительной степени содействовал ее широкому применению. В настоящее время эта гипотеза получила название закона Авогадро и является одним из основных законов физики и химии.
Ныне всем хорошо известна судьба гениального русского ученого К.Э. Циолковского (1857...1935), который с 1896 г. занимался разработкой теории движения реактивных аппаратов. К.Э. Циолковский предложил ряд схем ракет дальнего действия и ракет для межпланетных полетов. Еще в 1903 г. К.Э. Циолковский опубликовал в Петербургском журнале «Научное обозрение», №5, свою работу об Исследовании миров пространства реактивными приборами, в которой он впервые в мире дал глубокий научный анализ всех основных аспектов ракетного полета в космос. Только 10 лет спустя идеи К.Э. Циолковского стали восприниматься наиболее передовыми представителями русской науки. В консервативных академических кругах царской России имя К.Э. Циолковского осталось неизвестным.
Все приведенные факты можно объяснить с научных позиций, если мы вспомним о важности определенного соотношения тезаурусов при передаче информации, которое невольно нарушалось гениальными учеными, опередивших свой век.
Обычно ученый пытается представить себе любую, даже радикально новую теорию в тех понятиях, которыми он пользовался ранее. Знание покоится на знании, т.е. незаметно исходит из того, что знали раньше. Новая информация, что хорошо демонстрирует модель, использующая понятие тезауруса, усваивается только тогда, когда она без особого труда укладывается в общепринятые представления. Информация не признается информацией до тех пор, пока не превратится в знание, т.е. не найдет отражения в тезаурусе приемника в виде соответствующих изменений.
Идея тезауруса в настоящее время находит широкое применение в различных областях науки. Это относится как к общему, широкому понятию, которое соответствует плану содержания, так и к понятию тезауруса терминов, соответствующему плану выражения.
Так, например, в теории сложных систем – системологии – разработке понятия тезауруса придается исключительное значение. Если для тезауруса системы, по мнению В.В. Дружинина и Д.С. Конторова, будет найдено простое исчерпывающее определение и практический метод измерения или вычисления, концепции кодирования организма в зародыше, наследственных свойств в молекуле ДНК или отображения событий в голове человека приобретут гораздо большую стройность. Понятие тезауруса сравнивается ими с понятием энергоресурса: тезаурус – полезная внутренняя информация системы о себе и среде. Она определяет способность системы управлять собой. Аналогично энергоресурсы – это внутренняя энергия системы, определяющая ее способность совершать полезную работу. Тезаурус измеряется в единицах информации, энергоресурс – в единицах энергии, то и другое инвариантны. Тезаурус – определенным образом организованная информация, энергоресурс – определенным образом организованная энергия.
Итак, тезаурус представляет собой форму существования, хранения семантической информации. Но поскольку с обработкой именно семантической информации часто связывают деятельность живых организмов, процесс эволюции живого можно исследовать с точки зрения формирования тезауруса, т.е. организм, способный обрабатывать семантическую информацию, должен обладать и тезаурусом. Тогда, проследив процесс формирования тезауруса в эволюции живого, мы сможем, вероятно, существенно дополнить достижения биологов, химиков, физиологов в изучении этой проблемы. Концепция тезауруса и здесь может быть полезной.
Небезынтересно в заключение отметить, что к такому наиболее общему понятию тезауруса ученые пришли, первоначально «освоив» понятие тезауруса терминов. Вначале это понятие использовалось в словарях, предназначенных для поиска слов по их смыслу, затем с развитием электронно-вычислительной техники подобные словари стали применяться для исчерпывающего описания терминологии какой-либо отрасли знаний в автоматизированных системах поиска информации и получили название информационно-поисковых тезаурусов (о них речь пойдет ниже). Только сравнительно недавно тезаурус стал символом организации знания вообще. Дальнейшее развитие идеи тезауруса будет способствовать получению интересных результатов в самой важной науке – науке о знании.







Законы царства документов
В пространстве и во времени
В истории развития человечества, представляющей собой единый, неразрывный во времени процесс, можно отметить некоторые важные вехи, которые после длительного периода количественных изменений привели к качественным скачкам в уровне развития человека. Такой вехой было формирование второй сигнальной системы – языка. Овладев языком, человек резко ускорил темп своего развития. Но едва научившись говорить, он стал испытывать острую необходимость в фиксировании речи. Этого требовали условия жизни. Информация, передаваемая от одного человека к другому посредством речевого обращения, во-первых, могла быть воспринята только на расстоянии слышимости человеческого голоса, а, во-вторых, сведения, проходя через субъективное восприятие передающих, претерпевали искажения. Это очень затрудняло передачу достоверной информации во времени, от поколения к поколению. Поэтому с давних пор человек стремился найти объективного посредника при передаче информации. Это были камни, на которых он мог оставлять изображения, глиняные плитки, папирус, береста, а позднее – бумага.
Стремительный, ускоряющийся прогресс человечества был бы невозможен, если бы не развитие письменности и появление весьма удобного материала для письма – бумаги. Благодаря этому информация могла не только передаваться из поколения в поколение, но и распространяться в пространстве с высокой степенью надежности. При помощи письменности информация получила полное право именоваться документом.
Что же такое документ? Если мы попытаемся перечислить предметы, которые мы относим к документам, то сразу же вспоминаются паспорт, свидетельство о рождении, диплом и некоторые другие листки с важной информацией о каждом из нас. Далее к перечисленным прибавится множество документов, с которыми мы сталкиваемся в работе, и т.д. Действительно, документов, знакомых и незнакомых, относящихся как к отдельным лицам, так и к коллективам, предприятиям, институтам, городам, республикам, целой стране и даже всем странам на нашей планете, существует необозримое множество и описать или, как говорят математики, задать это множество простым перечислением принадлежащих к нему объектов оказывается почти невозможным.
Однако существует еще один способ задать множество: перечислить характерные для принадлежащих ему объектов признаки. Какие же признаки характерны для множества документов? Первый признак очевиден: все документы являются носителями информации. В то же время, далеко не все носители информации являются документами. Молния, например, несет нам определенную информацию, но, конечно, никто не назовет ее документом, так же, как нельзя назвать документом услышанную нами музыку. Документы, видимо, должны как-то фиксировать, сохранять информацию, т.е. обеспечивать передачу ее во времени. Этим свойством могут обладать многие носители информации. Так, исследуя содержание понятия «документ», мы незаметно перешли от «бытового» толкования этого понятия, согласно которому документ – это, прежде всего, составленная законным образом бумага, служащая письменным доказательством наших прав, служебного или общественного положения, к более широкому толкованию. В этом широком толковании документами можно считать не только вышеуказанные бумаги, рукописи и печатные издания, но и произведения искусства, нумизматические памятники, музейные экспонаты минерального, ботанического, зоологического характера. Документом в этом смысле признается любой материальный объект, который фиксирует или подтверждает какие-либо знания и может быть включен в определенное собрание Материальный объект может быть включен в какое-либо собрание в том случае, если он способен сохраняться во времени.
Такое широкое определение документа несколько противоречит своему первоначальному значению. Этот термин происходит от латинского слова documentum, которое, в свою очередь, произошло от docere, что значит обучать. Следовательно, термин «документ» в прошлом имел более точный, чем в. настоящее время, смысл: «то, что служит для обучения». Наличие нескольких определений не мешает документам принимать самое активное участие в жизни общества, пронося информацию сквозь время и пространство.
Значение документов в нашей жизни огромно. В настоящее время каждый факт обрастает одеждой из документов, формы которых становятся крайне разнообразными – это книги, газеты, журналы, фотографии и кинофильмы, магнитные и патефонные записи, каталоги, рекламы, отчеты, письма, картотеки, экспонаты музеев и выставок.
Неудержимый количественный рост документов является одним из главных проявлений информационного кризиса.
Теперь возникает вопрос: а какие именно документы наиболее «причастны» к вовлечению человечества в состояние информационного кризиса? Главным «виновником» информационного кризиса является научная информация, распространяющаяся по формальным и неформальным каналам. При этом возможность формальных процессов коммуникации обеспечивается существованием многочисленной семьи научных документов, несущих научную информацию в пространстве и во времени.
Научный документ – это исторически обусловленная разновидность материального носителя, на котором тем или иным способом закреплены (записаны) научные сведения (данные) или научная информация, причем научный документ обязательно должен быть снабжен указанием, кем и когда он создан. По форме различают документы текстовые (книги, журналы, рукописи), графические или изобразительные (чертежи, схемы, графики, планы, карты, диаграммы), аудиовизуальные (звукозаписи, кинофильмы, диапозитивы).
Чтобы найти выход из информационного кризиса, необходимо разобраться в законах, управляющих документами. Поэтому если в предыдущих разделах мы затрагивали вопросы, касающиеся понятия информации и информационных аспектов некоторых явлений, то сейчас объектом нашего внимания будут носители информации – документы, а еще точнее – научные документы.
От закона Брэдфорда до ранговых распределений
Первое, что обращает на себя внимание в царстве документов, – это чрезвычайно быстрый рост его населения.
Этот общеизвестный факт заставляет всерьез задуматься о том, к чему может привести такой рост. Но, может быть, наши опасения напрасны, и в дальнейшем темпы прироста числа документов замедлятся? Пока что статистика утверждает обратное.
Вот как, например, изменялись документальные информационные потоки по химии. В 1732 г все наследие химии было обобщено и опубликовано голландским профессором в книге объемом 1433 страницы. В 1825 г шведский ученый Берцелиус опубликовал все, что было известно по химии, в 8 томах общим объемом 4150 страниц. В настоящее время американский реферативный журнал «Chemical Abstracts», издаваемый с 1907 г, публикует почти всю информацию по химии, при этом первый миллион рефератов был опубликован спустя 31 год с момента основания, второй – спустя 18 лет, третий – через 7 лет, а четвертый – через 4 года!
Примерно такой же характер роста количества документов можно проследить и в других областях науки. Было замечено, что рост документов носит экспоненциальный характер. При этом ежегодный прирост потоков научно-технической информации составляет 7...10%. В настоящее время каждые 10...15 лет происходит удвоение объемов научно-технической информации (НТИ) Кривая роста числа документов, таким образом, может быть описана экспонентой вида
y = Aekt
где y – сумма знаний, унаследованных от предыдущих поколений, е – основание натуральных логарифмов (е = 2,718...), t – индекс времени (г); A – сумма знаний в начале отсчета (при t = 0), K – коэффициент, характеризующий скорость знаний, эквивалентом которых принимаются потоки научно-технической информации. При t ? 10...15 лет у = 2A.
Легко представить себе, что такой характер роста числа научных документов не предвещает нам в будущем, даже ближайшем будущем, ничего хорошего. Леса, превращенные в горы бумаги, в которых тонет беспомощный исследователь...
Однако, как показывает история науки и техники, условия, в которых они развиваются, не являются постоянными, а поэтому механизм экспоненциального роста потоков НТИ часто нарушается. Это нарушение объясняется рядом сдерживающих факторов, в частности войнами, нехваткой материальных и человеческих ресурсов и т.д. В действительности рост числа документов не подчиняется поэтому экспоненциальной зависимости, хотя в определенные периоды развития науки и техники в отдельных областях знаний она проявляется достаточно четко. В чем же причина такого стремительного нарастания потоков документальной информации?
В предыдущих разделах мы обращали внимание на то, что информация играет огромную роль в развитии человеческого общества, поэтому оно сопровождается опережающим по темпам ростом объемов информации. Рост документальных потоков научной информации можно связывать с ростом числа создателей научной информации. Темпы этого роста описываются показательной функцией. Например, в течение последних 50 лет число научных работников в СССР удваивалось каждые 7 лет, в США – каждые 10 лет, в европейских странах – каждые 10...15 лет.
Конечно, темпы роста числа научных работников должны подвергнуться замедлению и достигнуть какой-то более или менее постоянной величины по отношению ко всему количеству работающего населения. В противном случае все население через какое-то время будет занято исследовательскими и опытно-конструкторскими работами, что нереально. Поэтому в будущем следует ожидать замедления темпов роста числа научных документов. В настоящее время эти темпы все еще высоки и внушают потребителям информации тревогу: как хранить и обрабатывать документы, как найти среди них тот, который нужен?
Положение кажется безвыходным: действующий пока в царстве документов закон экспоненциального роста документов резко обострил в нем как «жилищную», так и «транспортную» проблемы.
Однако, как оказывается, здесь существует закон, несколько смягчающий создавшееся положение...
В конце 40-х годов нашего столетия Дж. Ципф, собрав огромный статистический материал, попытался показать, что распределение слов естественного языка подчиняется одному простому закону, который можно сформулировать следующим образом. Если к какому-либо достаточно большому тексту составить список всех встретившихся в нем слов, затем расположить эти слова в порядке убывания частоты их встречаемости в данном тексте и пронумеровать в порядке от 1 (порядковый номер наиболее часто встречающегося слова) до R, то для любого слова произведение его порядкового номера (ранга) / в таком списке и частоты его встречаемости в тексте будет величиной постоянной, имеющей примерно одинаковое значение для любого слова из этого списка. Аналитически закон Ципфа может быть выражен в виде
 fr = c,
где f – частота встречаемости слова в тексте;
r – ранг (порядковый номер) слова в списке;
с – эмпирическая постоянная величина.
Полученная зависимость графически выражается гиперболой. Исследовав таким образом самые разнообразные тексты и языки,
в том числе языки тысячелетней давности, Дж. Ципф для каждого из них построил указанные зависимости, при этом все кривые имели одинаковую форму – форму «гиперболической лестницы», т.е. при замене одного текста другим общий характер распределения не изменялся.
Закон Ципфа был открыт экспериментально. Позднее Б. Мандельброт предложил его теоретическое обоснование. Он полагал, что можно сравнивать письменный язык с кодированием, причем все знаки должны иметь определенную «стоимость». Исходя из требований минимальной стоимости сообщений, Б. Мандельброт математическим путем пришел к аналогичной закону Ципфа зависимости
 fr ? = c ,
где ? – величина (близкая к единице), которая может изменяться в зависимости от свойств текста.
Дж. Ципфом и другими исследователями было установлено, что такому распределению подчиняются не только все естественные языки мира, но и другие явления социального и биологического характера: распределения ученых по числу опубликованных ими статей (А. Лотка, 1926 г.), городов США по численности населения (Дж. Ципф, 1949 г.), населения по размерам дохода в капиталистических странах (В. Парето, 1897 г.), биологических родов по численности видов (Дж. Уиллис, 1922 г.) и др.
Самым важным для рассматриваемой нами проблемы является тот факт, что и документы внутри какой-либо отрасли знаний могут распределяться согласно этому закону. Частным случаем его является закон Брэдфорда, непосредственно связанный уже не с распределением слов в тексте, а с распределением документов внутри какой-либо тематической области.
Английский химик и библиограф С. Брэдфорд, исследуя статьи по прикладной геофизике и смазке, заметил, что распределения научных журналов, содержащих статьи по смазке, и журналов, содержащих статьи по прикладной геофизике, имеют общий вид. На основании установленного факта С. Брэдфорд сформулировал закономерность распределения публикаций по изданиям.
Основной смысл закономерности состоит в следующем: если научные журналы расположить в порядке убывания числа статей по конкретному вопросу, то журналы в полученном списке можно разбить на три зоны таким образом, чтобы количество статей в каждой зоне по заданному предмету было одинаковым. При этом в первую зону, так называемую зону ядра, входят профильные журналы, непосредственно посвященные рассматриваемой тематике. Количество профильных журналов в зоне ядра невелико. Вторую зону образуют журналы, частично посвященные заданной области, причем число их существенно возрастает по сравнению с числом журналов в ядре. Третья зона, самая большая по количеству изданий, объединяет журналы, тематика которых весьма далека от рассматриваемого предмета.
Таким образом, при равном числе публикаций по определенной тематике в каждой зоне число наименований журналов резко возрастает при переходе от одной зоны к другой. С. Брэдфорд установил, что количество журналов в третьей зоне будет примерно во столько раз больше, чем во второй зоне, во сколько раз число наименований во второй зоне больше, чем в первой. Обозначим р1 – число журналов в 1-й зоне, р2 – во 2-й, р3 – число журналов в 3-й зоне.
Если a – отношение количества журналов 2-й зоны к числу журналов 1-й зоны, то закономерность, вскрытая С. Брэдфордом, может быть записана так:
P1 : P2 : P3 = 1 : a : a2
или
P3 : P2 = P2 : P1 = a.
Эту зависимость называют законом Брэдфорда.
Б. Викери уточнил модель С. Брэдфорда. Он выяснил, что журналы, проранжированные (выстроенные) в порядке уменьшения в них статей по конкретному вопросу, можно разбить не на три зоны, а на любое нужное число зон. Если периодические издания расположить в порядке уменьшения в них количества статей по конкретному вопросу, то в полученном списке можно выделить ряд зон, каждая из которых содержит одинаковое количество статей. Примем следующие обозначения х – количество статей в каждой зоне. Тx – количество журналов, содержащих х статей, Т2x – количество журналов, содержащих 2х статей, т.е. сумма наименований журналов в 1-й и во 2-й зонах, Т3x – количество журналов, содержащих 3х статей, т.е. сумма наименований журналов в 1-й, 2-й и в 3-й зонах, Т4x – количество журналов, содержащих 4х статей.
Тогда эта закономерность будет иметь вид
Tx : T2x : T3x : T4x : ... = 1 : a : a2 : a3 : ...
Данное выражение называют законом Брэдфорда в толковании Б. Викери.
Если закон Ципфа характеризует многие явления социального и биологического характера, то закон Брэдфорда – это специфический случай распределения Ципфа для системы периодических изданий по науке и технике.
Из этих закономерностей можно извлечь выводы огромной практической пользы.
Так, если расположить какие-либо периодические издания в порядке убывания количества статей по определенному профилю, то, согласно Брэдфорду, их можно разбить на три группы, содержащие равное количество статей. Пусть мы отобрали группу из 8 наименований журналов, занимающих первые 8 мест в полученном списке. Тогда для того, чтобы удвоить количество статей по интересующему нас профилю, нам придется добавить к имеющимся 8 еще 8 · a наименований журналов. Если a = 5 (это значение найдено экспериментальным путем для некоторых тематических областей), то число этих наименований равно 40. Тогда общее число наименований периодических изданий составит 48, что, конечно, значительно больше, чем 8. При попытке же получить втрое большее количество статей нам придется охватить уже 8 + 5 · 8 + 52 · 8 = 256 наименований! Из них треть интересующих нас статей сосредоточена всего в 8 журналах, т.е. статьи распределяются по наименованиям журналов неравномерно. С одной стороны наблюдается концентрация значительного количества статей по определенной тематике в нескольких профильных журналах, с другой – рассеяние этих статей в огромном количестве изданий по смежной или далекой от рассматриваемой тематике, в то время как на практике необходимо выявить основные источники по интересующей нас области научно-технических знаний, а не случайные издания.
Закономерности концентрации и рассеяния научно-технической информации в царстве документов позволяют выбирать именно те издания, которые с наибольшей вероятностью содержат публикации, соответствующие определенному профилю знаний. В массовом процессе информационного обеспечения в масштабах страны использование этих закономерностей позволяет сократить для народного хозяйства огромные расходы.
Существующее рассеяние публикаций нельзя оценивать только как вредное явление. В условиях рассеяния улучшаются возможности для межотраслевого обмена информацией.
Попытка сконцентрировать все публикации одного профиля в нескольких журналах, т.е. не допустить их рассеяния, будет иметь отрицательные последствия, не говоря уж о том, что точное отнесение документа к тому или иному профилю не всегда представляется возможным.
Результаты проверок закона рассеяния Брэдфорда, как показал С. Брукс, имеют различные степени соответствия. Несмотря на внесенные поправки, модель Брэдфорда не отражает разнообразия реальных распределений. Это несоответствие можно объяснить тем, что Брэдфорд сделал свои выводы, основываясь на выборе массивов, относящихся только к узким тематическим областям.
Огромная заслуга Дж. Ципфа и С. Брэдфорда состоит в том, что они положили начало строгому исследованию документальных информационных потоков (ДИП), которые представляют собой совокупности научных документов-публикаций и неопубликованных материалов (например, отчетов по научно-исследовательским и опытно-конструкторским работам). Дальнейшие исследования, среди которых видное место занимают работы советского специалиста в области информатики В.И. Горьковой, показали, что можно определять не только количественные параметры совокупностей научных документов, но и совокупностей элементов признаков научных документов: авторов, терминов, индексов классификационных систем, наименований изданий, т.е. наименований элементов, характеризующих содержание научных документов. Например, можно расположить журналы в порядке убывания числа печатающихся в них авторов, в порядке убывания средней величины публикующихся в них статей или упорядочить совокупность документов по любому ее элементу.
Упорядоченность задается ранжированием (порядком размещения) наименований элементов по частоте их появления в порядке ее убывания. Такая упорядоченная совокупность наименований элементов называется ранговым распределением. Распределения, которые в свое время изучал Ципф, – это типичные примеры ранговых распределений. Оказалось, что вид рангового распределения, его строение характеризуют ту совокупность документов, к которой относится данное ранговое распределение. Выяснилось, что при построении ранговые распределения в большинстве случаев имеют форму закономерности Ципфа с поправкой Мандельброта:
 fr ? = c.
При этом коэффициент ? – величина переменная. Постоянство коэффициента ? сохраняется только на среднем участке графика распределения. Этот участок принимает форму прямой, если график вышеприведенной закономерности построить в логарифмических координатах. Участок распределения с ? = const называется центральной зоной рангового распределения (значение аргумента на этом участке изменяется от Inr1, до Inr2). Значениям аргумента от 0 до Inr1 соответствует зона ядра рангового распределения, а значениям аргумента от Inr2 до Inr3 – так называемая зона усечения.
Какой же смысл заложен в существовании трех явно различаемых зон ранговых распределений? Если последнее относится к терминам, составляющим какую-либо область знании, то ядерная зона, или зона ядра рангового распределения, содержит наиболее общеупотребительные, общенаучные термины. Центральная зона содержит термины, наиболее характерные для данной области знаний, которые в совокупности выражают ее специфичность, отличие от других наук, «охватывают ее основное содержание». В зоне усечения же сосредоточены термины, сравнительно редко употребляющиеся в данной области знаний.
Таким образом, основа лексики какой-либо области знаний сосредоточена в центральной зоне рангового распределения. При помощи терминов ядерной зоны эта область знаний «стыкуется с более общими областями знаний», а зона усечения играет роль авангарда, как бы «нащупывающего» связи с другими отраслями науки. Так, если несколько лет назад в ранговом распределении терминов тематической области «Обработка металлов» встретился бы термин «лазеры», то ввиду его низкой встречаемости он, наверняка, попал бы именно в зону усечения: связи между лазерной техникой и обработкой металлов еще только «нащупывались». Однако сегодня этот термин, без сомнения, попал бы в центральную зону, что отразило бы уже его достаточно высокую встречаемость и, следовательно, устойчивую связь лазерной техники с обработкой металлов.
График рангового распределения наполнен глубоким смыслом: ведь по относительной величине той или иной зоны на графике можно судить о характеристиках всей области знаний. График с обширной ядерной зоной и малой зоной усечения относится к достаточно широкой и скорее всего консервативной области знаний. Для динамичных отраслей науки характерна увеличенная зона усечения. Малая величина ядерной зоны может говорить об оригинальности области знаний, к которой относится построенное ранговое распределение и т.д. Так, на основании анализа рангового распределения оказалось возможным дать качественные оценки документальным информационным потокам в соответствии с теми отраслями, науки, где они формировались. Царство документов приобретает очертания системы, в которой элементы взаимосвязаны, а закономерности, управляющие этими связями, могут быть изучены!
Как информация стареет...
Старение... Смысл этого понятия, не требует объяснений, оно хорошо знакомо каждому. Стареет наша планета, стареют деревья. Стареют вещи и люди, которым они принадлежат. Стареют и документы. Желтеют листы книг, выцветают буквы, разрушаются обложки. Но что это? Студент, отмахиваясь в библиотеке от предлагаемой ему книги, пренебрежительно замечает: «Она уже устарела!», хотя книга с виду еще совершенно новая! Никакого секрета здесь, конечно, нет. Книга нова, однако информация, которая в ней содержится, могла устареть. Применительно к документам старение понимается не как физическое старение носителя информации, а как довольно сложный процесс старения содержащейся в нем информации. Внешне этот процесс проявляется в утрате учеными и специалистами интереса к публикациям с увеличением времени, прошедшего со дня их издания. Как показало обследование 17 библиотек, проведенное одним из отраслевых органов информации, 62% обращений приходится на журналы, возраст которых не превышает 1,5 года; 31% обращений – на журналы возрастом 1,5...5 лет; 6% – на журналы возрастом от 6 до 10 лет; 7% – на журналы более чем 10-летнего возраста. К вышедшим сравнительно давно публикациям обращаются гораздо реже, что дает повод для утверждения об их старении. Какие же механизмы управляют процессом старения документов?
Один из них непосредственно связан с кумуляцией, агрегированием научной информации. Часто материал, на изложение которого сто лет назад требовался целый курс лекций, теперь можно объяснить за несколько минут с помощью двух-трех формул. Соответствующие курсы лекций безнадежно стареют: ими никто уже не пользуется.
После получения более точных стареют приблизительные данные, а следовательно, и документы, в которых они опубликованы. Поэтому, когда говорят о старении научной информации, чаще всего имеют в виду именно ее уточнение, более строгое, сжатое и обобщенное изложение в процессе создания новой научной информации. Это возможно благодаря тому, что научная информация обладает свойством кумулятивности, т.е. допускает более краткое, обобщенное изложение.
Иногда старение документальной информации имеет другой механизм: объект, описанием которого мы располагаем, с течением времени изменяется настолько, что информация о нем становится неточной. Так стареют географические карты: на смену пустыням приходят пастбища, возникают новые города и моря.
Процесс старения можно рассматривать и как утрату информацией практической полезности для потребителя. Это означает, что он уже не может пользоваться ею для достижения стоящих перед ним целей.
И, наконец, этот процесс может быть рассмотрен с позиций изменения тезауруса человека. С этих позиций одна и та же информация может быть «устаревшей» для одного человека и «неустаревшей» для другого.
Степень старения документальной информации неодинакова для разных видов документов. На скорость ее старения влияют в разной степени очень много факторов. Особенности старения информации в каждой области науки и техники не могут быть выведены на основе абстрактных соображений или усредненных данных статистики – они органически связаны с тенденциями развития каждой отдельной отрасли науки и техники.
Для того чтобы как-то количественно оценить скорость старения информации, библиотекарь Р. Бартон и физик Р. Кеблер из США по аналогии с периодом полураспада радиоактивных веществ ввели «полупериоды жизни» научных статей. Полупериод жизни – это время, в течение которого была опубликована половина всей используемой в настоящее время литературы по какой-либо отрасли или предмету. Если полупериод жизни публикаций по физике равен 4,6 года, то это означает, что 50% всех ныне используемых (цитируемых) публикаций по этой отрасли имеют возраст не более 4,6 года. Вот какие результаты получили Бартон и Кеблер: для публикаций по физике – 4,6 лет, физиологии – 7,2, химии – 8,1, ботанике – 10,0, математике – 10,5, геологии – 11,8 лет. Однако, хотя свойство старения информации и носит объективный характер, но оно не раскрывает внутреннего процесса развития данной области знания и имеет скорее описательный характер. Поэтому к выводам о старении информации следует относиться очень осторожно.
Тем не менее, даже приблизительная оценка скорости старения информации и документов, ее содержащих, имеет огромную практическую ценность: она помогает держать в поле зрения только ту часть царства документов, в которой, вероятнее всего, находятся документы, несущие основную информацию о данной науке. Это важно не только для работников научно-технических библиотек и органов научно-технической информации, но и для самих потребителей НТИ.





Выход в автоматизации?
Знакомьтесь: автоматизированные ИПС
Используя закономерности рассеяния и старения информации, мы можем существенно ограничивать поток информации, с которой целесообразно знакомиться. Однако та часть потока информации, в которой с наибольшей вероятностью сосредоточены нужные нам сведения, все же содержит несметное множество документов. В этом множестве необходимо отобрать те документы, которые соответствуют нашим информационным потребностям.
Здесь мы сталкиваемся с проблемой информационного поиска – одной из важнейших проблем информатики Информационный поиск – это процесс отыскания в каком-то множестве документов тех, которые посвящены указанной в информационном запросе теме (предмету) или содержат необходимые потребителю факты, сведения.
Информационный поиск осуществляется при помощи информационно-поисковых систем (ИПС) и выполняется вручную или с использованием соответствующих средств механизации и автоматизации.
Информационно-поисковые системы могут быть реализованы посредством библиографической картотеки селектора, содержащего перфокарты с краевой или внутренней перфорацией, ЭВМ и т.д. Для применения ИПС необходима систематизация и классификация документов.
Классифицировать документы можно по отрасли науки, виду документа, автору или по другому признаку. Одной из самых распространенных классификаций в настоящее время является универсальная десятичная классификация (УДК), созданная на основе десятичной классификации М. Дьюи по инициативе бельгийских ученых Поля Отле и Анри Лафонтена. Все знания, накопленные человечеством, разбиты в ней на 10 классов: 0. Общий отдел; 1. Философия; 2 Религия; 3 Общественные науки; 4 Свободный отдел; 5 Математика. Естественные науки; 6 Прикладные знания. Медицина. Техника; 7 Спорт. Фотография. Зрелища; 8 Языкознание. Филология. Художественная литература. Литературоведение; 9 Краеведение. География. Биография. История.
Каждый из этих 10 классов делится на 10 подклассов, затем еще на десять и т.д. – классификация является иерархической (Иерархия – это такое отношение, при котором один класс является подклассом другого, более широкого). Для обозначения классов, подклассов в УДК применены арабские цифры, абсолютно однозначные для всех людей, независимо от их языка или алфавита. Эта классификация применяется более чем в 50 странах.
П. Отле и А. Лафонтен видели в УДК лишь средство для достижения совершенной системы организации знаний. Их основной идеей была гениальная догадка о необходимости упорядочения всемирной системы научной коммуникации. Эта идея и сегодня остается актуальной, поскольку цели, впервые сформулированные П. Отле на рубеже нашего века, и идеи, развивавшиеся им вплоть до середины 40-х годов, далеко еще не реализованы и ныне, а потребность в создании более совершенной системы научной коммуникации в человеческом обществе ощущается сейчас значительно острее, чем в прошлые десятилетия. Его почин в создании универсальной десятичной классификации послужил прочной основой для дальнейшей коллективной разработки этой классификации.
Наряду с УДК, в нашей стране широко используются библиотечно-библиографическая классификация (ББК), международная классификация изобретений (МКИ), классификаторы промышленной продукции и т.д.
Широкое распространение классификаций объясняется их удобством при информационном поиске. Простейшая поисковая система представляет собой каталог, организованный по алфавиту, УДК или по любой другой классификации. В этом случае поиск осуществляется в массиве самих документов, представленных в виде каталожных карточек. После нахождения нужной карточки в каталоге дальнейший поиск сводится к изъятию документа с полки, где он хранится. Кажется, все просто и удобно. Действительно, информационно-поисковые системы, организованные без применения каких-либо средств механизации поиска, оправдывали себя в течение длительного периода.
С возрастанием потоков информации резко увеличились и объемы каталогов. На поиск информации стало уходить значительно больше времени, чем прежде. Пока величина массива, в котором производился поиск, не превышала нескольких тысяч документов, мириться с увеличением времени поиска было еще можно. Когда же объем массивов стал измеряться десятками тысяч документов, а в настоящее время в крупных информационных органах такими цифрами измеряется только ежегодный прирост фондов, ручные методы поиска, оказались малопригодными.
Первые попытки уменьшить время поиска документов с помощью механизации этого процесса относятся к началу века, когда появились (1904 г.) карты с краевой перфорацией, положившие начало применению полумеханизированных ИПС. В 1915 г. американский ученый Г. Тейлор получил патент на способ поиска информации с помощью так называемых суперпозиционных перфокарт. Однако практическое применение эти перфокарты нашли только в 1939 г. С тех пор перфокарты заслужили добрую славу как верные помощники людей в поиске той или иной информации.
Уже в середине 50-х годов в СССР была практически осуществлена идея использования перфорационных вычислительных машин для поиска документальной информации.
Если на заре развития вычислительной техники для информационного поиска эффективнее было использовать людей, даже если для этого требовалось их все больше и больше, то вскоре положение круто изменилось. Взоры специалистов в области информатики обратились на ЭВМ. В информационном поиске началась эра автоматизации.
Механизация и особенно автоматизация библиотечных и информационных процессов – это жизненная необходимость. Следуя этой необходимости, в настоящее время в нашей стране и за рубежом разработано большое число автоматизированных информационно-поисковых систем (АИПС). Остановимся на описании таких систем подробнее.
Автоматизированные ИПС в зависимости от объектов поиска можно разделить на две группы: документальные и фактографические.
Документальные системы ограничивают свои цели поиском документов, фактографические – поиском самых разнообразных числовых характеристик, фактов, данных и т.д. Имея много общего, эти типы ИПС обладают и рядом существенных отличий. В автоматизированных системах научно-технической информации наиболее широкое применение в нашей стране получили документальные ИПС. Этот факт отражает ведущее положение документа в процессе распространения информации.
Любая документальная ИПС – от ручной до автоматизированной – включает следующие элементы: информационно-поисковый язык (ИПЯ), правила перевода текстов документов и запросов с естественного языка на ИПЯ, формальные правила (алгоритмы) поиска, технические устройства, реализующие алгоритмы поиска, фонд документов (или их адресов), записанных на каких-либо носителях информации.
Лингвистические проблемы...
При поиске нужных документов с использованием каталогов мы ориентируемся не на полные тексты документов, а на их сокращенные названия, позволяющие судить о содержании документов. Эти сокращенные описания могут быть индексами УДК или какой-либо другой классификации, перечнем авторов документа, тематическими рубриками и т.д. При переходе от документа к такому сокращенному его описанию с целью использования этого описания для последующего поиска, мы как бы переводим документы на ИПЯ. По определению А.И. Михайлова, А.И. Черного, Р.С. Гиляревского, информационно-поисковый язык – это специализированный искусственный язык, предназначенный для выражения основного смыслового содержания документов или информационных запросов с целью отыскания в некотором множестве документов таких, которые отвечают на поставленный информационный запрос.
Описание содержания документа с помощью ИПЯ представляет собой поисковый образ документа (ПОД), а описание содержания запроса – поисковый образ запроса (ПОЗ). Правила составления поисковых образов документов и запросов являются правилами перевода текстов с естественного языка на ИПЯ.
При наличии массива документов и соответствующих им ПОД поиск отвечающего на запрос документа сводится к сопоставлению поисковых образов документов и запросов. Для того чтобы оценить степень их соответствия, необходимо сформулировать критерий смыслового соответствия – формальное правило, по которому поисковые образы документа и запроса считаются совпадающими или несовпадающими. При формальном совпадении ПОД и ПОЗ документы считаются отвечающими на запрос. Однако такое совпадение не означает содержательного соответствия выданного документа запросу. Документ, смысловое содержание которого соответствует информационному запросу, называется релевантным этому запросу. Но если ИПЯ неточно выражает смысл документов и запросов, то может оказаться, что близкие по смыслу документы и запросы обладают разными поисковыми образами и, наоборот, у далеких по смыслу друг от друга документов поисковые образы оказываются сходными. В этом случае не все документы, формально соответствующие запросу, соответствуют ему в действительности, т.е. релевантны. Явление, при котором в ответ на запрос система выдает документы, не соответствующие запросу, называется поисковым шумом. По тем же причинам может оказаться, что часть документов, релевантных запросу, все же оказалась невыданной, тогда говорят о потерях информации. Информационный шум и потери информации могут быть выражены количественно с помощью коэффициентов полноты и точности поиска, являющихся показателями технической эффективности ИПС.
Коэффициент полноты поиска R определяется отношением числа выданных в результате поиска релевантных документов к общему числу релевантных документов, как выданных, так и оставшихся невыданными;
R = a / (a + c).
Коэффициент точности поиска P представляет собой отношение количества выданных релевантных документов к общему числу документов в выдаче: P = a / (a + b), где a – число релевантных документов в выдаче; c – число релевантных документов, оставшихся невыданными (потери информации); b – число выданных нерелевантных документов (поисковый шум).
В результате сказанного возникает вопрос: возможен ли такой ИПЯ, который бы точно передавал смысл документа, т.е. ИПЯ, обеспечивающий максимальные точность и полноту поиска? Ответ на этот вопрос очень важен для понимания специфики документальных ИПС. Компьютер может мгновенно распечатать содержание накладной №201375, хранящейся в его памяти, или из сотен фамилий работников предприятия безошибочно отыскать и начислить Сидорову Ивану Петровичу месячную заработную плату. Поиск такого рода широко используется в АСУ. В этом случае поиск производится по внешним признакам объектов: номеру накладной, фамилии и т.д. Если применить этот же принцип к поиску научных документов, то по формату и количеству страниц ЭВМ укажет адрес в хранилище всех книг и журналов конкретного формата (если, конечно, они введены в память ЭВМ).
Совершенно иначе обстоит дело с поиском документов по их содержанию. Информация, содержащаяся в научных документах, объективно подчиняется закону рассеяния. Это значит, что в одном случае в ответ на запрос ИПС может выдать несколько профильных публикаций, точно отвечающих на него, не выдав релевантную информацию, рассеянную среди большого количества других источников, в другом – может выдать и релевантную информацию. Полнота поиска возрастет. Однако в этом случае будет иметь место больший поисковый шум. Исходя из этого можно сделать вывод о принципиальной невозможности одновременного достижения стопроцентной полноты и такой же точности при поиске научных документов. Увеличивая полноту поиска, мы неизбежно уменьшаем его точность и наоборот, увеличивая точность поиска, уменьшаем его полноту.
Точному переводу содержания документа на ИПЯ – индексированию – препятствует субъективное восприятие содержания выполняющим перевод. В результате одни и те же документы могут быть проиндексированы по-разному. Неточность описания содержания документов при помощи любого ИПЯ не может не сказаться при их поиске.
Отсюда следует, что для документальных ИПС не может быть разработан ИПЯ, который обеспечивал бы стопроцентную полноту и точность выдачи документов. Однако это не значит, что не следует стремиться к максимально точной передаче содержания документов при переводе их на ИПЯ. Именно от этого во многом зависит качество работы всей ИПС. Поэтому при разработке автоматизированных ИПС большое внимание необходимо уделять выбору ИПЯ.
В настоящее время разработано большое количество информационно-поисковых языков, различных по назначению и принципам построения. Существуют, например, информационно-поисковые языки, основанные на различных классификациях, так называемые ИПЯ классификационного типа. Работа ИПС с таким ИПЯ схематично может быть представлена следующим образом.
Каталог крупной библиотеки, организованный, например, по УДК, записывается на машинный носитель информации. Запросы, поступающие от потребителей информации, также индексируются по УДК. Машина выполняет процесс сравнения ПОЗа и ПОДа, выраженных на одном и том же ИПЯ – УДК. При совпадении индексов документов с индексом запроса машина выдает ответ на запрос. Если необходимо увеличить полноту выдачи документов, то мы можем потребовать не полного, а частичного совпадения индексов УДК ПОДов и ПОЗов, изменяя таким образом критерий смыслового соответствия. Таким путем мы можем управлять процессом поиска, добиваясь нужных его характеристик.
Информационно-поисковые языки классификационного типа широко используются в автоматизированных ИПС промышленного назначения, применяемых, например, при поиске аналогов проектируемых деталей с целью заимствования технологического процесса для их обработки. Однако применение ИПЯ, основанных на той или иной классификации, в автоматизированных документальных ИПС ограничивается тем, что введение новых сложных многоаспектных понятий требует бесконечного расширения классификации, что, конечно, невозможно.
Поэтому в последнее время в автоматизированных ИПС предпочтение отдается так называемым ИПЯ дескрипторного типа. Дескрипторы – это термины естественного языка, выражающие определенные понятия. Словарь дескрипторов с указанными между ними смысловыми отношениями, охватывающий определенную область знания, называется информационно-поисковым тезаурусом (ИПТ). Идея применения ИПТ для информационного поиска документов состоит в описании содержания документов и запросов с помощью дескрипторов, входящих в его состав. На практике эта идея реализуется следующим образом. Текст документа, вводимого в ИПС, уменьшается до объема реферата, в котором выделяются слова, несущие основную смысловую нагрузку, так называемые ключевые слова. При помощи ключевых слов достаточно точно передается содержание документа. После этого каждое слово заменяется близким ему по смыслу дескриптором информационно-поискового тезауруса.
Совокупность терминов тезауруса-дескрипторов, заменивших ключевые слова, образует поисковый образ документа. Точно так же на язык дескрипторов переводится и запрос. Поиск документов после этого уже можно поручить машине. ЭВМ с присущей ей быстротой просматривает массивы ПОДов и сравнивает их с ПОЗом. Цель такого сравнения – выявить дескрипторы, принадлежащие одновременно ПОДу и ПОЗу, т.е. найти пересечение множеств дескрипторов ПОДа и ПОЗа. Чем больше зона пересечения, тем точнее соответствие документа запросу. Минимальная величина зоны пересечения оговаривается принятым критерием смыслового соответствия. Изменяя его, можно варьировать точность и полноту поиска в зависимости от нужд потребителей информации.
Таковы принципы работы ИПС с ИПЯ дескрипторного типа. Качество их работы во многом зависит от совершенства применяемого информационно-поискового тезауруса. Поэтому требования к ИПТ очень высоки. В нем не должно быть, например, терминов, выражающих одно и то же понятие, т.е. синонимов – это привело бы к потерям информации при поиске. Кроме этого, должны быть зафиксированы некоторые отношения между терминами (род – вид, часть – целое и другие), служащие целям повышения точности и полноты поиска.
Обычно информационно-поисковые тезаурусы оформляются в виде книг. Лексику тезаурусов составляют не только дескрипторы, но и их синонимы, которые не являются дескрипторами. Присутствие в тезаурусе синонимов имеет большое значение. Поясним это на примере.
Пусть имеется два термина: «Абразивы порошкообразные» и «Порошки абразивные». Ясно, что они выражают одно и то же понятие. Но одно понятие не может быть представлено в тезаурусе двумя различными терминами! Это значило бы, что при поиске документов на запрос, содержащий термин «Абразивы порошкообразные», поисковая система не выдала бы документы, содержащие в поисковом образе термин «Порошки абразивные», хотя они подлежат выдаче, так как соответствуют запросу.
Использование синонимичных терминов приводит к потерям информации. Чтобы предотвратить это, из двух (в данном случае) синонимов в качестве дескриптора выбирают один – термин «Абразивы порошкообразные», – а другой снабжают отсылкой к первому (пометкой): см. «Порошки абразивные». Такая пометка означает, что вместо одного термина при составлении поисковых образов документов или запросов следует использовать другой, являющийся дескриптором. Именно так ликвидируется в тезаурусах синонимия.
Если из нескольких синонимов один выбран в качестве дескриптора, то остальные (в нашем случае это термин «Порошки абразивные») при этом получают название ключевых слов. Наличие в тезаурусе ключевых слов с отсылками к соответствующим дескрипторам облегчает индексирование документов, обеспечивает быстрый поиск нужного термина, способствует повышению качества функционирования ИПС.
Тезаурус является необходимым лингвистическим пособием любой механизированной или автоматизированной информационно-поисковой системы, использующей ИПЯ дескрипторного типа.
Первые тезаурусы, удовлетворяющие специфическим задачам информационного поиска, были разработаны в начале 60-х годов нашего века.
В соответствии с тематическим профилем различают многоотраслевые, отраслевые и узкотематические тезаурусы. Наиболее известны из информационно-поисковых тезаурусов следующие:
тезаурус АСТИА (Агентство службы технической информации США) – 1-е издание в декабре 1962 г.;
тезаурус технических и научных терминов, наиболее крупный из существующих тезаурусов (23364 слова, из которых 17810 слов выступают в качестве дескрипторов). Этот труд, вышедший в свет в декабре 1967 г., представляет собой совместное издание Документального центра Министерства обороны США и Объединенного совета инженеров;
тезаурус научно-технических терминов под общей редакцией Ю.И. Шемакина (М., Воениздат, 1972 г.). Этот тезаурус, включающий 19000 терминов, из которых 15000 являются дескрипторами, может служить примером отечественного многоотраслевого тезауруса.
К многоотраслевым тезаурусам можно отнести также тезаурусы международных информационных служб по атомной энергии. Тезаурус Евратома, изданный в 1966 и 1967 гг. и Тезаурус Международного агентства по атомной энергии в Вене («ИНИС»-Тезаурус), 6-е издание которого вышло в свет в 1974 г.
Примерами тезаурусов отраслевого масштаба могут служить: словарь дескрипторов по химии и химической промышленности, изданный НИИТЭХИМ в 1973 г. (1033 дескриптора, 5373 ключевых слова), тезаурус дескрипторов по образованию, используемый в автоматизированной системе Информационного центра в области народного образования США (1967 г.).
Даже этот небольшой перечень может дать представление о том, насколько велика роль информационно-поисковых тезаурусов в поиске информации. В настоящее время во всем мире ведется интенсивная работа по построению ИПТ различного назначения.
Для соединения «слов» тезаурусов в «фразы» применяются грамматические средства ИПЯ – правила составления поисковых образов с помощью дескрипторов ИПТ. Грамматики, применяемые в ИПЯ, бывают самыми различными. Одни регламентируют порядок дескрипторов в ПОДах и ПОЗах, другие – приписывают каждому дескриптору числа, характеризующие их значимость для поискового образа, третьи – указывают на роль каждого дескриптора при помощи специальных указателей и т.д. Применение грамматических средств в некоторых случаях позволяет более точно передавать содержание документов и тем самым улучшать поисковые характеры ИПС.
Подробное освещение классификационных и дескрипторных ИПЯ, информационно-поисковых тезаурусов и лингвистических (т.е. языковых) аспектов автоматизированных ИПС объясняется тем, что они оказывают решающее влияние на функционирование ИПС. Какой бы мощной и современной ЭВМ мы ни располагали, без правильно выбранного поискового языка вся система будет работать неэффективно.
Совершенствование ИПЯ во многой зависит от достижении в области теории семантической информации и направлений лингвистики. Поэтому появление автоматизированных ИПС послужило толчком к интенсивным исследованиям в области этих наук. Очень заманчиво, например, поручить вычислительной машине такую трудоемкую операцию, как реферирование документов. Одним из способов реализации этой идеи является выделение машиной в тексте таких предложений, которые содержат наиболее значимые для данной области знаний термины (а таковыми являются дескрипторы тезауруса этой области знаний, который хранится в памяти машины). Из этих предложений формируется реферат документа.
Другой, более сложный путь состоит в синтезе самих предложений после выделения в тексте наиболее значимых терминов. Все это требует от ЭВМ обширных «познаний» в области лингвистики. Решение все новых и новых проблем теоретической и прикладной лингвистики имеет конечной целью улучшение «взаимопонимания» между человеком и ЭВМ, а следовательно, и более полное использование возможностей вычислительной техники.
В последнее время в информатике прочно утвердился термин «лингвистическое обеспечение», который обобщает все те проблемы лингвистического характера, которые необходимо решить для обеспечения деятельности автоматизированных информационно-поисковых систем. Лингвистическое обеспечение – необходимый и очень важный элемент любой автоматизированной ИПС.
И проблемы технические
Вычислительные машины не сразу нашли широкое применение в информационном поиске. Причиной этому послужила высокая стоимость и низкая эффективность работы первых ИПС. Однако такое положение длилось не долго. Прогресс вычислительной техники сделал применение ЭВМ к поиску научной информации не только целесообразным с точки зрения эффективности поиска, но и выгодным экономически.
Автоматизированные ИПС (АИПС), реализованные на ЭВМ, появились на рубеже 60-х годов. Уже в 1961 г., по данным Центра по обработке научной информации Евратома, из 121 ИПС, созданных в разных странах мира, 16 были реализованы на ЭВМ. За прошедшие годы число АИПС неизмеримо возросло. Стремительным был и качественный рост АИПС, обусловленный с одной стороны, быстрым совершенствованием технических средств, с другой – развитием теоретических работ в области информатики.
Роль технических средств в обработке научной информации настолько велика, что само становление и развитие информатики связывают с ходом работ по механизации и автоматизации процессов обработки информации. В развитии информатики в связи с этим можно проследить три периода.
Первый период (1950-е годы) связан с первоначальными исследованиями и опытно-конструкторскими разработками, получившими широкое признание и заложившими здание современной информатики.
В течение второго периода (1960-е годы) в широких масштабах началось промышленное внедрение АИПС. К концу периода потребителей обслуживали сотни крупных информационных систем различных типов.
В настоящее время мы переживаем третий период развития информатики. В чем же его особенность?
Уже к концу 1960-х годов стала очевидной малая экономичность большого числа независимых (автономных) информационных систем, зачастую обрабатывающих сходными методами одну и ту же информацию для решения сходных задач Продолжающийся рост объемов информационных массивов требовал дальнейшего снижения себестоимости информационных процессов.
В поисках решения возникших проблем выяснилось, что гораздо экономичнее хранить документ в памяти ЭВМ как бы разобранным на отдельные фрагменты и при необходимости предоставлять эти фрагменты потребителю в самых разнообразных и удобных для него сочетаниях.
Информационная система, построенная по такому принципу, фактически объединяет, интегрирует в себе сразу несколько информационных систем, предназначенных для выполнения только определенной функции.
Системы, которые при однократной исчерпывающей обработке документальных источников научной информации и однократном вводе результатов этой обработки в машину в дальнейшем позволяют многократно использовать эту информацию для решения самых разнообразных задач, называются интегральными информационными системами (ИИС) К задачам, решаемым с помощью ИИС, относятся:
ретроспективный поиск информации, при котором ИПС отыскивает документы с необходимыми сведениями, фактами во всем накопленном массиве таких документов, причем это делается по разовым информационным запросам, т.е. в режиме «запрос-ответ».
избирательное распространение информации – поиск по постоянным запросам некоторого ограниченного числа потребителей (абонентов), который осуществляется через установленные промежутки времени только в массиве документов, поступивших в ИПС за этот период времени, причем между данной системой и ее абонентами постоянно поддерживается обратная связь.
подготовка реферативных журналов с различными указателями (авторскими, алфавитно-предметными и т.д.).
подготовка бюллетеней сигнальной информации, назначением которых является быстрое (не более 1...2 недель с момента получения оригиналов) оповещение потребителей обо всех новых публикациях по интересующим их отраслям (дисциплинам), проблемам или предметам.
Помимо этих основных функций многие ИПС выполняют различные вспомогательные операции, например, статистическую обработку ключевых слов с целью автоматизированного построения тезауруса, автоматический перевод на информационно-поисковый язык – автоматическое индексирование. При автоматическом индексировании ЭВМ сама выбирает наиболее подходящие для поискового образа документа термины из его текста (для осуществления автоматического индексирования в память ЭВМ приходится вводить полные тексты рефератов документов).
Появление интегральных информационных систем – важная, но не единственная сторона процесса интеграции обработки научно-технической информации. Другой стороной этого процесса было объединение при помощи каналов связи отдельных информационных систем в комплексы – так называемые сети.
Разработка теоретических принципов построения информационных сетей различного уровня и назначения и их практическое создание составляют содержание третьего, современного периода развития информатики.
Многофункциональные системы, какими являются ИИС, объединенные в сети, обеспечивают несравненно большую эффективность процессов обработки научной информации.
Три периода развития информатики достаточно точно совпадают во времени с периодом распространения очередных поколений ЭВМ (50-е годы – I поколение, 60-е – II, 70-е – III поколение), что еще раз свидетельствует об огромной роли средств вычислительной техники в реализации задач информатики. Здесь мы наблюдаем единство в развитии технических средств обработки информации и научной дисциплины, изучающей природу, свойства и распространение самого важного на сегодня вида информации – научной информации.
Какие же характеристики современного состояния вычислительной техники имеют первостепенное значение для решения задач информатики, выполнение которых «возложено» на автоматизированные ИПС?
Для потребителя информации при его взаимодействии с АИПС наиболее важным является форма обращения к ней и скорость, качество и форма выдачи ответа на запрос. Остановимся подробнее именно на этих моментах функционирования АИПС – вводе и выводе информации.
Ввод информации, в том числе и запросов потребителей, может осуществляться в настоящее время либо с промежуточных носителей (перфокарт, перфолент), либо путем непосредственного ввода сигналов, получаемых от технических средств через каналы связи, либо через устройства прямой связи человека с ЭВМ при помощи пультов.
Особенно интересным представляется третий способ ввода информации, так как после появления систем, работающих в режиме разделения времени (первые такие системы появились в 1963...1964 гг.), появилась возможность одновременного доступа к системе сразу нескольких пользователей, зачастую удаленных от ЭВМ на большие расстояния.
Режим разделения времени позволил пользователю вступить в непосредственный «диалог» с информационно-поисковой системой, используя для этого клавиатуру пишущей машинки: и запрос, и ответ системы на него печатались на бумаге.
Одним из наиболее удобных средств для связи человека с машиной являются экранные пульты – дисплеи. Но возможность работать с дисплеем не является единственным перспективным способом доступа пользователя к информации. Вывод информации из системы может быть осуществлен не только на экран, но и на традиционные носители, например на бумагу.
Для связи человека с машиной могут использоваться совокупности методов и технических средств копирования и размножения документов. Предположим, что система в ответ на запрос выдала (распечатала на бумаге, высветила на экране дисплея) названия тех документов, которые отвечают на запрос, может быть даже воспроизвела на экране весь текст нужного документа. Но как пользоваться в дальнейшем этой информацией? Выход один: снять с документа копию. Здесь на помощь приходят средства ретрографии. С помощью этих средств современные информационные системы копируют огромное количество документов. При этом скорости отдельных копировальных аппаратов могут достигать скоростей полиграфического оборудования (до 3600 копий/ч) при высоком качестве воспроизводимых копий.
Легкость воспроизведения документов породила, как ни странно, новую проблему. Если ученый или специалист получил от АИПС копии всех релевантных документов, то вряд ли он сможет решить проблему их хранения. Ведь это, по сути дела, те же самые документы, ведь копии-то выполнены на бумаге!
С течением времени человечество решило и эту проблему путем резкого уменьшения физического объема документов (копий документов) с помощью микрофильмирования. Этот способ хранения документов был известен почти сто лет назад. Уникальные практические возможности микроносителей продемонстрировал парижский фотограф Дагрон. В 1870 г. между французским правительством в Type и осажденным прусскими войсками Парижем курсировала оригинальная почта. Телеграммы и письма в Париж пересылались на микропленке голубями. Письма проецировали на экран, с которого затем переписывали. Всего почтой Дагрона в осажденный город было доставлено более 115 тыс. телеграмм и около полумиллиона писем! Так микрофильм сдал экзамен на практичность. Однако в течение длительного времени микрофильм в силу ряда причин не находил широкого применения.
Достойное место среди других носителей информации микрофильм нашел в наше время, когда появились читально-копировальные аппараты, которые позволяют не только просмотреть микрокадр, но и получить увеличенную его копию на специальной бумаге. Такие устройства широко используются в крупнейших библиотеках и информационных центрах, например, в ГПНТБ СССР, Всесоюзной патентно-технической библиотеке.
В настоящее время документы на микроносителях составляют значительную часть фондов библиотек. Так, в Государственной библиотеке СССР им. В.И. Ленина ежегодно микрофильмируется 30 млн. книжных и журнальных страниц. В США в 1969 г. в фонде каждой научно-технической библиотеки в среднем на каждые 100 книг приходилось 28 микроносителей.
Главным преимуществом микрофильма является его малый объем. При достигнутых сверхвысоких кратностях уменьшения (до 150...250 крат), реализованных с помощью так называемых ультрамикрофиш или ультрафиш, стало возможным уменьшение в 62 500 раз! При таком уменьшении в пачке пленок форматом 75?125 мм и высотой 8 см можно разместить 1 млн. страниц текста!
Если фонд АИПС хранится в виде микрофильмов, то работа такой системы организуется следующим образом: с помощью ЭВМ определяются адреса релевантных документов, затем с помощью специального устройства эти документы отыскиваются по их адресам в массиве микрофильмов, а уже потом с них получают копии обычных размеров, либо просматривают на читающем устройстве. Если же массив документов хранится в АИПС на машинных носителях, например на магнитных лентах или дисках, то после непосредственного вывода информации на экран дисплея последний может быть сфотографирован. Так в настоящее время осуществляется вывод информации из ЭВМ на микрофильм.
Особое значение в этом плане приобретают скоростные микрофотопечатающие устройства типа «СОМ» (Computer Output Microfilm), обеспечивающие непосредственную регистрацию данных с ЭВМ на различного рода микрофильмы (рулонные микрофильмы, микрофиши и т.п.). Примером может служить скоростная микрофильмирующая система «СОМ-90» с производительностью 90 тыс. знаков в секунду. Такая скорость позволяет «печатать» за 1 минуту 300...500 страниц, каждая из которых содержит 64 строки по 132 знака.
При подготовке тиражных изданий в автоматизированных ИПС до последнего времени узким местом был набор, на который затрачивалась значительная часть технологического времени. В современных интегральных информационных системах сейчас используются быстродействующие фотонаборные машины высокой производительности. Например, машина Ultra-Digiset набирает текст со скоростью 8 тысяч знаков в секунду, машина IBM-2680 – 6 тысяч, а фотонаборная машина Linotron-1010 имеет быстроту действия до 100 тысяч знаков в секунду.
Совершенное техническое оснащение систем научной и технической информации требует и соответствующего уровня лингвистического обеспечения этих систем. Это особенно важно в период интеграции информационных систем, когда последние переходят к более тесному взаимодействию. Например, в настоящее время технически несложно организовать обмен информацией между автоматизированными системами при помощи машинных носителей. Предположим, сформированный в одной системе массив информации записывается на магнитную ленту, доставляется в другую ИПС, в массиве которой осуществляется поиск. Такой обмен информацией резко повышает эффективность систем. Однако он требует их совместимости. Это значит, что системы должны использовать сходные ИПЯ, математическое обеспечение, ориентироваться на определенную группу технических средств. В таких случаях особую сложность часто представляют лингвистические проблемы.
Автоматизированные информационно-поисковые системы широко применяются в народном хозяйстве нашей страны, осуществляя как ретроспективный поиск, так и текущее информирование потребителей.
Вот уже несколько лет в приборостроении функционирует автоматизированная система научно-технической информации (АСНТИ) «Реферат», стержнем которой является автоматизированная информационно-поисковая система. АСНТИ «Реферат» обеспечивает все категории потребителей информацией документального характера по тематике отрасли и работает в режимах ретроспективного поиска и избирательного распространения информации.
Документальный фонд АСНТИ «Реферат» ежегодно увеличивается на 110...115 тыс. документов. Рефераты документов наносятся на специальные реферативные бланки, которые затем микрофильмируются. Поисковые образы и номера этих документов вводятся в память ЭВМ. В режиме избирательного распространения информации поиск проводится раз в месяц на массивах новых поступлений (10 тыс. документов). Процесс обслуживания включает: сбор и индексирование запросов, т.е. формирование их поисковых образов; ввод поисковых образов запросов в систему; поиск номеров соответствующих документов на ЭВМ; поиск микрофотокопии нужного реферативного бланка в автоматизированном накопителе микрофильмированной информации; изготовление копии реферативного бланка на бумаге; рассылку копий документов абонентам (по почте или с помощью средств оперативной передачи данных).
С 1973 г. обслуживание абонентов системы ведется на договорных началах. В 1976 г. АСНТИ «Реферат» осуществил обслуживание 274 коллективных абонентов. Система удобна тем, что в начале предоставляет потребителям рефераты документов, отвечающих на запрос, которые позволяют решить, нужно ли затребовать сам документ (его копию). Вполне возможно, что знакомство с полным текстом документа и не потребуется, ибо реферат содержит важнейшие данные о нем.
Примерами автоматизированных систем НТИ, находящихся в промышленной эксплуатации, могут быть система «АСИНИТ», функционирующая во Всесоюзном научно-техническом информационном центре (ВНТИЦентре), АСНТИ «Электротехника», обслуживающая многочисленных абонентов электротехнической промышленности. Эти системы насчитывают в своих поисковых массивах от 600 тыс. до 1 млн. документов. Ежегодный прирост массивов исчисляется сотнями тысяч документов.
В настоящее время в нашей стране в промышленной эксплуатации насчитывается более двух десятков крупных автоматизированных ИПС. Множество таких систем работает в экспериментальном режиме.
С каждым годом в области автоматизации обработки НТИ происходят заметные перемены.
Исследования в области автоматизации процессов обработки НТИ интенсивно ведутся не только в нашей стране, но и во многих других странах мира, где создаются высокоэффективные информационные службы. Так, в США разработана автоматизированная система MEDLARS, которую часто называют прообразом систем будущего. Эта гигантская система, работающая в области медицины, ежемесячно «впитывает» в себя данные по 15 параметрам из 2300 медицинских журналов, которые издаются на земном шаре. Операции по вводу информации осуществляются как в США, так и еще в 9 странах – с которыми система соединена каналами прямой связи. В год эта система аккумулирует информацию из 20000 статей и 16000 монографий. Получить доступ к системе можно во многих городах США: терминалы установлены в десяти медицинских библиотеках, в 500 больницах, институтах и других учреждениях. Система имеет также региональные центры в различных странах мира. Например, автоматизированный центр биохимической информации в Швеции является региональным центром MEDLARS для скандинавских стран. Многоязычная структура массива системы позволяет использовать его в международном масштабе. Потребители получают возможность «беседовать» с системой, формулируя свои вопросы на естественном языке и в самой различной форме, касаясь самых различных аспектов медицины. Система MEDLARS имеет техническую базу, включающую ЭВМ IBM-370/155 и фотонаборные машины. Выпускаемое системой ежемесячное информативное издание содержит сведения более, чем о 14000 публикациях.
В 1976 г. завершилась автоматизация одной из старейших действующих систем информационного обслуживания – информационной службы Американского химического общества CAS (Chemical Abstracts Service). В систему введена информация о 3,36 млн. химических веществ. Здесь обрабатывается около 14 000 периодических научно-технических изданий из 134 стран на 56 языках, патенты 26 стран и другие материалы. Ежегодно в систему поступает около 100 тыс. документов. Основой информационного обслуживания службы CAS является реферативный журнал по химии и химической технологии на английском языке. Выпускается ряд других информационных изданий. Наряду с периодическими изданиями, эта служба издает инструкции, руководства, справочники, а также сборники рефератов, ориентированных на небольшие группы потребителей, поскольку благодаря высокой степени автоматизации и механизации подготовка и издание таких сборников стали экономически выгодными. Все издания готовятся к печати с помощью фотонабора на базе ЭВМ.
С 1970 г. вступила в действие созданная по инициативе СССР и США Международная система ядерной информации (INIS), объединившая национальные информационные системы по атомной науке и технике. В 1972 г. система обрабатывала около половины мировой литературы в этой области знаний. Тематический охват системы весьма обширен: ее тематика сейчас включает практически все разделы мирного использования атомной энергии.
Крупные информационные органы (CAS – США, Excerpta Medica Foundation – Нидерланды и другие) в последнее время перешли к распространению подготовленных в централизованном порядке информационно-поисковых массивов на магнитных лентах.
Автоматизация, внедряясь в сферу обработки научной и технической информации, увеличивает «управляемость» информационных потоков, способствует установлению контроля человека над ними.
Плюс аналитико-синтетическая обработка!
Автоматизация процесса поиска документов в огромных массивах современных информационных центров и библиотек не избавляет потребителей информации от неприятностей, связанных с информационным кризисом. Парадоксально, но она... только видоизменила его. Если до применения автоматизированных ИПС потребитель терялся среди огромной массы ненужной информации, то ЭВМ обратила его внимание на поток, максимально отвечающий его потребностям. Но, к сожалению, информации все же слишком много, чтобы успевать просматривать ее, оставляя время хотя бы для сна.
Информационный кризис не был бы принципиально преодолим вообще, если бы научная информация не обладала важнейшим свойством – кумулятивностью. Так, содержание научной статьи может быть кратко изложено в реферате, многие пространные выводы сведены до лаконичных математических формул. Достижения науки были бы гораздо скромнее, если бы каждый ученый не мог воспользоваться теми знаниями, которые накоплены обществом до него, если бы он открывал законы природы заново. И поскольку воспользоваться этими знаниями, а следовательно, и внести в прогресс что-либо новое невозможно без обращения к научным документам, то каждое поколение ученых занято не только получением новых научных данных, но и специальной работой по систематизации, оценке и обобщению научной информации, которая и основана на ее кумулятивности. Такая работа основана, с одной стороны, на анализе научной информации, с другой – на синтезе новой информации. Поэтому эта работа называется аналитико-синтетической обработкой (АСО) информации Ее можно сравнить с той, которую проводят пчелы, собирая нектар с тысяч цветов и превращая в конце концов его в целебный мед.
Извлечь из документа его основной смысл, как это делается при составлении рефератов, обобщить информацию, содержащуюся в десятках публикаций в одном сжатом обзоре – вот задачи аналитико-синтетической обработки научных документов, решение которых позволяет не только уменьшить физический объем документов при сохранении их основного содержания, но и синтезировать новую информацию.
Наряду с автоматизацией процессов обработки документальной информации большое внимание уделяется и АСО: растет количество всевозможных обзоров, каталогов, указателей, реферативных журналов, пользование которыми значительно облегчает труд ученых и специалистов. Эти документы, созданные в результате аналитико-синтетической обработки других, называются вторичными.
Некоторые виды вторичных изданий могут быть подготовлены автоматически (авторские, предметные указатели и т.д.). Однако основной формой документа, отражающего результаты анализа и синтеза информации, является обзор. Подготовка обзоров, в том числе высшей их формы – аналитических обзоров, разумеется, под силу только высококвалифицированным специалистам. Существуют и объединяющие их усилия организации, которые выполняют работу по подготовке обобщенной научно-технической информации. Они получили название центров анализа научно-технической информации.
В начале шестидесятых годов в нашей стране были созданы информационные органы, которые осуществляли аналитико-синтетическую переработку источников информации и подготавливали на этой базе информационные издания, содержащие фактографические данные. В настоящее время свыше 30% информационных органов предприятий группы машиностроительных отраслей имеют в своем составе подразделения анализа и обобщения информации, укомплектованные специалистами по тематике предприятия.
Подразделения анализа информации успешно развиваются, прежде всего, в составе отделов НТИ крупных головных институтов, однако в ряде организаций такие подразделения являются самостоятельными отделами головных НТИ, использующими фонды и справочный аппарат ОНТИ.
Наиболее крупные центры анализа и обобщения информации действуют в составе отраслевых и подотраслевых информационных органов.
Деятельность центра анализа информации позволяет руководству принимать обоснованные управленческие решения на информационной и экономической основе, существенно повышать уровень разработки планов – от годового до перспективного. Совершенно исключительное значение имеет эта деятельность для прогнозирования развития отрасли.
За рубежом также уделяется большое внимание деятельности центров анализа и обобщения информации. Небезынтересно отметить, что, по данным США, эффект от деятельности центров анализа информации составляет 4,2 доллара на 1 доллар затрат.
Итак, по мере нарастания потоков научной и технической информации человечество предпринимает все более энергичные меры, чтобы уберечь мир от информационного хаоса. За короткий срок – каких-нибудь тридцать лет – технические средства обработки научно-технической информации претерпели революционные изменения.
В результате на сегодняшний день потребитель информации располагает целым арсеналом средств, позволяющим ему эффективно ориентироваться в потоках информации. О появившихся новых публикациях по интересующей его проблеме ему сообщит бюллетень сигнальной информации. Поближе познакомиться с новинками он может, просмотрев реферативный журнал, причем если его интересуют публикации определенных авторов или публикации по узким конкретным вопросам – к его услугам авторский, предметный и другие указатели, обычно прилагаемые к журналу. Потребитель может непосредственно взаимодействовать с автоматизированной ИПС при поиске как документальной, так и фактографической информации. Наконец, весьма ценную информацию он почерпнет из обзорных документов, подготовленных наиболее квалифицированными специалистами той области знаний, в которой он работает. Если представить себе потребителя информации погруженным в своеобразную «информационную среду», из которой он черпает необходимую информацию, то надо признать, что в настоящее время она стала для него гораздо более «комфортной». Однако, как известно, «комфортность информационной среды» требует от общества весьма значительных затрат. Можем ли мы, например, ожидать, что по любому выбранному нами тематическому направлению мы обязательно встретим обзорный документ? Конечно, нет. Вторичные документы обзорного характера должны быть рассчитаны на широкий круг потребителей и посвящены ключевым вопросам науки и техники.
Выбрать эти ключевые вопросы, точно рассчитать силы и средства для обеспечения максимального эффекта от аналитико-синтетической обработки документов, как и от автоматизации обработки документальной информации, можно только в том случае, если регулировать эти работы в государственном масштабе.
В нашей стране эти функции возложены на Государственную систему научно-технической информации.
Что Вы знаете о ГСНТИ?
Все, что может человечество противопоставить информационному кризису, объединяется понятием «научно-информационная деятельность».
Под этим понятием подразумевается разновидность научного труда, заключающаяся в сборе, аналитика-синтетической обработке, хранении и поиске закрепленной в документах научной информации, а также в предоставлении этой научной информации ученым исследователям и специалистам в кратчайшее время и в удобной для них форме.
В давние времена ученый сам ставил эксперименты, обобщал их и создавал теории. С течением времени в науке, как и в любой другой области деятельности, наметилось разделение труда. Выделилось теоретическое и экспериментальное направления. Мы являемся современниками становления третьего самостоятельного вида научного процесса – научно-информационной деятельности.
Ученые, занимающиеся научно-информационной деятельностью, – это не пассивные поставщики информации для теоретиков и экспериментаторов. Занимаясь обработкой, хранением и распространением научных знаний, они участвуют в научных открытиях, внося в качестве научного вклада все то, что они сумели рассмотреть в структуре и динамике научных знаний.
Основные направления научно-информационной деятельности – АСО и автоматизация обработки НТИ – связаны с большими материальными затратами. Аналитико-синтетическая обработка требует, например, привлечения самых квалифицированных специалистов, а создание автоматизированных ИПС высокого уровня – самых современных быстродействующих ЭВМ с огромным объемом запоминающих устройств.
Научно-техническая информация представляет собой один из национальных ресурсов, который должен быть использован с максимальным эффектом – от этого во многом зависит социально-экономическое развитие страны. Наиболее прогрессивной формой реализации научно-информационной деятельности является Государственная система НТИ. В отличие от капиталистических стран, в СССР государственный контроль над использованием этого ресурса в интересах всего общества стал реальностью, воплотившейся в ГСНТИ.
Коммунистическая партия Советского Союза и Советское правительство уделяют постоянное внимание развитию и совершенствованию Государственной системы НТИ. В последние десять лет ЦК КПСС и Совет Министров СССР приняли ряд важных постановлений, определивших принципы ее создания и развития. В результате в СССР создан единый комплекс информационных служб, оказывающих большое влияние на повышение эффективности общественного производства. Что же представляет собой ГСНТИ?
Структура ГСНТИ в значительной степени соответствует системе управления народным хозяйством. Это значит, что каждому уровню управления – министерству (ведомству), объединению, научно-исследовательской или проектно-конструкторской организации, ВУЗу, предприятию соответствует звено системы информации, которое в своей деятельности взаимосвязано с другими звеньями. Звенья эти не что иное, как органы НТИ различного уровня. Таких уровней в системе четыре.
Первый уровень охватывает 10 всесоюзных органов НТИ, которые централизованно обрабатывают мировой поток НТИ по соответствующим видам документов и информируют потребителей о достижениях науки и техники.
Исключительное место в этой десятке по праву принадлежит Всесоюзному институту научной и технической информации (ВИНИТИ). Этот, не имеющий себе равных в мире, информационный орган занимается аналитико-синтетической обработкой 1,5 млн. первичных источников информации по естественным и техническим наукам. Результаты этой огромной работы печатаются в различных изданиях ВИНИТИ. Основное место в них занимает «Реферативный журнал». В нем в виде рефератов ежегодно публикуется информация более чем о миллионе статей, описаний изобретений, книг и других видов документов из 131 страны мира на 66 языках. Реферативный журнал, (РЖ), являющийся в настоящее время основой информационного обслуживания в государственной системе, выходит в виде 26 сводных томов, 148 выпусков – составных частей этих сводных томов, а также 48 отдельных выпусков. Это уникальное издание имеет 500 тыс. подписчиков. Специалист, просматривая РЖ, получает обширную информацию об интересующем его предмете; кроме того, он может при необходимости заказать копию первоисточника, реферат которого опубликован в РЖ.
ВИНИТИ публикует также ежегодные обзоры «Итоги науки и техники» (свыше 80 в год), отражающие наиболее важные достижения в ключевых направлениях мировой науки и техники. Некоторые обзоры охватывают более тысячи публикаций. Это требует огромных затрат интеллектуального труда. Поэтому работу по составлению обзоров выполняют обычно крупнейшие специалисты. О качественном составе специалистов, занятых обработкой НТИ, свидетельствуют данные о внештатных сотрудниках ВИНИТИ: в настоящее время здесь работает свыше 23 тыс. ученых и специалистов, среди которых академики и члены-корреспонденты АН СССР, доктора и кандидаты наук.
Однако деятельность ВИНИТИ не ограничивается этим видом обработки документов. Институт проводит большую работу и в области автоматизации процессов обработки документальной информации. Так, при ВИНИТИ создана интегральная автоматизированная система «АССИСТЕНТ» (автоматизированная справочно-информационная система по науке и технике). В настоящее время эта система переходит на использование ЭВМ Единой системы и других современных средств информационной техники. Предназначается она для подготовки информационных изданий разных типов, выпускаемых ВИНИТИ, а также для других видов информационного обслуживания: избирательного распределения информации (распространение информации по постоянно действующим запросам), ретроспективного поиска документов (поиска по разовым запросам во всем массиве документов), подготовки баз данных на магнитных лентах и т.д. Вычислительная техника в системе «АССИСТЕНТ» работает в комплексе с мощными фотонаборными машинами, позволяющими набирать текст со скоростью 250...300 символов в секунду – только так и можно в сжатые сроки обработать и представить в виде удобных и ставших такими привычными для нас РЖ лавину документов, которые обрабатывает ВИНИТИ. Кроме РЖ и ежегодных обзоров «Итоги науки и техники», ВИНИТИ издает еще бюллетени сигнальной информации, призванные быстро оповещать ученых и специалистов обо всех без исключения научных публикациях, поступивших в ВИНИТИ за истекшие две недели. Здесь выпускаются «Экспресс-информация» – бюллетени расширенных рефератов только иностранных публикаций, представляющих интерес для советских ученых и специалистов, а также библиографические и реферативные картотеки и, кроме того, перфокартотеки по некоторым отраслям науки и техники. Создание (1952 г.) и развитие ВИНИТИ представляет собой наглядную демонстрацию эффективности социалистической системы хозяйствования в области распределения важнейшего национального ресурса – научно-технической информации.
«Сколько миллиардов рублей, сколько десятков тысяч человеко-лет сложных исследований и разработок сэкономила эта система России, останется неизвестным. С другой стороны, нужно ли удивляться, что при наличии такой системы русская наука и техника быстро так догнала нас?» – писал американский журнал «Air Force Magazine» о ВИНИТИ в 1957 году.
Видное место в ГСНТИ занимает Всесоюзный научно-технический информационный центр (ВНТИЦентр), который осуществляет государственную регистрацию и учет законченных и выполняемых в стране научно-исследовательских и опытно-конструкторских работ (НИР и ОКР). Фонд ВНТИЦентра насчитывает более 300 тысяч отчетов, кандидатских и докторских диссертаций. Его информационными услугами пользуются не менее 17 тыс. организаций!
Во ВНТИЦентре разработана, введена в промышленную эксплуатацию и успешно функционирует автоматизированная система информации по науке и технике по неопубликуемым источникам (АСИНИТ). Так как количество проводимых в стране научно-исследовательских и опытно-конструкторских работ (НИР и ОКР) из года в год увеличивается, растет и роль ВНТИЦентра, способствующего широкому обмену информацией, устранению дублирования в исследованиях и разработках. ВНТИЦентр издает «Бюллетень регистрации НИР» и «Сборник рефератов НИР».
Ни одна из стран в настоящее время не может успешно развиваться без использования передового опыта, накопленного другими странами. В 1972 г. в СССР был создан Всесоюзный центр переводов (ВЦП), осуществляющий перевод научно-технической литературы и документации более чем с 30 языков. На ВЦП возложена и задача координации переводческой деятельности в масштабе всей страны. В ВЦП работают 5 тыс. внештатных сотрудников. Ежегодная продукция ВЦП – десятки тысяч авторских листов переводов – более 60% централизованно выпускаемых в стране переводов. Здесь издаются каталоги переводов, терминологические словари, технические справочники и пособия для переводчиков.
Центральный научно-исследовательский институт патентной информации (ЦНИИПИ – головная организация в системе патентной информации, являющейся частью ГСНТИ. Этот институт обрабатывает материалы по советским и зарубежным изобретениям и организует справочно-информационное обслуживание потребителей патентной информацией, проводит полную обработку патентных фондов, включая микрофильмирование, координирует работу по переводу патентных материалов, занимается вопросами механизации и автоматизации патентного поиска. ЦНИИПИ выпускает Бюллетень «Открытия, изобретения, промышленные образцы, товарные знаки», ежегодник «Открытия в СССР», библиографический указатель «Внедренные изобретения» и другие издания.
Ведущим в ГСНТИ институтом по нормативно-технической документации, вопросам классификации и кодирования является Всесоюзный научно-исследовательский институт классификации и кодирования (ВНИИКИ). В его ведении информация о государственных стандартах и технических условиях на изготовленные в СССР изделия, о решениях Совета экономической взаимопомощи по стандартизации и рекомендациях международной организации стандартизации (ИСО). ВНИИКИ разрабатывает единую общегосударственную систему классификации и кодирования в СССР и выполняет ряд других важных функций. Публикует широкий круг информационных изданий.
В число всесоюзных институтов информации входят также Государственная публичная научно-техническая библиотека (ГПНТБ СССР) – самая крупная в стране библиотека по всем отраслям науки и техники. Ее фонд насчитывает свыше 10 млн. печатных единиц. ГПНТБ СССР – центр библиотечно-библиографического обслуживания по естественным наукам и технике. Здесь сосредоточена информация по каталогам на выпускаемое в стране и за рубежом промышленное оборудование.
Важным условием повышения теоретического уровня научно-исследовательской работы является развитие системы научной информации по общественным наукам. Эту задачу выполняет созданный в 1969 г. Институт научной информации по общественным наукам Академии наук СССР (ИНИОН АН СССР). Здесь обрабатываются отечественные и зарубежные источники по философии, истории, экономике, праву, научному коммунизму и другим общественным наукам; 1 выпускаются реферативные, библиографические издания, аналитические обзоры по актуальным проблемам общественных наук. Институт ежегодно публикует свыше 700 отдельных выпусков научно-информационных изданий, в том числе РЖ «Общественные науки в СССР» и «Общественные науки за рубежом».
Всесоюзная книжная палата (ВКП), созданная в 1935 г., ведет учет всей выходящей в СССР печатной продукции, издает текущую библиографическую информацию. В информационных изданиях ВКП ежегодно публикуется около 600 тыс. библиографических записей. В функции ВКП входит и централизованная каталогизация всей входящей литературы, разработка вопросов теории и методики библиографии. К изданиям ВКП относятся «Книжная летопись», «Летопись журнальных статей», «Летопись газетных статей», журнал «Советская библиография» и т.д.
Методическое руководство обменом информацией между предприятиями и организациями различных отраслей промышленности – межотраслевым обменом информацией – осуществляет Всесоюзный научно-исследовательский институт межотраслевой информации (ВИМИ). Он значительными тиражами издает информационные листки (ИЛ), которые распространяются без ограничений между промышленными предприятиями различных отраслей народного хозяйства.
Наконец, Выставка достижений народного хозяйства СССР (ВДНХ СССР) является всесоюзным органом по пропаганде научно-технических достижений и передового производственного опыта. Здесь проводится обучение работников всех отраслей народного хозяйства новым методам производства. О значении ВДНХ говорят масштабы ее деятельности: в 1976 г., например, во всех разделах выставки демонстрировалось более 100 тыс. экспонатов, с которыми ознакомились более 11 млн. человек.
Даже из такого краткого описания функций всесоюзных органов НТИ виден один из основных принципов построения ГСНТИ: специализация органов НТИ на основе четкого распределения функций между ними. Специализация всесоюзных органов информации по виду документов позволяет принципиально снять дублирование в процессе обработки основных потоков литературы и документации. Главная задача всесоюзных органов НТИ – создание потока вторичной информации и доведение его до потребителя как непосредственно, так и через всю информационную сеть страны.
Второй уровень ГСНТИ составляют центральные отраслевые органы информации (ЦООНТИ), основной задачей которых является обеспечение предприятий, организаций, ученых и специалистов страны своевременной и полной информацией по проблемам, решаемым в соответствующей отрасли. Практически каждое министерство и ведомство имеет свой центральный отраслевой институт или центр НТИ, который и возглавляет отраслевую систему НТИ.
Центральные отраслевые органы информации принимают информационный поток материалов, подготовленных всесоюзными органами информации, и проводят его дальнейшую аналитико-синтетическую обработку в соответствии с закрепленной за ними тематикой.
Формы информационного обслуживания потребителей, применяемые ЦООНТИ, весьма разнообразны, но наиболее эффективной из них является избирательное распространение информации, получившее всеобщее признание у потребителей. В настоящее время ЦООНТИ активно переходят к автоматизированным способам обработки информации. Это позволяет не только расширить сферу информационных услуг, но и значительно сократить сроки доведения информации до потребителя.
Эффективно работают, например, отраслевые автоматизированные системы НТИ (АСНТИ) в электротехнической промышленности, приборостроении и в ряде других отраслей. ЦООНТИ часто называют основой ГСНТИ – так велика их роль в информационном обеспечении исследований и разработок, проводимых в нашей стране.
В отличие от второго уровня ГСНТИ, где находятся отраслевые органы НТИ, третий уровень представлен территориальными органами информации. Это республиканские институты НТИ (РИНТИ), межотраслевые территориальные центры НТИ и пропаганды (ЦНТИ) в автономных республиках, краях, областях.
Основной задачей межотраслевых территориальных органов НТИ является информационное обеспечение предприятий и организаций, расположенных на обслуживаемой ими территории, независимо от их ведомственной подчиненности. Межотраслевые территориальные органы выступают связующим звеном между всесоюзными и центральными отраслевыми органами НТИ, с одной стороны, и информационными службами НТИ, КБ и предприятий, расположенных в данном регионе, с другой стороны. Они обеспечивают заинтересованных потребителей технической документацией (рабочими чертежами) на оборудование, приспособления и оснастку, не выпускаемые централизованно промышленностью. Ежегодно ими рассылается по запросам предприятий и организаций около 200 тыс. комплектов рабочих чертежей общим объемом 1,5 млн. листов. Кроме прочих форм информационного обслуживания межотраслевыми территориальными органами НТИ широко используются радио, телевидение, кино.
Четвертый уровень ГСНТИ состоит более чем из 11 тысяч органов информации в НИИ, КБ, вузах и на предприятиях, так называемых низовых органов научно-технической информации. Низовые органы занимают особое место в ГСНТИ. Именно они находятся в прямом контакте с потребителями информации. В конечном итоге их деятельность в значительной степени определяет эффективность всей ГСНТИ в целом. Без этих служб все наши многомиллионные документальные фонды почти в полном бездействии будут покоиться на стеллажах. Отделы и бюро НТИ, используя печатную, устную и наглядную информацию, способствуют созданию в короткие сроки и при минимальных затратах новых систем, устройств, аппаратов, приборов, материалов, методов организации производства, прогрессивной технологии, отвечающих современным требованиям. При этом они выполняют еще одну очень важную функцию – организуют так называемый «восходящий» поток информации, т.е. передачу сведений о научно-технических достижениях своего предприятия или организации соответствующим ЦООНТИ и межотраслевым территориальным органам НТИ. Так формируется фонд сведений об отечественных научно-технических достижениях и передовом опыте.
Всю ГСНТИ, таким образом, можно представить себе в виде пирамиды, вершину которой составляют всесоюзные органы информации, а основание – тысячи низовых служб НТИ. От основания к вершине пирамиды движется восходящий поток документальной информации. Там эта информация подвергается аналитико-синтетической обработке и в виде упорядоченных потоков устремляется в обратном направлении от вершины к основанию.
Система НТИ нашей страны, как можно видеть из описания ее уровней, сочетает территориальный принцип информационного обслуживания с отраслевым. Это обеспечивает системе необходимую гибкость, что очень удобно для потребителей информации.
Но, пожалуй, самое важное свойство ГСНТИ – это ее динамичность. Один за другим входят в строй отраслевые и межотраслевые автоматизированные центры НТИ, в разных отраслях создаются более мелкие автоматизированные ИПС, услугами которых пользуются все большее число потребителей. Этот процесс сопровождается непрерывным совершенствованием технических средств обработки информации, что позволяет перейти к новому этапу развития ГСНТИ – созданию сети взаимосвязанных автоматизированных центров НТИ (САЦНТИ). В перспективе же намечаются контуры Государственной автоматизированной системы научной и технической информации – ГАСНТИ, которая обеспечит наиболее полное удовлетворение информационных потребностей ученых и специалистов нашей страны. Преимущества централизованной системы научно-технической информации, которая создана в СССР, перед децентрализованными, существующими во многих капиталистических странах, бесспорны. Это заставляет зарубежных исследователей все чаще обращаться к опыту организации информационного обеспечения в СССР и других социалистических государствах, где в настоящее время созданы национальные системы НТИ.
Социалистические государства показывают пример и в области международного обмена научно-технической информацией. Их совместный опыт в сфере информационной деятельности позволил в 1969 г. создать Международный центр научной и технической информации, а несколько позже (1971 – 1975 гг.) – и международную систему НТИ (МСНТИ), предусмотренную комплексной программой дальнейшего углубления и совершенствования сотрудничества и развития социалистической экономической интеграции стран – членов СЭВ.
Международная система НТИ развивается на основе кооперирования национальных систем, деятельности международных информационных подсистем по отраслям и специальным видам информации, а также на основе деятельности МСНТИ. В настоящее время в рамках МСНТИ действуют семь международных специализированных систем (МСИС) и 17 международных отраслевых систем НТИ (МОСНТИ). Создание МСНТИ отвечает задачам развития экономики стран – членов СЭВ, способствуя повышению эффективности общественного производства.
Человечество уже осознало необходимость создания организации, которая бы регулировала информационную деятельность в масштабе всей планеты. В последние годы ЮНЕСКО активно занимается созданием Всемирной системы научно-технической информации (ЮНИСИСТ). Деятельность ЮНИСИСТ направлена на кооперацию и равноправное сотрудничество между развитыми и развивающимися странами в области научно-технической информации в противовес многократному, весьма дорогостоящему и неоправданному дублированию огромных интеллектуальных усилий и материальных затрат. Опыт стран – членов СЭВ, накопленный в МСНТИ, будет способствовать созданию глобальных автоматизированных систем научно-технической информации.



+++



СОДЕРЖАНИЕ