Интегральная система информационного обеспечения научных исследований в области математических наук: концепция создания и перспективы развития - Автореферат
Классификация информационных ресурсов, баз и банков научных данных. Обоснование и создание интегрального проблемно-ориентированного информационного поля и системы взаимодействия пользователей с этим полем на примере математических и других точных наук.
Аннотация к работе
Однако применение поисковых механизмов в сети Интернет ввиду некоторой анархичности и недостаточной структуризации предоставляемой информации приводит к тому, что, как правило, значительная часть полученной информации становится излишней, а собранная по конкретному запросу информация оказывается неполной. В представлении автора такое поле включает сбор информационных ресурсов из максимально возможного числа источников информации, приведение этой информации в сопоставимый вид исходя из ориентации на конкретный запрос, «отсеивание» излишней информации и возможность использования данных этого поля для решения различных аналитических и прикладных задач. Выполненный автором анализ многочисленных публикаций на указанную тему позволяет сделать следующие выводы: а) важнейшим направлением развития качественного и оперативного информационного сопровождения науки является сопряжение различных систем классификации знаний, обеспечивающее единообразное понимание определений, терминов, понятий, категорий в различных отраслях науки и техники как в России, так и в зарубежных странах. В частности речь идет о координирующей роли ВИНИТИ в разработке Государственной системы научно-технической информации (ГСНТИ), Федеральной целевой программе (ФЦП) «Электронная Россия», о реализации важнейших программ РАН (например, «Разработка фундаментальных основ создания научной распределенной информационно-вычислительной среды на основе технологий ГРИД»), реализации контрактов и договоров с Министерством промышленности, науки и технологий Российской Федерации (ныне Министерство образования и науки), (“Формирование открытых баз данных научной и научно-технической информации, развитие Государственной системы научно-технической информации” Гос. контракт № 37.670.11.0131 от 14.05.2002, “Программно-технологический комплекс обеспечения формирования и использования государственных ресурсов научно-технической информации” Гос. контракт № 37.053.1.1.0055 от 01.02.2002 г. в рамках ФЦНТП “Исследования и разработки по приоритетным направлениям развития науки и техники на 2002-2006 гг.”, “Навигационные системы по информационным ресурсам Государственной системы НТИ”, Гос. контракт № 37.053.1.1.0058 от 01.02.2002 г.), с Минэкономразвития (“Формирование открытых баз данных научно-информационных ресурсов в области образования, науки и культуры (2002-2010 гг.)” в рамках ФЦП “Электронная Россия”, Гос. контракты № 14.152 и № ЭР.06.19 от 29.11.2005 г.), в выполнении серии проектов РФФИ (01-07-90130 «Создание базы данных “Математика”», 04-07-90332 и 06-07-89154 “Развитие базы данных “Математика”), (01-01-14045, 02-01-14047 и 06-01-14042 «Издание сборников научных статей «Итоги науки и техники». Кроме того следует отметить ряд работ, выполнявшихся непосредственно в ВИНИТИ: “Совершенствование классификационных систем ВИНИТИ (в части Рубрикатора отраслей знания, рубрицированием информационных продуктов ВИНИТИ и УДК)” (январь 2003 - декабрь 2005), “Совершенствование классификационных систем областей знания для целей индексирования и информационного поиска в базах данных ВИНИТИ” (2004-2006 гг.), “Генерация Единой технологической базы данных ВИНИТИ и развитие ее программно-аппаратного комплекса” (2005 - 2007), “Генерация и развитие базы данных и полнотекстовой электронной библиотеки русскоязычной физико-математической литературы” (2005-2007 гг.) или в сотрудничестве с другими институтами РАН при координирующей роли ВИНИТИ (“Разработка проектов государственных стандартов, рубрикаторов, кодификаторов и классификаторов для обеспечения функционирования федеральной системы кодификации знаний”, Дог.
Список литературы
Основные результаты диссертационной работы опубликованы в 20 печатных работах, в числе которых две книги и одно учебное пособие, и отражены в 11 отчетах по НИР.
Структура и объем работы.
Диссертация состоит из введения, пяти глав, заключения, списка использованной литературы и приложений. Диссертационная работа изложена на 252 страницах, содержит 42 рисунка, 28 таблиц, 6 приложений и библиографию из 264 наименований.
Основное содержание работы информационный математический база данные
Во введении дается общая характеристика проблем, связанных с эффективным использованием электронных информационных ресурсов. Определяется роль информационной системы ВИНИТИ в поддержке научных исследований, особенно в области математики и других точных наук. На основе проведенного автором анализа формулируются основные задачи совершенствования современной систематики информационных ресурсов, поисковых механизмов и перехода на качественно новый уровень обслуживания пользователей (на примере принципиально нового фрагмента в информационной системе ВИНИТИ - БД «Математика»).
В первой главе последовательно рассматриваются вопросы истории развития и современного состояния информационной поддержки научных исследований в области фундаментальных и других точных наук, в первую очередь математики. В большинстве случаев научные исследования опираются на тщательное изучение достигнутых результатов, которые обычно фиксируются в статьях, докладах, книгах, трудах различных научных форумов (семинарах, конференциях, симпозиумах, конгрессах, школах и др.). На основе опубликованных материалов формируются разнообразные архивы и хранилища достижений науки, некоторые из которых имеют историю в сотни лет.
В историческом разрезе ведущая роль информационной поддержки научных исследований принадлежала библиотекам. Анализ объемов информации, содержащейся в научных журналах, книгах и других источниках, показывает, что эти объемы стремительно растут и в последнее время более чем удваиваются практически каждые 10-15 лет. Чтобы облегчить поиск и использование необходимой информации, стали применяться различные системы классификации информационных ресурсов. Впоследствии широкое распространение получили реферативные журналы, среди которых необходимо отметить широко известную в мире систему реферативных журналов ВИНИТИ.
В последнее время получают широкое распространение и электронные аналоги опубликованной литературы, сведения о которых концентрируются в многочисленных банках и базах данных. В результате со всей остротой встала проблема перехода от количественного накопления первоначальных данных к аналитической обработке научных публикаций.
На основе проведенного автором аналитического обзора современных источников формирования электронных информационных ресурсов, в том числе по математическим и другим точным наукам, показано, что к основным требованиям, предъявляемым к информационному сопровождению научных исследований, относятся полнота и доступность информации, релевантной запросам пользователей. В этой связи важно кратко охарактеризовать существующие электронные информационные источники за рубежом и в России.
Сегодня одним из крупнейших в мире источников научной информации, в том числе по математике и другим точным наукам, является международное объединение STN International (Scientific & Technical Information Network), которое было создано в 1987 г. и управляется совместно тремя крупнейшими информационными центрами - FIZ Karlsruhe (Германия), CAS (США) и JICST (Япония).
В STN International три ее континентальных сервисных центра связаны между собой оптоволоконными телекоммуникационными линиями связи и образуют систему, работающую как единое целое. Пользователи обращаются к STN International как к единой системе.
FIZ Karlsruhe (Fachinformationszentrum Karlsrue) является ведущим информационным центром Германии в области математики, физики, энергетики и смежных отраслей знаний. С первого дня основания в 1987 г. он работает как сервисный центр для пользователей библиографических, фактографических и полнотекстовых БД в режиме online.
Реферативная служба по химии Американского химического общества (CAS) является главным мировым центром в области химической информации и ряда других областей знаний.
Информационный центр по науке и технике Японии (Japan Information Center for Science and Technology (JICST)) был создан в 1957 г. и является главным информационным центром по науке и технике этой страны. JICST производит разнообразные БД. Наиболее известной из них является БД JICST-EPLUS, с 1985 г. отражающая на английском языке все японские публикации в областях науки, техники и медицины.
В работе приводятся примеры, характеризующие конкретные БД в сети STN International (их насчитывается более 200), и указываются отражающие информацию по математике и смежным областям науки и техники. Базы данных, рассмотренные в работе, ранжированы следующим образом: 1. Математические БД, представляющие фундаментальную и прикладную математику, а также информацию о проблемах математического образования.
2. Политематические БД, в предметных классификаторах которых содержатся математические разделы.
3. БД, в которых есть сведения о смежных с математикой областях знаний, и БД, в которых представлены некоторые аспекты математики и которые могут быть выявлены в результате прямого поиска.
4. БД по инженерным дисциплинам, использующим математический аппарат и математические методы.
Обширные сведения о реферативных и полнотекстовых базах данных содержит каталог американской информационной фирмы Cambridge Scientific Abstracts (CSA), формирование которого обеспечивается постоянным мониторингом около 100 информационных источников, включающих журналы, научные труды институтов, научных и образовательных центров, ассоциаций, фонды библиотек и т. п. Ряд общих сведений из этого каталога, имеющих прямое отношение к математическим наукам и смежным с ними отраслям знаний, включен в работу.
Приводятся сведения и о базах данных, которые содержат различного рода справочную информацию и являются путеводителями в сети STN International. В числе таких БД можно назвать LINSPEC и STNGUIDE. БД LINSPEC является учебной и предназначена для обучения пользователей баз данных INSPEC и INSPHYS. База данных STNGUIDE содержит справочные сведения обо всех базах данных, доступных в сети STN International.
Отдельный интерес представляет информационное наполнение математической базы данных, генерируемой FIZ Karlsruhe (MATH). Ее содержательная часть включает библиографию математической литературы, базу данных для поиска опубликованных статей и книг, средства для получения содержащихся в базе информационных документов.
Для усовершенствования действующей системы обслуживания и поиска в базе данных MATH предполагается проведение исследований в следующих направлениях: улучшение возможностей идентификации, «близкие поиски», расширение распределенного ввода, электронное реферирование, создание веб-портала для национальных и региональных электронных предложений - подключение узлов и реализация сетевой программы Европейского Сообщества.
Кроме STN рассматриваются еще две международные сети, которые оказывают своим пользователям компьютеризованные услуги по поиску и выдаче научной и технической информации в области смежных с математикой наук: Компьютерный библиотечный центр с онлайновым доступом (Online Computer Library Center (OCLC) и Электронная коллекция с онлайновым доступом (Electronic Collection Online (ECO)).
OCLC создан в 1967 г. для предоставления пользователям компьютеризованных библиотечных услуг и ставит своей целью дальнейшее расширение доступа к мировой информации. OCLC имеет наибольшую в мире библиографическую БД. Каталог OCLC является наиболее широко используемым в высшем образовании и содержит более 84 млн. каталожных записей на 40 языках. OCLC предлагает диапазон услуг, отвечающих потребностям библиотек всех уровней. На сегодняшний день членами OCLC являются более 57 тыс. библиотек в 112 странах.
ECO является частью службы OCLC и обеспечивает веб-доступ к полным текстам более чем 5000 журналов по всем отраслям науки. Справочная служба ЕСО в режиме online осуществляет доступ к более чем 80 БД, содержащим 3,3 млн. полнотекстовых статей по множеству предметных областей. ЕСО также обеспечивает онлайновый доступ к электронным книгам.
Среди национальных информационных центров, из которых поступают сведения о результатах и достижениях в области математических и других точных и естественных наук и оказывающих услуги по информационной поддержке научных исследований в математике и смежных областях знаний, необходимо выделить следующие: Institute for Scientific Information (ISI, Филадельфия, США), Institute de l’information scientifique et technique (INIST, Франция), Information Service for Physics, Electronics and Computing (INSPEC, Великобритания), Japan Information Center for Science and Technology (JICST, Япония).
ISI обрабатывает различные источники (журналы, книги, материалы конференций и т.п.) и на их основе формирует многодисциплинарную базу данных. В настоящее время ISI выпускает более 50 различных информационных продуктов. Основными изданиями ISI являются многодисциплинарные специализированные указатели цитирования (Science Citation Index (SCI) - указатель библиографических ссылок в журнальных статьях по точным и естественным наукам). Кроме SCI выпускаются и другие указатели цитирования, среди которых - указатель цитирования публикаций в области математики COMPUMATH Citation Index.
В ISI (ныне Thomson Scientific, TS) выходят также бюллетени сигнальной информации Current Contents (CC), основанные на использовании оглавлений научных журналов. СС издаются в виде семи отраслевых выпусков. TS создает БД SCISEARCH, отражающую библиографические ссылки во всех существенных публикациях более чем в 4,5 тыс. научно-технических журналов.
TS формирует также БД Current Contents. C 1997 г. доступна служба доставки полных текстов статей, указанных в Current Contents, - ISI Document Solution. ISI является издателем БД, нацеленных на выпуск информационных продуктов для Web и предлагающих научно-исследовательскую информацию по точным и гуманитарным наукам. БД ISI охватывает более 16 тыс. международных журналов, книг и трудов конференций. Объем БД с расширенным указателем цитирования по точным наукам, доступный через Интернет, составляет 7 Гбайт.
INIST формирует БД PASCAL (Programme Applique et a la Selection Compilation Automatiques de la Litterature). PASCAL является политематической базой данных, охватывающей с 1973 г. основную научную литературу по науке, технике и медицине, и содержит более 13,1 млн. библиографических ссылок. Наиболее полно в этой БД представлена французская и европейская научная литература, в том числе более 4000 названий научной периодики. Доступ к БД PASCAL возможен тремя путями: - в режиме online через ИПС Questel-Orbit, Dialog, Data Star, RLG;
- через Minitel (видеотекс);
- на CD-ROM, которые читаются программой GTI INIST в DOS или Windows.
В INSPEC ежегодно отражается содержание около 4 тыс. наименований научных журналов и материалов и более 2 тыс. конференций, проходящих в мире, а также книги, технические отчеты и диссертации по смежным наукам - физике, автоматике, вычислительной технике и др. С 1967 г. INSPEC формирует БД, ретрофонд которой в настоящее время - более 16 млн. записей с ежегодным приростом 500 тыс. записей, группируемых в четырех тематических разделах: А - физика; В - электротехника и электроника; С - ЭВМ и управление; D - информационные технологии.
С 1989 г. INSPEC предлагает пользователям следующие БД на компакт-дисках: INSPEC Ondisc - полная версия БД INSPEC;
INSPEC - Physics Ondisc - соответствует тематическому разделу А;
INSPEC - Electronics and Computing Ondisc - соответствует разделам B, C и D.
INSPEC издает также три печатных реферативных журнала: “Physics Abstracts”, “Electrical and Electronics Abstracts”, “Computer and Control Abstracts”. Их содержание соответствует аналогичным тематическим разделам в БД INSPEC.
JICST формирует БД, которые содержат информацию о научных исследованиях, ведущихся в областях науки, техники и инженерного дела. Источники для описания и справок включают обзоры исследований в национальных, общественных и частных институтах и университетах, отчеты о НИР и ОКР, периодические и продолжающиеся издания, материалы конференций.
В 1995 г. создана Европейская служба математической информации (European Mathematical Service, EMIS), которая предоставляет разнообразные услуги, связанные с электронной информацией и коммуникацией: базы данных, как Zentralblatt MATH (ZBMATH), электронные журналы, монографии и материалы конференций. Помимо этого в EMIS можно найти ссылки на проекты по созданию систем поиска математической информации, рубрицированию математических публикаций за прошлые годы, созданию динамических web-документов и основам управления в области математики. В будущем в Европейской службе математической информации предлагается создать БД анимированных геометрических объектов.
Следует отметить неоднородность систематики информационных ресурсов в различных зарубежных банках и базах данных, что затрудняет поиск информации и ее обмен, а также поиск ответов на запросы пользователей. Систематизированная автором информация об отечественных и зарубежных базах данных (целевых или в составе политематических) приводится в тексте диссертационной работы.
Растущее влияние электронных средств на исследования и обучение в области математических и других точных наук имеет большие преимущества, но создает также и сложные проблемы, которые еще предстоит решать: адекватный обмен информацией, исключение «информационного шума», предварительная аналитическая обработка, расширение зоны поиска адресной информации, семантическая разметка.
В России крупнейшими информационными центрами, осуществляющими централизованную обработку мирового потока научно-технической литературы и документации (включая математические науки и смежные с ней области знаний), являются: Всероссийский институт научной и технической информации РАН (ВИНИТИ), Всероссийский научно-технический информационный центр (ВНТИЦ), Библиотека по естественным наукам РАН (БЕН) и Библиотека Российской академии наук (БАН), Федеральное государственное унитарное предприятие «Всероссийский научно-исследовательский институт межотраслевой информации» (ВИМИ) и другие. Электронный каталог баз данных России и стран СНГ, включающий сведения об электронных ресурсах и выпускаемой информационной продукции и охватывающий около 2,5 тыс. баз данных, отражается в соответствующих государственных регистрах.
В работе дается краткая характеристика наиболее значительных баз данных по математическим наукам России и стран СНГ Сведения об информационных центрах России, осуществляющих централизованную обработку мирового потока научно-технической литературы и документации, приводятся в периодически издаваемом ВИНИТИ специализированном справочнике “Информационные и телекоммуникационные центры”.
В России действуют несколько классификационных систем для информационных ресурсов по фундаментальным и точным наукам, в том числе рубрикаторы ГСНТИ и ВИНИТИ, номенклатура научных специальностей ВАК, различные библиотечные системы и пр. Ряд дополнительных вопросов о повышении точности адресного поиска информации, отраженных в соответствующих классификациях, возникает в связи с интеграцией различных наук: математической физики, математической биологии, математической геологии и др.
В результате проведенного анализа информационных ресурсов, включая их виды, потоки, объекты накопления и хранения, автор приходит к выводу, что в целом в рассматриваемом информационном поле недостаточно разработаны: - понятие общего информационно-коммуникационного пространства, призванного обеспечить повышение уровня доступности достижений математической науки для различных сфер науки и техники;
- единообразие в понимании классификации знаний и терминологии;
- процессы и механизмы, обеспечивающие предоставление пользователям релевантной информации из всей совокупности информационных источников.
Перечисленные задачи являются предметом исследования широкого круга ученых. Вместе с тем автор показывает возможные пути их решения на примере разрабатываемой при ее непосредственном участии информационной системы «Математика», функционирующей в составе политематического банка данных ВИНИТИ.
Сведения об опубликованных работах в области математических и других точных наук в печатной форме представлены в крупнейших библиотеках мира: Библиотеке Конгресса США (Library of Congress), Национальной библиотеке Канады (National Library of Canada), Британской библиотеке (Великобритания, British library), Немецкой библиотеке (Германия, Berlin State Library Prussian Cultural Heritage), Королевской библиотеке (Нидерланды, Royal Library of the Netherlands), Национальной библиотеке Франции (Bibliotheque National de France), Национальной библиотеке Испании (Biblioteca Nacional de Espana), Национальной библиотеке Италии (Biblioteca Nationale Centrale di Rome), Королевской (The Royal library) и национальной (The National library of Denmark) библиотеках Дании, Парламентской библиотеке Японии (Tokyo Main Library), Российской государственной библиотеке (РГБ), Российской национальной библиотеке (РНБ), Библиотеке Российской академии наук (БАН), Библиотеке по естественным наукам РАН (БЕН), Государственной публичной научно-технической библиотеке (ГПНТБ), Центральной политехнической библиотеке (ЦПБ), Научной библиотеке Московского государственного университета (НБ МГУ), национальных библиотеках стран СНГ и в научно-технических библиотеках ведущих научных центров, институтов и высших учебных заведений.
В настоящее время теоретически решена задача организации всемирного каталога публикаций через объединение каталогов и БД крупнейших национальных библиотек и информационных центров большинства развитых стран, включая Россию. Технологические достижения в области информационного обеспечения научных исследований нашли отражение в многочисленных проектах создания и внедрения электронных библиотек (ЭБ) как глобального, так и локального масштаба .
С 1998 г. по инициативе Российского Фонда Фундаментальных Исследований (РФФИ) и Российского Фонда Технологического Развития (РФТР) осуществляется программа «Российские электронные библиотеки», в рамках которой с участием ВИНИТИ ведутся работы по общесистемным вопросам создания и функционирования электронных библиотек для различных областей науки, культуры и образования.
Вместе с тем до настоящего времени не создана надежная адресная навигационная система, позволяющая пользователям получать гомогенную информацию из гетерогенных источников. В этом направлении ведутся масштабные исследования и разработки, в которых участвуют МИАН им. В.А. Стеклова РАН, суперкомпьютерный ВЦ РАН, ГПНТБ, РФФИ, ВИНИТИ РАН, МГУ им. М.В. Ломоносова и др. Решению этой проблемы в определенной степени и посвящена настоящая работа.
Вторая глава рассматривает вопросы систематизации информационных потоков в отечественной и зарубежной практике в области фундаментальных и точных наук. При рассмотрении существующих классификационных систем необходимо различать цели их создания. Таковыми могут быть научные результаты и перспективы научных исследований, классификация накопленных знаний в разных областях, систематизированная номенклатура научных специальностей и патентов, классификации знаний для учебных и образовательных целей и др.
С позиции использования классификаций знаний необходимо выделить мировой (международный) уровень, национальный (государственный) и локальный (отраслевой и региональный). Отметим, что классификационные системы знаний разных уровней постоянно развиваются, при этом скорость изменения оказывается неодинаковой для разных уровней и видов знаний. Когда основной задачей становится поиск необходимых информационных ресурсов, возникает множество проблем по «стыковке» и взаимоувязке накопленной информации, систематизированной различным образом.
В целях возможного сопряжения различных классификационных систем автор использует для каждой из них понятие «классификационное дерево», имеющее горизонтальную и вертикальную составляющие, ветви, вершину и основание. Практически такое дерево является сложным графом. В этом случае сопоставление разделов и понятий различных классификаций можно теоретически свести к сопряжению соответствующих “ветвей деревьев”. При этом необходимо отметить, что эта проблема является чрезвычайно сложной, так как при ее решении придется иметь дело с пересечениями соответствующих графов как внутри одного “дерева”, так и между ними. Начало формирования такой системы деревьев предусмотрено перспективами развития политематического банка данных ВИНИТИ и получает конкретное воплощение при разработке и создании информационной системы ВИНИТИ «Математика».
Количество конкретных задач для поиска необходимой информации стремительно возрастает по мере движения от вершины классификационного дерева к его основанию. В этой ситуации крайне важно руководствоваться обоснованной схемой определений и понятий по отраслям знаний и видам наук. В этом смысле автором выполнен научный анализ существующих классификационных систем с целью обоснования принципов сквозного поиска необходимой информации.
Историю развития систем информационного поиска можно вести от работ К. Муэрса , который предложил описывать содержание документов простым перечислением дескрипторов - терминов, особенно употребляющихся в самом документе и тем самым выражающих его содержание в пределах терминологии данной предметной области. Предполагалось, что перечень дескрипторов, существенных для описания документов определенной предметной области, не слишком велик, что его можно свести в словарь, в котором будут выражены отношения между дескрипторами наподобие соотношения иерархии классов понятий, и использовать этот ограниченный словарь, называемый информационно-поисковым тезаурусом (ИПТ), как язык для индексирования документов. Во многих областях эта идеология привела к созданию успешно действующих поисковых систем со специализированными тезаурусами. Подобные тезаурусы создавались для различных сфер деятельности как за рубежом, так и в нашей стране. Следует отметить, что специализированные тезаурусы математических терминов практически не разрабатывались. Так, за время действия службы регистрации информационно-поисковых языков Государственной системы научно-технической информации СССР (ГСНТИ) в 1960-х - 1980-х годах не было зарегистрировано ни одного математического ИПТ.
Обратимся к широко известным международным и отечественным классификациям знаний. Наиболее известной и широко распространенной в мире классификацией знания является Универсальная десятичная классификация (УДК), история которой насчитывает более 100 лет. В нашей стране она является обязательной для централизованного индексирования литературы по точным, естественным, техническим наукам и всей книжной продукции. УДК - это одна из наиболее распространенных международных классификаций, используемая во многих научных библиотеках для систематизации фондов.
УДК построена по систематическому принципу: один и тот же предмет может встречаться в разных местах в зависимости от отрасли знания и аспектов, в которых он рассматривается. Например, термин “матрица” встречается как в математике, так и в других точных науках и в некоторых технических дисциплинах.
УДК построена и по иерархическому принципу. В основе иерархического принципа лежит деление понятий от общего к частному с использованием цифрового десятичного кода. При этом основными видами отношений являются подчинение (иерархия) и соподчинение.
Анализ этой классификации, как и других, необходим для выявления основных способов поиска необходимой информации на их методологической базе и в конечном итоге для построения современного поискового аппарата для БД “Математика”. УДК возникла и развивалась на базе “Десятичной классификации Дьюи” (ДК), разработанной американским библиотекарем Мельвилем Дьюи (1851-1931), согласно которой вся сумма человеческих знаний делилась на 10 равноправных частей по принципу десятичных дробей или по децимальному (десятичному) принципу. Например, естественные и точные науки имеют шифр 0,5. Каждая из этих частей делилась на десять последующих равноправных частей и далее на десять более мелких делений и т.д.
Десятичная классификация Дьюи была принята за основу при разработке Универсальной десятичной классификации (УДК) для систематизации мировой библиографии. Разработчиками и создателями Универсальной десятичной классификации были бельгийские библиографы Поль Отле и Анри Лафонтен, организаторы Международного библиографического института и первой Международной библиографической конференции (1895 г.).
Основным дополнением, качественно отличающим УДК от системы Дьюи, было введение общих и специальных определителей, а также знаков, позволяющих отражать связи между понятиями основного содержания документов и классифицировать сложные понятия.
Процесс классификации является одним из самых трудоемких и сложных, так как помимо растущего количества информации значительно усложняется содержание публикаций, а следовательно и их классификация. Одним из основных путей решения этой проблемы является развитие базовой системы классификационных «деревьев» для различных сегментов мирового научного пространства. В частности, для России под базовой системой классификационных «деревьев» автор предлагает взаимосвязанную системообразующую цепочку, в вершине которой находится УДК, далее - рубрикаторы ГРНТИ и ВИНИТИ. Эту цепочку автор условно предлагает именовать «централизованной классификацией».
При централизованной классификации все виды публикаций по математическим, естественным, техническим наукам и всем другим отраслям знаний индексируются либо одним, либо несколькими звеньями взаимосвязанной системообразующей цепочки.
Основная задача централизованной классификации заключается в обеспечении потребителей информации индексами, точно и полно раскрывающими основное содержание (тему) документов.
Задача централизованной классификации, с учетом словарного состава УДК и возможностей применения различных приемов и средств индексирования, может быть решена с различной степенью точности и полноты раскрытия содержания документа индексатором (систематизатором). В связи с этим к индексам централизованной классификации предъявляются не только особые, но и единые требования, которые обеспечивают оптимальное использование индексов при централизованной классификации на местах без их существенной редакции.
УДК является информационно-поисковым языком (ИПЯ) классификационного типа: это специализированный искусственный язык, предназначенный для описания (выражения) центральных тем и предметов и формальных характеристик документов с целью последующего отыскания нужных документов среди множества других или для выражения содержания информационных запросов и поиска нужных документов.
С точки зрения лексики УДК имеет довольно развитую детализацию понятий. В полном издании УДК насчитывается более 150 тыс. индексов. Благодаря этому УДК не уступает дескрипторным языкам по семантической силе в том смысле, что почти для каждого ключевого слова дескрипторного ИПЯ существует эквивалентный индекс УДК.
Индексы УДК построены так, что каждая последующая присоединяемая цифра не меняет значения предыдущих, а лишь уточняет, обозначая более частное понятие.
Например, индекс понятия “арифметика эллиптических кривых” 512.742.72 складывается следующим образом: 51 Математика
512 Алгебра
512.7 Алгебраическая геометрия
512.74 Алгебраические группы, включая абелевы многообразия
512.742 Абелевы многообразия и схемы
512.742.7 Арифметика абелевых многообразий
512.742. 72 Арифметика эллиптических кривых
Неотъемлемой частью УДК является алфавитно-предметный указатель, который служит вспомогательным аппаратом или ключом к схеме.
Автор обращает особое внимание на то, что именно наличие вспомогательного аппарата к классификациям позволяет осуществлять сопоставление и “стыковку” различных классификационных схем.
К области точных наук в УДК следует отнести раздел 51 Математика, а также условно разделы других естественных и технических наук, в которых численные и количественные методы составляют основное содержание научного исследования. Таковыми являются следующие классы УДК: 004 Информационные технологии. Вычислительная техника. Обработка данных
007 Деятельность и организация. Общая теория связи (кибернетика)
52 Астрономия. Астрофизика. Исследование космического пространства. Геодезия
53 Физика
558 Кристаллография
621 Общее машиностроение. Ядерная технология. Электротехнология. Технология машиностроения
629 Техника средств транспорта (наземный транспорт, водный транспорт, авиация, космонавтика)
Характер использования точных (математических) методов в указанных научных областях различен. Информационные технологии по сути дела являются практической реализацией математических моделей. Кибернетика - исследование математическими методами процессов управления. В физике и астрономии только математический расчет позволяет выявлять результаты экспериментов и наблюдений, а также интерпретировать полученные данные. Кристаллография полностью основана на специфической математической теории симметрий. В технических дисциплинах (машиностроение и машинные технологии) только математические методы могут гарантировать эффективность и безопасность хозяйственной деятельности. Доминирующую роль имеют математические методы в таких отраслях техники, как ядерные технологии, радиотехника, электроника, приборостроение, электросвязь.
Области точных знаний существуют и в других сферах науки и хозяйства (в экономике, лингвистике, генетике, химии, геологии, логике и др.). Выделение их с помощью классов УДК может быть осуществлено достаточно точно, но требует отдельного исследования.
Слово “матрица” в силу неоднозначности его содержания в разных областях знания не может рассматриваться только как математический термин. В математике раздел 512.643 посвящен “Теории матриц”; в разделе 511.8 “Некоммутативная арифметика” можно найти понятие 511.82 “Арифметика матриц”, в разделе 517.98 “Функциональный анализ” - 517.982.276 “Пространства последовательностей и матриц”; в разделе 519.61 “Численные методы в алгебре” - 519.613 “Численные методы обращения матриц”. В биологических науках - в разделе 577.2 “Молекулярные основы жизни. Молекулярная биология”: 577.213.37 “Свойства и поведение матрицы в репликации ДНК-затравка”, 577.213.38 “Свойства продукта и его идентичность с матрицей” или 577.214.42 “Связь фермента с матрицей”. В физике - в разделе 539.4 “Прочность”: 539.422.53 “Разрушение матрицы композитных материалов”. В машиностроении - в разделе 621.98 “Обработка листового материала. Способы (технология), машины, инструменты” - 621.983.07 “Формообразующие инструменты. Штампы. Матрицы. Пуассоны”. В полиграфии в разделе 655 “Полиграфическая промышленность. Издательское дело” - 655.222.6 “Изготовление форм высокой печати с матриц”.
Такое явление, называемое множественной локализацией понятий, отражает многоаспектность УДК. Это свойство необходимо всегда учитывать при индексировании документов и поиске их в проиндексированном ранее массиве (библиотеке, информационном центре).
Точные науки занимают около 3,3% логического объема классификации. Однако исключительная научная и хозяйственная важность этих областей знания привела к повышенной степени развития занятого точными науками объема классификационной таблицы. В результате мы видим, что точными науками занято примерно 1,5 тома из 10 томов полного издания таблиц, т.е. 15% фактического объема, что составляет примерно 20 тыс. отдельных позиций (рубрик) классификационной системы.
В качестве основных поисковых механизмов в УДК используются принципы индексирования, ИПЯ и некоторые другие приложения. Не углубляясь далее в детали построения УДК, отметим, что рассмотренная система является как бы “вершиной” классификационного айсберга, а проблемы сегодняшнего дня при построении баз и банков данных сводятся как к необходимому развитию определенных составных частей УДК (51 “Математика”), так и нахождению прямых и косвенных связей с другими системами. В этой работе применительно к точным наукам автор принимала участие в течение многих лет.
Десятичная классификация Дьюи.
Указанные выше особенности УДК отчасти объясняют широкое распространение в мире конкурирующей системы - Десятичной классификации Дьюи (ДКД). Основными конкурентными преимуществами ДКД перед УДК являются ее статус национальной классификации США и применение в самой крупной международной системе кооперативной каталогизации документов (OCLC).
Имея с УДК общее происхождение и единую систему основных классов, ДКД ограничивается сравнительно неглубоким их членением и не предлагает широкого комбинирования кодов классов при индексировании. Все это упрощает пользование классификацией и повышает однозначность индексирования элементов знания. К сожалению, ДКД совсем не применялась в России, и ее использование с учетом специфики потребностей нашей страны невозможно в силу закрытости системы ведения ДКД.
Классификация Библиотеки конгресса США.
Наряду с ДКД в США и некоторых других странах пользуется популярностью другая национальная классификация США - Классификация Библиотеки конгресса (КБК). Эта система ориентирована исключительно на отражение фонда именно Библиотеки конгресса США и характеризуется принципиальной консервативностью структуры, связанной с естественной консервативностью исторически накапливаемого библиотечного фонда. Консервативность классификации приводит во многих случаях к произвольным классификационным решениям и затрудняет поиск в системе информации по актуальным научным проблемам. Нет оснований рассматривать КБК в качестве перспективной классификации для использования в России.
Классификация Ранганатана.
Современная теория библиотечных классификаций была заложена индийским математиком Ш. Ранганатаном, который разработал универсальную фасетную систему классифицирования “Классификация с двоеточием” (1933 г.). В настоящее время “Классификация с двоеточием” Ранганатана (КДР) представляет собой развитую, методически выдержанную систему универсального охвата, способную удовлетворить потребности тематической систематизации источников знания, в частности - информационных ресурсов по точным наукам. Таблицы КДР были изданы на разных языках, включая русский. Однако в России эта классификация не применяется. В других странах (главным образом в Индии) она применяется также в незначительном числе организаций.
Классификация Блисса.
У теоретиков классификации знаний большим авторитетом пользуется также классификация, разработка которой начата библиографом Блиссом. В настоящее время Библиотечная классификация Блисса (БКБ) разрабатывается группой исследователей, которые на единых методических основаниях развивают различные области знания. К сожалению, до сих пор не изданы полные таблицы БКБ и нет опыта ее практического использования.
Классификация Индекса научного цитирования.
Среди мировых классификаций знаний следует также упомянуть системы, разработанные не для целей информационного обслуживания, а для наукометрических и издательских целей. Большую популярность имеет классификация, применяемая в американском Институте научной информации (ISI, Филадельфия, Пенсильвания) на основе анализа базы данных о цитировании публикаций 65 стран. Классификация Института научной информации (КИНИ) представляет собой не столько классификацию знаний, сколько систему упорядочения данных о науковедческих исследованиях. Она включает всего 140 классов в естественно-технической и 70 классов в общественной области знания. Эти классы образуют неглубокую иерархическую структуру с 2-3 уровнями подклассов. Каждый из классов соответствует довольно обширной научной сфере, внутри которой могут сочетаться вопросы точных наук с аспектами эмпирического и умозрительного знания. Таким образом, описание тематики информационного ресурса по КИНИ может использоваться для тематически широкого обзора фонда информации.
Классификация Организации экономического содействия и развития.
Наукометрическая классификация Организации экономического содействия и развития (ОЭСР) в