4. ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ...

27
4. ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

Upload: others

Post on 09-Aug-2020

12 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 4. ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХdownload.microsoft.com/documents/rus/devcenter/Part... · 176 ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

4. ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

Page 2: 4. ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХdownload.microsoft.com/documents/rus/devcenter/Part... · 176 ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ЧЕТВЕРТАЯ ПАРАДИГМА 173

Введение

Ли Диркс (Lee Dirks) | Microsoft Research

Страстное увлечение Джима Грея (Jim Gray) e-Наукой нашло отклик в сердцах многих, но лишь немногие знали о его мечте применять вычислительные техно-логии для повышения эффективности научной рабо-

ты и ускорения темпов научных исследований и инноваций. Авторы нескольких статей в части 4 этой книги лично знали Джима и работали с ним. Все они не только разделяют его точку зрения, но и принимают активное участие в том, чтобы его замыслы стали реальностью.

Линч (Lynch) рассказывает о том, как четвертая парадигма применяется к сфере взаимодействия в научных кругах. Его статья построена вокруг основного вопроса: каковы послед-ствия большого количества научных данных для архива нау-ки? Далее он задает следующий вопрос: что теперь представ-ляет собой архив науки — постоянно меняющийся и растущий объем данных, публикаций и сопутствующих материалов, до-стигающих ужасающих размеров? В новом мире выигрыва-ют не только отдельные ученые (как конечные пользователи). Благодаря вычислениям с большим объемом данных мы мо-жем ожидать появления большего числа межотраслевых про-ектов, которые ускоряют исследования, обнаруживают новые связи и незамеченные ранее направления, способствующие научному прогрессу.

Гинспарг (Ginsparg) углубляется в предысторию стреми-тельных изменений характера научных публикаций. Он при-водит примеры важных прогрессивных исследований и пер-спективных открытий, затрагивающих несколько дисциплин. При этом он отмечает изолированность различных отраслей

Page 3: 4. ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХdownload.microsoft.com/documents/rus/devcenter/Part... · 176 ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ЧЕТВЕРТАЯ ПАРАДИГМА 175ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ174

Четвертая парадигма Джима Грея и формирование

архива науки

На заключительном этапе своей карьеры Джим Грей возглавил движение специалистов, которые замети-ли рождение явления, названного ими «четвертой парадигмой научных исследований». В этой статье я

кратко расскажу о влиянии четвертой парадигмы (далее име-нуемой «наукой с использованием большого объема данных» [1]) на природу научной коммуникации и архив науки.

Парадигма Грея встает в один ряд с классической парой противоположных, но взаимодополняющих научных пара-дигм: теорией и экспериментом. Третья парадигма — круп-номасштабное компьютерное моделирование — появилась благодаря работам Джона фон Неймана (John von Neumann) и других ученых в середине 20 века. До некоторой степени четвертая парадигма Грея обеспечивает платформу интегра-ции для взаимодействия и взаимодополнения первых трех парадигм. Во многом это напоминает традиционный цикл научных исследований: теория формирует гипотезы, которые могут быть экспериментально проверены, а в ходе экспери-ментов обнаруживаются явления, требующие теоретического объяснения. Несмотря на огромный вклад технологий моде-лирования в научный прогресс, они не оправдали изначально возложенных на них ожиданий (например, для долгосрочно-го прогноза погоды). В частности, это связано с очень высокой чувствительностью сложных систем к исходным условиям и хаотическому поведению [2]. Это один из примеров, когда моделирование, теория и эксперимент должны совместно ис-пользоваться в условиях огромных объемов данных.

КЛИФФОРД ЛИНЧ (CLIFFORD LYNCH) Коалиция сетевых информационных ресурсов (Coalition for Networked Information (CNI))

науки и призывает нас учиться друг у друга и перенимать передовой опыт, пре-одолевая междисциплинарные барьеры. В дополнение он приводит полезную схему, иллюстрирующую концепцию «совместного курирования и создания на-учных знаний» Джима Грея, сторонником которой он также является.

Ван де Сомпел (Van de Sompel) и Лагозе (Lagoze) подчеркивают, что ученым еще предстоит осознать весь потенциал и преимущества технологий для науч-ного взаимодействия. Авторы считают особенно важным тот факт, что наиболее сложные проблемы и задачи носят социальный характер, и их решение зависит от людей. Это означает, что их не так легко решить с помощью новых приложе-ний или дополнительных микросхем. Авторы призывают к разработке откры-тых стандартов и протоколов взаимодействия, что поможет в этой ситуации.

Вопросы обмена научными данными на международном уровне рассматри-ваются в статье Э. Фицджеральд (A. Fitzgerald), Б. Фицджеральда (B. Fitzgerald) и Паппалардо (Pappalardo). Иногда ученые сталкиваются с наибольшими огра-ничениями и трудностями на государственном или региональном уровне, что препятствует их участию в международных научных исследованиях. На кон-кретном примере авторы показывают необходимость координации работы на-учного сообщества и рекомендуют ответственным лицам работать над устране-нием препятствий в этой системе.

Уилбэнкс (Wilbanks) прямо говорит о лейтмотиве этого раздела: во многих случаях ученые, часто сами того не желая, сдерживают развитие науки. Хотя мы, будучи профессионалами, работаем над концепциями, инструментами и реализацией инновационных научных исследований, мы не всегда применяем или полностью осознаем возможности тех систем, которые мы внедрили. Мы, объединенное сообщество передовых исследователей, часто забываем о возмож-ностях вычислительных технологий. Он отмечает, что крайне важно реализо-вать взаимодействие всех научных направлений и использовать междисципли-нарные исследования и сотрудничество для достижения принципиально новых результатов.

Завершая этот раздел, Ханнай (Hannay) в своей статье подчеркивает вза-имосвязанность нашего пронизанного сетями мира — несмотря на сохраняю-щиеся социальные барьеры между различными научными направлениями. Он отмечает, что постепенный переход науки от состояния фермерского хозяйства к крупной промышленности является частью эволюции нашего подхода к веде-нию научной деятельности. Он приводит интересные примеры исследований, которые могут указать путь в будущее веб-коммуникаций, и говорит о том, что мы живем в переходный период, непосредственно предшествующий появлению семантической реальности и взаимосвязанности.

Научная деятельность эволюционирует от небольших автономных научных организаций до более крупных компетентных взаимосвязанных сообществ уче-ных, прогресс которых все в большей степени зависит от достижений каждого из них. В совместном стремлении к этой великой цели, как и предвидел Джим, мы увидим, что с помощью вычислительных технологий наука будет развиваться как никогда высокими темпами.

Page 4: 4. ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХdownload.microsoft.com/documents/rus/devcenter/Part... · 176 ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ЧЕТВЕРТАЯ ПАРАДИГМАВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ 177176

репутация редакции и автора и информационная открытость при предостав-лении отчетов о результатах должны гарантировать уверенность в точности и правильности отдельных статей. В более общем смысле архив науки рассматри-вается на больших временных промежутках и в совокупности накопленных ма-териалов. В этом случае проверка открытий, а также устранение ошибок и вы-явление намеренных, а в особенности существенных, фальсификаций обычно выполняется силами научного сообщества в ходе дискуссий после публикации, формального рецензирования, воспроизведения, повторного использования и добавления результатов, а также помещения результатов, взятых из отдельной работы, в более широкий контекст научных знаний.

Основная идея, непосредственно связанная с достоверностью информации, а также возможностями сотрудничества и использования работы других ученых, состоит в воспроизводимости результатов научных исследований. И хотя это иде-ал, который часто пользуется лишь слабой практической поддержкой со сторо-ны некоторых ученых, настойчиво защищающих собственные методы, данные и исследования, именно этот аспект является фундаментальным отличием на-уки от таких практик, как алхимия. Архив науки — не обязательно отдельная самодостаточная статья, а совокупность литературных источников и данных в рамках одной общей записи или, пользуясь современной терминологией, статья и все ее явные и косвенные «связи» — должен содержать достаточно данных и информации о методах и практиках, которые позволят другим ученым вос-произвести те же результаты на основе такого же начального набора данных. Архив науки должен давать возможность выполнить дополнительные действия, которые позволят поместить начальные результаты в более полный контекст, из-менить предположения и аналитические методы и посмотреть, к чему приведут эти изменения. Стоит заметить, что идея воспроизводимости сложных научных экспериментов часто становится трудно реализуемой по прошествии длитель-ного времени. Это связано с тем, что воспроизведение экспериментов может потребовать множества неявных знаний, которые ранее были частью обычной научной практики. При этом техническая база, впервые созданная на момент проведения эксперимента, по прошествии многих десятилетий поддается вос-созданию лишь с трудом и большими временными затратами.

Насколько эффективным был архив науки на протяжении длительного го-сподства первых двух научных парадигм? Я полагаю, что в целом он был до-статочно эффективным. И архив науки, и учреждения, которые его создавали, поддерживали и курировали, были вынуждены эволюционировать в ответ на две обширные проблемы. Первая была главным образом связана с эксперимен-тальной наукой. По мере того, как эксперименты становились все более слож-ными, тонко организованными и технически оснащенными, а также по мере роста объемов данных и утраты возможности их полного воспроизведения в рамках научных публикаций, связи между фактическими и письменными мате-риалами становились все более неоднозначными и неясными. В частности, когда расширенные вычисления (особенно вычисления с механической или электро-

Чтобы понять влияние науки с использованием большого объема данных на архив науки1, прежде всего необходимо изучить сущность этого архива, его предназначение и его сильные и слабые стороны с точки зрения удовлетворения потребностей различных парадигм и эволюции науки.

В первом приближении современный архив науки, берущий свое начало в 17 веке и тесно связанный с развитием науки и научных сообществ, представля-ет собой множество независимых научных изданий, протоколов и презентаций с конференций, а также лежащих в их основе данных и других фактических материалов в поддержку опубликованных открытий. Этот архив хранится в различных местах, иногда с избыточным дублированием, в библиотеках, хра-нилищах и музеях по всему миру. Эти данные и фактические материалы растут со временем: записи наблюдений, занимающие слишком много места для пу-бликации в журналах, стали храниться в научных архивах, а к материальным свидетельствам в музеях естествознания сейчас добавились огромные массивы цифровых данных, базы данных и различные архивы данных, а также нецифро-вые данные наблюдений (например, фотографии) и новые коллекции биомате-риалов. Долгое время важную и вместе с тем ограниченную часть архива науки составляли научные монографии и такие специализированные материалы, как патенты, однако в 20 веке большую важность приобретает «серая литература», в частности технические отчеты и препринты. На протяжении последних лет мы видим стремительный рост числа веб-сайтов, блогов, видеоклипов и других материалов (обычно не связанных с традиционным процессом публикации), ко-торые становятся важной частью этого архива, хотя рамки этих материалов и различные проблемы, связанные с их систематической идентификацией, архи-вированием, доступностью, проверкой на правильность и т. п., остаются предме-том горячих споров.

Архив науки предназначен для решения нескольких задач. Во-первых, он обеспечивает передачу (коммуникацию) открытий, гипотез и идей от одного че-ловека к другому сквозь время и расстояние. Он служит для упорядочивания — создания общей номенклатуры и терминологии, объединения сходных работ и развития отраслей знаний. Это движущая сила для формирования сообществ и широкомасштабного сотрудничества сквозь время и расстояние. Это средство для документирования, управления и часто в конечном итоге устранения проти-воречий и разногласий. Его можно использовать для создания прецедентов идей и результатов, а также (с помощью цитирования и библиометрии) предостав-лять доказательства качества и значимости научной работы. Архив науки дол-жен быть достоверным и заслуживающим доверия в нескольких аспектах. При ближайшем рассмотрении экспертное рецензирование работ до их публикации,

1 Для краткости и ясности я ограничил обсуждение в этой статье лишь наукой. Но поскольку очевидно,

что технологии e-Науки — это всего лишь частный случай направления электронных исследований, а наука с использованием большого объема данных является образцом гуманитарных наук с использо-ванием большого объема данных, многие утверждения в этой статье могут с некоторыми поправками применяться к гуманитарным и естественным наукам.

Page 5: 4. ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХdownload.microsoft.com/documents/rus/devcenter/Part... · 176 ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ЧЕТВЕРТАЯ ПАРАДИГМАВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ 179178

фигураций программных средств как часть возникновения продуктов науки с использованием большого объема данных остается основной задачей исследо-вания при курировании данных и структурировании научного рабочего про-цесса.) Хорошей новостью было то, что вычислительные технологии стали при-меняться для управления огромным растущим массивом научной литературы. Начиная с 1970-х гг., многие организационные инструменты были переведены в оперативные базы данных и информационно-поисковые системы, и стали ши-роко доступны к середине 1990-х гг.

С появлением вычислительной парадигмы, основанной на использовании большого объема данных, архив науки и лежащая в его основе система коммуни-кации и публикации достигли той точки, где можно было смотреть в их прошлое и будущее. Стало ясно, что данные и программы должны стать неотъемлемой частью архива науки — объектами первого уровня, которые тоже требуют си-стематического управления и курирования. Мы видим, что эта тенденция от-ражается в акценте на курировании и многократном использовании данных в различных киберинфраструктурах и программах e-Науки [3-6]. Эти наборы данных и другие материалы будут вплетены многообразными сложными спосо-бами [7] в научные работы, которые теперь создаются в цифровом виде и на-чинают активно пользоваться возможностями цифровой среды. И в конечном итоге мы постепенно распрощаемся с исходной моделью электронных научных журналов, когда цифровое хранилище и технологии обеспечения доступности применялись к статьям, которые по сути были цифровыми копиями печатных страниц. Мы также увидим такие средства, как видеозаписи, дополняющие тра-диционные описания методик проведения экспериментов, и различные двух- и трехмерные визуализации. В некоторой степени эту ситуацию можно рассма-тривать, как усовершенствование традиционного жанра научных публикаций, когда возможности современных информационных технологий отвечают по-требностям всех четырех парадигм. Научная публикация становится для учено-го дверью, открывающей путь не только к пониманию научных результатов, но также к их воспроизведению и расширению.

Однако наряду с беспрецедентными масштабом и областью охвата научной деятельности все большее значение приобретают две другие разработки. Пер-вая — это создание фондов справочных данных, часто не связанных с конкрет-ными научными исследованиями, хотя от этих фондов зависит большая часть исследований, а во многих научных публикациях приводятся ссылки на данные из этих фондов. Многие из них создаются с помощью роботизированного ин-струментария (синоптические обзоры неба, крупномасштабное секвенирование микроорганизмов, комбинаторная химия). Некоторые также включают работы по редактированию и курированию данных, выполняемые с целью представ-ления наиболее полных актуальных знаний о сложных системах (аннотиро-ванный геном отдельной особи, набор сигнальных путей и т. д.). Полученные результаты могут быть процитированы в традиционной научной литературе, чтобы подтвердить или подкрепить утверждения в базе данных. Разумеется, эти фонды справочных данных являются неотъемлемой составной частью архива

механической поддержкой, выполняемые группами человеческих «компьюте-ров») применялись к данным, проблемы с воспроизводимостью стали выходить далеко за рамки доступа к данным и понимания использованных методов. И в этом случае было мало пользы от наличия архива науки, основанного на печат-ных документах и физических артефактах. Наилучшим выходом было создание организованной системы архивов данных с указанием определенных условий их добавления или обязательствами по обеспечению их доступности.

Вторая эволюционная проблема заключалась как раз в масштабе научной деятельности. Накопилось огромное количество литературы, научные дис-циплины и направления ветвились вновь и вновь. Требовалось разработать инструменты и практические подходы для управления таким масштабом — специализированные журналы, цитатники, указатели, обзорные журналы и би-блиографии, управляемые словари и таксономии в различных областях науки. И в который раз из-за возможностей системы, основанной на печатных копиях, все эти инновации оказались бесполезными, а масштаб научной деятельности остался постоянной и все более удручающей проблемой для ученых.

Появление третьей парадигмы в середине 20 века и одновременный рост вычислительных технологий, поддерживающих экспериментальные и теорети-ческие науки, увеличили нагрузку на традиционный архив науки. Продолжал-ся не только рост базовых данных. Полученные в результате моделирования и экспериментов наборы данных стали очень большими и сложными. Их можно было лишь кратко резюмировать, но невозможно было полностью изложить в традиционных публикациях. Хуже всего было то, что программные вычисле-ния, применявшиеся в моделировании и для других целей, стали неотъемлемой частью в вопросе воспроизводимости экспериментов2. Важно осознавать, как много времени на самом деле прошло до того момента, пока компьютерное ап-паратное обеспечение стало достаточно надежным для выполнения широкомас-штабных вычислений с плавающей запятой3. (Даже сегодня мы очень ограниче-ны в нашей способности создавать доказуемо корректные широкомасштабные программы. Мы полагаемся на нашу медленно растущую уверенность, осно-ванную на длительном и широком использовании этих программ, желательно на различном оборудовании и платформах. Документирование сложных кон-

2 В сущности, способность осмысливать и воспроизводить широкомасштабные вычисления также стала

настоящей проблемой для теоретической науки. В 1976 году доказательство теоремы четырех цветов в теории графов сопровождалось исчерпывающим компьютерным анализом огромного числа частных случаев и вызвало серьезные споры в математическом сообществе относительно полного признания этого доказательства. Из более свежих примеров — предложенное Томасом Хейлисом (Thomas Hales) доказательство гипотезы Кеплера.3 Стандарт IEEE представления чисел с плавающей запятой был выпущен лишь в 1985 году. Я лично

помню аварийные ситуации с мейнфреймами в 1970-х и 1980-х гг., когда полученные компьютеры при-ходилось проверять и исправлять в полевых условиях после того, как в их оборудовании или микро-программах были обнаружены серьезные ошибки, которые могли привести к неверным результатам вычислений.

Page 6: 4. ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХdownload.microsoft.com/documents/rus/devcenter/Part... · 176 ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ЧЕТВЕРТАЯ ПАРАДИГМАВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ 181180

выдвигают гипотезы, которые могут быть проверены с помощью комбинаций теоретических и экспериментальных исследований и моделирования, а иногда напрямую создают новые данные или результаты. Когда равновесие между ма-лым и большим масштабом использования архива науки изменится (сегодня, я полагаю, оно все еще на стороне малого масштаба), мы увидим, что это изменит многие аспекты научной культуры и практики научных публикаций, включая, возможно, взгляды на открытый доступ к научной литературе, применение раз-личных типов разметки и выбор средств авторской разработки для научных ра-бот, а также дисциплинарные нормы в отношении курирования данных, обмена данными и общего жизненного цикла данных. Я думаю, что если говорить о на-уке с использованием большого объема данных, со временем в научной работе на передний план постоянно, повсеместно и явно выйдет один набор данных, а именно — архив науки.

БЛАГОДАРНОСТИ

Я хочу поблагодарить участников пятничного семинара («Friday Seminar») Бакленда-Линча-Ларсена (Buchland-Lynch-Larsen), посвященного доступу к информации, который состоялся 24 апреля 2009 г. в школе информатики Ка-лифорнийского университета в Беркли. Ваше обсуждение предварительного текста этой статьи было очень полезным.

ССЫЛКИ

[1] G. Bell, T. Hey, and A. Szalay, «Beyond the Data Deluge», Science, vol. 323, pp. 1297—1298, Mar. 6, 2009, doi: 10.1126/science.1170411.

[2] Лекция Фримена Дайсона (Freeman Dyson) об Эйнштейне (2008 г.), «Birds and Frogs», Notices Am. Math. Soc., vol. 56, no. 2, pp. 212—224, Feb. 2009, ww.ams.org/notices/200902/rtx090200212p.pdf.

[3] Национальный совет по делам науки, «Long-Lived Digital Data Collections: Enabling Research and Education in the 21st Century», National Science Foundation, 2005, www.nsf.gov/pubs/2005/nsb0540/start.jsp.

[4] Ассоциация научных библиотек, «To Stand the Test of Time: Long-term Stewardship of Digital Data Sets in Science and Engineering», Association of Research Libraries, 2006. www.arl.org/pp/access/nsfworkshop.shtml.

[5] Различные отчеты отдела киберинфраструктуры Национального совета по делам науки, www.nsf.gov/dir/index.jsp?org=OCI, в том числе документ с опи-санием концепции киберинфраструктуры и отчет Аткинса (Atkins).

[6] L. Lyon, «Dealing with Data: Roles, Rights, Responsibilities and Relationships», (консультационный отчет), UKOLN and the Joint Information Systems Committee (JISC), 2006, www.jisc.ac.uk/whatwedo/programmes/programme_digital_repositories/project_dealing_with_data.aspx.

[7] C. A. Lynch, «The Shape of the Scientific Article in the Developing Cyberinfrastructure», CT Watch, vol. 3, no. 3, pp. 5—11, Aug. 2007, www.ctwatch.

науки, хотя мы по-прежнему ищем наиболее эффективные пути решения таких вопросов, как ведение версий и стабильность этих ресурсов. Эти наборы дан-ных используются совершенно не так, как традиционные научные публикации. Чаще всего они служат для выполнения различных вычислений, а не просто для чтения. По мере обновления фондов справочных данных могут выполняться новые вычисления, результаты которых могут привести к новым научным ре-зультатам или переоценке существующих. Чем дальше, тем больше: некоторые дополнения к этим фондам справочных данных будут признаны самостоятель-ным важным вкладом в науку. Можно сказать, что научные работники учатся всесторонне рассматривать весь диапазон возможностей и средств выражения для внесения своего вклада в архив науки в эпоху науки с использованием боль-шого объема данных и вычислений.

В конечном итоге архив науки сам становится главным объектом непрерыв-ной обработки информации — центральным фондом справочных данных — насколько это возможно при условии решения вопросов авторских прав и устранения технических ограничений [8]. Интеллектуальный анализ текстов и данных, получение выводов, интеграция структурированных данных и текстов на естественных языках (возможно, снабженных семантической разметкой для автоматического обнаружения ссылок на конкретные типы объектов — гены, звезды, особи, химические соединения или географические объекты, а также их свойства — с более высокой точностью по сравнению с эвристическими ал-горитмами анализа текста), поиск, фильтрация и кластеризация информации помогают решать проблемы постоянно растущего масштаба архива науки и все возрастающего дефицита его неавтоматизированного сопровождения. Они так-же помогают применять новые технологии науки с использованием большого объема данных для более эффективного извлечения результатов и гипотез из архива науки. Я думаю, что мы увидим очень интересные разработки, посколь-ку исследователи применяют эти инструменты для изучения «общедоступного» архива науки сквозь призму различных фондов закрытой информации (неопу-бликованные результаты, отраслевая коммерческая информация и даже госу-дарственные разведданные).

В эпоху вычислений с большим объемом данных мы видим, что люди исполь-зуют архив науки двумя способами. В малом масштабе, по одной или несколько статей одновременно — люди читают научные публикации так же, как они это делали на протяжении столетий. Но благодаря вычислительным средствам они могут выйти за рамки печатных работ и гораздо эффективнее использовать ле-жащие в их основе научные достижения и данные, а также перемещаться между публикациями и фондами справочных данных с большей скоростью, точностью и гибкостью. Кроме того, их находки можно будет интегрировать со средой взаимодействия и инструментами для аннотирования, авторской разработки, моделирования и анализа. Сегодня мы также видим, что ученые используют архив науки в большом масштабе, как корпус текстов и набор взаимосвязанных источников данных, к которым они применяют широкий набор новых вычисли-тельных средств. В этом случае ученые находят интересующие их публикации,

Page 7: 4. ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХdownload.microsoft.com/documents/rus/devcenter/Part... · 176 ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ЧЕТВЕРТАЯ ПАРАДИГМА 183ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ182

ПОЛ ГИНСПАРГ (PAUL GINSPARG) Корнельский университет (Cornell University)

org/quarterly/articles/2007/08/the-shape-of-the-scientific-article-in-the-developing-cyberinfrastructure.

[8] C. A. Lynch, «Open Computation: Beyond Human-Reader-Centric Views of Scholarly Literatures», in Neil Jacobs, Ed., Open Access: Key Strategic, Technical and Economic Aspects. Oxford: Chandos Publishing, 2006, pp. 185—193, www.cni.org/staff/cliffpubs//OpenComputation.pdf.

Текст в мире, ориентированном на данные

Я впервые встретился с Джимом Греем (Jim Gray), ког-да работал модератором в предметной области баз данных проекта arXiv в рамках включения в проект arXiv компьютерных наук, начатого в 1998 г. Вскоре

он сыграл решающую роль в реализации полнотекстового поиска в arXiv с помощью широкомасштабных поисковых систем, сначала Google, а затем Microsoft и Yahoo!. Предпри-нятые в 1990-х гг. попытки автоматического сканирования содержимого arXiv сталкивались с серьезными ограничения-ми из-за того, что они отправляли на серверы слишком мно-го запросов. Джим понимал возрастающую роль текста как формы данных и считал необходимым, чтобы текст можно было использовать как любой другой объект вычислений. В 2005 г. он участвовал в проектах arXiv и PubMed Central и поделился со мной своим ощущением того, что хотя эти два хранилища имели сходное назначение, они как будто рабо-тали в параллельных мирах, не имея никаких существенных точек пересечения. В перспективе он видел мир научных ре-сурсов — текстов, баз данных и любых других сопутствующих материалов — взаимосвязанным, с возможностью легко по нему перемещаться.

Многие ключевые открытые вопросы о технологическом преобразовании научной инфраструктуры, такие как долго-срочная финансовая модель для реализации контроля каче-ства, архитектура статьи будущего и соединение всех фраг-ментов в единую взаимосвязанную систему, поднимались еще десять лет назад. И хотя ответы на них остаются туманными, есть основания полагать, что мы можем ожидать существенно-го продвижения в решении по крайней мере двух последних вопросов. В статье [1] я описал первые попытки использова-

Page 8: 4. ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХdownload.microsoft.com/documents/rus/devcenter/Part... · 176 ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ЧЕТВЕРТАЯ ПАРАДИГМАВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ 185184

ния различных возможностей полнотекстовых агрегаций и привел базу данных PubMed Central в качестве примера новаторского подхода. Ее полнотекстовые XML-документы проходят синтаксический анализ, тем самым обеспечивая не-сколько «представлений связанных материалов» для данной статьи, со ссылками на базы данных по геномам, нуклеотидам, наследственности, экспрессии генов, протеинам, химическим соединениям, таксономии и т.д. Эта методология сейчас начинает распространяться наряду с более общими возможностями семантиче-ского анализа: автоматическое обнаружение и обоснование, добавление ссылок на связанные документы и данные, обеспечение доступа к данным, дающим ос-нование для действий в статьях и интеграция данных между статьями.

Один из свежих примеров семантических оптимизаций, добавленных изда-телем, — журнал Molecular BioSystems издательства Royal Society of Chemistry4. Его расширенная HTML-разметка выделяет в тексте термины, представленные в химических терминологических базах данных, и связывает их с записями во внешней базе данных. Точно так же в тексте выделяются и устанавливаются свя-зи для терминов из генной и клеточной онтологии и секвенирования. Эта тексто-вая разметка выполняется редакторами-специалистами в предметной области с применением автоматизированных инструментов анализа текста. В качестве примера полностью автоматизированного средства аннотирования научных терминов можно назвать инструмент Reflect5 от лаборатории EMBL (Германия), который работает как внешний сервис на любой веб-странице или в качестве подключаемого модуля браузера. Он отмечает тегами названия генов, белков и малых молекул, а для отмеченных тегами терминов создаются ссылки на со-ответствующие базы данных по секвенированию, структурам или взаимодей-ствию.

В следующем мысленном эксперименте Шоттон (Shotton) и др. [2] вручную выполнили разметку статьи, используя имеющиеся стандартные технологии, чтобы продемонстрировать разнообразие возможных семантических оптими-заций — по сути, их минимальный набор, который, вероятно, в ближайшем будущем станет общепринятым. Помимо семантической разметки терминов в тексте и живых DOI- и URL-ссылок они реализовали, где это возможно, реор-ганизуемый справочный список — резюме документа, включающее статистику документа, облако тегов технических терминов, деревья тегов для помеченных именованных сущностей, сгруппированных по семантическому типу, анализ цитирования (в каждой статье) с помощью всплывающих подсказок «Citations in Context» («Цитаты в контексте») (предыстория, интеллектуальная подопле-ка, опровержения и т. д.), загружаемые листы с таблицами и данными, интерак-тивные числовые показатели и слияние данных с результатами других иссле-довательских статей и контекстными интерактивными картами (см. рисунок 1).

4 www.rsc.org/Publishing/Journals/mb

5 http://reflect.ws, победитель последнего конкурса Elsevier Grand Challenge

(www.elseviergrandchallenge.com)

Они подчеркивают будущую важность предметно-ориентированных структу-рированных цифровых фрагментов, а именно распознаваемых компьютером метаданных, содержащих краткую сводку основных данных и выводов из ста-тей, включая список именованных сущностей в статье с точными идентифика-торами базы данных, список основных результатов, составленный с помощью управляемого словаря, и описание использованной методологии с применением стандартных кодов подтверждения. Использование управляемых словарей в таком структурированном резюме документа позволит не только ввести новые параметры для определения связей статьи с конкретной темой, но и реализовать новые формы автоматизации логических выводов.

В настоящее время распознавание именованных сущностей (например, на-званий генов) в неструктурированном тексте выполняется сравнительно просто, но надежное извлечение связей, выраженных в обычном тексте, — значительно более сложная задача. Следующее поколение инструментов для автоматизиро-

РИСУНОК 1.

Снимок экрана статьи «Exemplar Semantic Enhancements» (Примеры семантических опти-мизаций) (http://imageweb.zoo.ox.ac.uk/pub/2008/plospaper/latest, [2]). В тексте отмечены связи различных семантических классов терминов, которые при желании можно выделить цветной заливкой с помощью кнопок в верхнем ряду. При наведении мыши на справочную ссылку в тексте отображается текстовый блок с основными подкрепляющими утверждениями или цифрами из цитируемого документа.

Page 9: 4. ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХdownload.microsoft.com/documents/rus/devcenter/Part... · 176 ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ЧЕТВЕРТАЯ ПАРАДИГМАВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ 187186

ванного извлечения и обработки знаний, работающих со структурированными фрагментами и семантически обработанным текстом, позволит нам гораздо теснее приблизиться к прямому поиску и просмотру «знаний», а именно по-средством синтезированных понятий и их отношений. В рамках дальнейшей оптимизации появится анализ сети цитирования, автоматический анализ изо-бражений, более универсальные гибриды данных (data mashup) и готовые или настраиваемые алгоритмы, обеспечивающие новые типы семантических филь-тров для просмотра текстов, данных и изображений. Все эти возможности так-же могут быть интегрированы в среды взаимодействия, где пользователи смогут аннотировать статьи и сопутствующую информацию, находить скрытые связи и обмениваться новыми результатами.

В ближайшем будущем семантическая оптимизация текста будет выполнять-ся с помощью набора полуавтоматических инструментов для авторов6, инстру-ментов для редакторов и автоматизированных средств, применяемых к новым и архивным публикациям. Многие авторы старой закалки не захотят тратить время на оптимизацию своих работ, особенно если это потребует значительных усилий. Разумеется, многие издатели будут предлагать разметку как дополни-тельный компонент процесса публикации, т.е. как часть своей финансовой мо-дели. Положительные результаты этой оптимизации, заметные для всех читате-лей, будут создавать давление в открытом секторе для равных по возможностям инструментов, возможно, с небольшим опозданием после разработки каждой новой функции. Гораздо естественнее включить семантику с самого начала, чем пытаться накладывать ее позднее, но в любом случае PDF не будет удобным форматом для переноса. При наличии подходящего формата документа, ин-струментов и мер поощрения авторы могут сами предоставлять большую часть структурных и семантических метаданных на этапе написания статьи, что со-кратит требуемый объем дополнительных работ.

В долгосрочной перспективе остается нерешенным вопрос о том, где хра-нить семантическую разметку, как и другие данные, публикуемые в Интерне-те. Должны ли издатели размещать наборы данных по своим публикациям у себя, или должны существовать независимые хранилища данных, подобные SourceForge? И как следует хранить разметку: как трехуровневые конструкции внутри документа или как внешние вложения, отражающие связи и зависимо-сти? По мере развития знаний будут появляться новые связи, новые объекты для аннотирования и существующие аннотации, ведущие к измененным источ-никам или данным. Нужно ли предусмотреть возможность отката этих измене-ний и просмотра документа в контексте любого предшествующего промежутка времени?

6 Например, статья Пабло Ферникола (Pablo Fernicola) «Article Authoring Add-in for Microsoft Office

Word 2007» («Надстройка для написания статей для Microsoft Office Word 2007»), www.microsoft.com/downloads/details.aspx?familyid=09c55527-0759-4d6d-ae02-51e90131997e

Во избежание излишних разовых настроек при взаимодействии между до-кументами и данными и слиянии различных источников данных потребуется добавить общий, межоперационный семантический слой поверх имеющихся баз данных. Такие структуры также обеспечат более высокую доступность дан-ных для общих поисковых систем при поиске по ключевым словам и запросам, составленным на естественном языке. Подобный доступ к данным должен сти-мулировать специалистов по обслуживанию баз данных к внедрению локаль-ных семантических интерфейсов, что повысит их интеграцию в глобальную сеть данных и увеличит преимущества открытого доступа к тексту и данным для научного сообщества. Тим Бернерс-Ли (Tim Berners-Lee)7 активно продвигает понятие связанных данных для всех подобных целей, не только для ученых или крупных и популярных баз данных. Каждый пользователь вносит небольшой вклад в общую структуру, создавая связи объекта с URI, которые затем могут быть изменены на связи с более полезными данными. Такая четко сформулиро-ванная семантическая структура способствует применению более простых алго-ритмов для работы с текстом и данными в Интернете и более реалистична для реализации в ближайшем будущем по сравнению с созданием слоя комплекс-ной синтетической аналитики для интерпретации человеческих идей, изложен-ных в произвольной форме, посредством какого-либо вероятностного подхода.

Новые формы взаимодействия с уровнем данных также затрагиваются в дис-куссиях о Wolfram|Alpha8, новом ресурсе (открытом для общего доступа толь-ко после этой публикации), который использует большой объем человеческого труда для перевода многотысячных потоков данных в формат, пригодный для обработки алгоритмической системой визуализации Mathematica. Снабженная внешним интерфейсом для интерпретации запросов, частично сформулирован-ных на естественных языках, эта система и ее вероятные конкуренты существен-но повысят надежды пользователей на появление новых форм синтезированной информации, которая будет доступна напрямую из обычных поисковых систем. Эти приложения будут гораздо быстрее разрабатываться для хранилищ дан-ных, семантический слой которых курируется локально, а не требует централи-зованного курирования.

Большая часть современных успехов по интеграции данных с текстом по-средством семантической оптимизации, как это было описано выше, была достигнута применительно к литературе по медико-биологическим наукам. В принципе, инструменты для интеллектуального анализа текста и обработки информации на естественных языках, которые распознают связанные сущности и автоматически создают связи с соответствующими предметными онтология-ми, имеют естественные аналоги во всех областях. Например, астрономические объекты и эксперименты в астрономии, математические термины и теоремы в

7 www.w3.org/DesignIssues/LinkedData.html

8 www.wolframalpha.com. Основано на закрытой демонстрации 23 апреля 2009 г. и открытой презента-

ции 28 апреля 2009 г., http://cyber.law.harvard.edu/events/2009/04/wolfram

Page 10: 4. ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХdownload.microsoft.com/documents/rus/devcenter/Part... · 176 ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ЧЕТВЕРТАЯ ПАРАДИГМА 189

математике, физические объекты, терминология и эксперименты в физике и химические структуры и эксперименты в химии. Хотя наука с использованием большого объема данных, естественно, является нормой для астрофизики, фраг-менты сети данных для астрофизики сегодня не поддаются столь же эффектив-ной гибридизации, как для медико-биологических наук. Однако наиболее пара-доксален тот факт, что хотя физики опередили остальных во многих цифровых разработках, датируемых началом 1990-х гг. (включая само создание Интернета в лаборатории физики высоких энергий CERN), а также в открытии доступа к своей литературе, в настоящее время не предпринимаются никакие согласован-ные усилия по разработке семантических структур для большинства областей физики. Одно из препятствий заключается в том, что во многих распределенных областях физики, таких как физика плотных сред, отсутствуют центральные ла-боратории с обширными специализированными библиотеками для формирова-ния и поддержания глобальных ресурсов.

В медико-биологических науках возможна ситуация, при которой в следую-щем десятилетии текст станет менее ценным по сравнению с семантическими сервисами, которые помогают исследователям находить данные, дающие осно-вание для действий, интерпретировать информацию и извлекать знания [3]. Од-нако в большинстве научных направлений результаты исследований представ-ляют нечто большее, чем объективный набор записей в базе данных. Научная статья сохранит свою главную роль: с помощью тщательно отобранных данных убеждать читателей в правильности гипотезы автора. Записи из базы данных будут параллельно выполнять роль предоставления доступа к полным и объ-ективным наборам данных, как для дальнейшего исследования, так и для авто-матизированного интеллектуального анализа данных. Также между научными направлениями существуют важные различия с точки зрения той роли, которую в них выполняют данные. Как мне недавно сказал один выдающийся бывший физик, ставший биологом: «В биологии отсутствуют основополагающие орга-низационные принципы»9. Он имел в виду, что в некоторых научных областях развитием науки в сущности управляют скорее данные, чем теория. Наука игра-ет разные роли в нашей массовой и политической культуре и, следовательно, пользуется разным уровнем поддержки. Так, в геномике мы стали свидетелями досрочного создания базы данных GenBank, присвоения ей статуса управляе-мого государством ресурса и последующего роста связанных с ней баз данных в Национальной медицинской библиотеке, которые активно используются.

Также предполагается, что обширный интеллектуальный анализ данных и его сопутствующая способность выделять и предсказывать тенденции может в конечном итоге заменить более традиционные компоненты научного метода [4]. Однако эта точка зрения смешивает цели фундаментальной теории и феноме-нологического моделирования. Наука стремится предоставить не просто авто-

9 Уолли Гилберт (Wally Gilbert), во время ужина 27 апреля 2009 г. Возможно, его комментарий имел

более узкий контекст, чем в этой статье.

матические расчеты взаимосвязей. Ее цель, напротив, заключается в том, чтобы с помощью этих закономерностей, извлеченных из данных, создавать универ-сальные средства для их понимания априори. Таким образом, прогнозируемость теории имеет первостепенную важность как средство подтверждения ее кон-цептуального содержимого, хотя она, разумеется, также может иметь большую практическую пользу.

Поэтому мы не должны переоценивать роль данных и недооценивать роль текста, а все ученые должны следить за семантической оптимизацией текста и сопутствующими управляемыми данными разработками в медико-биологиче-ских науках с большим интересом и, вероятно, с завистью. Вскоре после этого в физических науках10 может возникнуть некая первичная проблема, для реше-ния которой ранее требовались многие недели сложных поисковых обходов баз данных, вручную сохраняемых вкладок браузеров, импровизированных сцена-риев анализа данных и всех прочих действий, выполняемых нами ежедневно. Например, ученый будущего, имеющий беспрепятственный семантический доступ к федерации баз данных, включая свойства зонной структуры и вычис-ления, измерения методом ЯМР и рентгеновского рассеяния, механические и другие свойства, может мгновенно внести небольшие изменения в недавно изо-бретенное вещество, чтобы добавить ему максимальные фотоэлектрические свойства, которые можно вообразить. Возможности подобного прогресса в по-иске новых источников энергии или предупреждении долгосрочных климати-ческих изменений могут быть доступны и теперь, но остаются незамеченными в современной ситуации с отсутствием интеграции текста и баз данных. Если при возникновении подобных проблем можно будет немедленно найти их решение с помощью автоматизированных средств, напрямую работающих с семантиче-ским уровнем, который обеспечивает каналы взаимодействия между открытым текстом и базами данных, тогда и другие научные сообщества смогут сделать шаг в будущее и воспользоваться новыми возможностями курирования и созда-ния знаний силами сообщества, предусмотренными четвертой парадигмой.

ССЫЛКИ

[1] P. Ginsparg, «Next-Generation Implications of Open Access», www.ctwatch.org/quarterly/articles/2007/08/next-generation-implications-of-open-access, accessed Aug. 2007.

[2] D. Shotton, K. Portwin, G. Klyne, and A. Miles, «Adventures in Semantic Publishing: Exemplar Semantic Enhancements of a Research Article», PLoS Comput. Biol., vol. 5, no. 4, p. e1000361, 2009, doi: 10.1371/journal.pcbi.1000361.

[3] P. Bourne, «Will a Biological Database Be Different from a Biological Journal?» PLoS Comput. Biol., vol. 1, no. 3, p. e34, 2005, doi: 10.1371/journal.pcbi.0010034. Эта ста-тья была намеренно провокационной.

10 Как подчеркнул Джон Уилбэнкс (John Wilbanks) в нашей дискуссии 1 мая 2009 г.

Page 11: 4. ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХdownload.microsoft.com/documents/rus/devcenter/Part... · 176 ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ЧЕТВЕРТАЯ ПАРАДИГМА 191ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ190

ГЕРБЕРТ ВАН ДЕ СОМПЕЛ (HERBERT VAN DE SOMPEL) Лос-Аламосская национальная лаборатория (Los Alamos National Laboratory)

КАРЛ ЛАГОЗЕ (CARL LAGOZE) Корнельский университет (Cornell University)

[4] C. Anderson, «The End of Theory: The Data Deluge Makes the Scientific Method Obsolete», Wired, June 2008, www.wired.com/science/discoveries/magazine/16-07/pb_theory. Эта статья также была намеренно провокационной.

Все на борт! Вперед, к автоматизированной

системе научного взаимодействия!

«Существующая система научного взаимодействия представляет собой не что иное, как отсканированную копию

бумажной системы».

Это утверждение, которое мы произносили во время многочисленных презентаций на конференциях для того, чтобы произвести впечатление на аудиторию, было окончательно сформулировано в статье, выпу-

щенной в 2004 г. [1]. Однако и по сей день оно в общем и целом справедливо. Хотя издатели научной литературы стали ис-пользовать новые технологии (такие как Интернет и докумен-ты PDF), в значительной степени упрощающие доступ к науч-ным материалам, эти изменения не реализуют весь потенциал новых цифровых и сетевых возможностей. В частности, они не помогают преодолеть три недостатка широко распростра-ненной системы научного взаимодействия:

• системные проблемы, в особенности неразрывная связь в системе публикации между подачей научной заявки на со-вместную авторскую разработку и процессом экспертного рецензирования;

• экономические проблемы, проявляющиеся в кризисе пе-риодических изданий, что создает огромную нагрузку на библиотеки;

Page 12: 4. ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХdownload.microsoft.com/documents/rus/devcenter/Part... · 176 ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ЧЕТВЕРТАЯ ПАРАДИГМАВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ 193192

• технические проблемы, препятствующие реализации информационной ин-фраструктуры с поддержкой взаимодействия.

Наше беспокойство о состоянии научного взаимодействия разделяют многие специалисты по всему миру. Почти десять лет назад в сотрудничестве с пред-ставителями мирового научного сообщества мы создали группу Open Archives Initiative (OAI, Инициатива открытых архивов), которая оказала значительное влияние на направление и темпы развития движения Open Access (Открытый доступ). Протокол OAI-PMH и последующие попытки создания протокола OpenURL отражали нашу изначальную ориентированность на аспекты науч-ного взаимодействия, связанные с процессами. Другие члены сообщества ин-тересовались собственно научными информационными ресурсами. Например, Питер Мюррей-Раст (Peter Murray-Rust) занимался преобразованием структу-рированной, пригодной для машинной обработки информации (например, та-бличных данных и базовых координат, лежащих в основе графиков) в читаемый текст, который подходит только для чтения людьми [2].

Спустя десятилетие после начала нашей работы в этой области мы с радо-стью наблюдаем быстрые изменения, происходящие в различных форматах научного взаимодействия. Мы остановимся на трех областях, изменения в кото-рых, на наш взгляд, достаточно значительны, чтобы свидетельствовать о фунда-ментальных переменах.

РАСШИРЕНИЕ ВОЗМОЖНОСТЕЙ АРХИВА НАУКИ С ПОМОЩЬЮ БАЗОВОГО СЛОЯ КОМПЬЮТЕРНОЙ ОБРАБОТКИ

Одним из движущих факторов для реализации компьютерной обработки на-учных материалов является шквальный поток литературы, который исключа-ет для ученых возможность быть в курсе соответствующих научных знаний [3]. Для решения этой проблемы можно использовать агенты, которые читают и фильтруют научные материалы вместо ученых. Потребность в подобном меха-низме усиливается тем фактом, что ученым все чаще нужно осваивать и прора-батывать литературу по другим дисциплинам, связывая воедино и объединяя имеющиеся разрозненные результаты исследований, чтобы прийти к новым идеям. Это основная проблема для медико-биологических наук, характери-зующихся большим числом взаимосвязанных дисциплин (таких как генетика, молекулярная биология, биохимия, фармакохимия и органическая химия). Например, отсутствие единообразно структурированных данных в различных отраслях биомедицины считается серьезным препятствием для межотраслевых исследований — передачи открытий в основных биологических и медицинских исследованиях для их применения в клиническом лечении пациентов [4].

В последнее время мы наблюдаем выраженное движение в сторону машин-ного представления знаний, содержащихся в медико-биологической литера-туре, что делает возможными логические рассуждения, преодолевающие ме-жотраслевые барьеры. Для извлечения сущностей и отношений между ними

из имеющейся литературы применяются передовые методики анализа текста, а для достижения универсального представления знаний были созданы общие онтологии. Этот подход уже привел к появлению новых открытий, основанных на информации, содержащейся в литературе, которую раньше мог прочитать только человек. Другие отрасли знаний последовали этому примеру. Некоторые инициативы позволяют ученым добавлять информацию о сущностях и их свя-зях на этапе публикации статьи, чтобы отказаться от обработки статьи после ее выхода, что широко распространено в настоящее время [5].

Создание международной организации Concept Web Alliance, целью которой является предоставление глобальной межотраслевой платформы для обсужде-ния, проектирования и, возможно, сертификации решений для обеспечения совмести-мости и пригодности к использованию обширных, разрозненных и сложных данных, означает, что тенденция к машинной обработке данных серьезно воспринимает-ся и научным сообществом, и отраслью научной информации. Создание машин-ного представления научных знаний поможет ученым и учащимся справиться с избытком информации. Оно позволит совершать новые открытия путем раз-мышления над имеющимися знаниями, а также повысить скорость открытий, избавляя ученых от ненужных исследований и открывая перспективные пути для новых исследований.

ИНТЕГРАЦИЯ НАБОРОВ ДАННЫХ В АРХИВ НАУКИ

Хотя данные всегда были ключевой составляющей научных исследований, до сих пор к ним относились не как к первостепенным объектам в процессе на-учного взаимодействия — в отличие от научных статей с описанием открытий, сделанных на основе этих данных. Эта ситуация быстро и радикально меняет-ся. Научное сообщество активно обсуждает и изучает возможности реализации всех основных функций научного взаимодействия — регистрации, сертифика-ции, информирования, архивирования и награждения [1] — для наборов данных.

Например, пирамида данных [6] ясно демонстрирует, как обеспечение на-дежности (сертификация) и цифровой сохранности (архивирование) наборов дан-ных становится насущной потребностью по мере того, как они выходят за рамки личного использования в сферу отраслевых научных сообществ и общества в це-лом. Международные инициативы, нацеленные на реализацию обмена научны-ми данными [7], отражают необходимость в инфраструктуре, способствующей созданию общих наборов данных (информирование). А работы по формированию стандартного формата цитирования для наборов данных [8] подразумевают, что наборы данных являются основными научными артефактами. Эти инициативы отчасти мотивированы убеждением в том, что ученые должны заслужить хоро-шую репутацию (быть награждены) за наборы данных, которые они составили и предоставили в распоряжение других ученых. Примерно десять лет назад эти функции научного взаимодействия были главным образом применимы только к научной литературе.

Page 13: 4. ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХdownload.microsoft.com/documents/rus/devcenter/Part... · 176 ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ЧЕТВЕРТАЯ ПАРАДИГМАВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ 195194

ВЫЯВЛЕНИЕ ПРОЦЕССА НАУЧНОГО ВЗАИМОДЕЙСТВИЯ И ЕГО ИНТЕГРАЦИЯ В АРХИВ НАУКИ

Некоторые аспекты процесса научного взаимодействия были давно известны. Цитаты в публикациях отражают использование имевшихся знаний для созда-ния новых идей. Таким образом, график научного цитирования помогает об-наружить аспекты научной динамики и, как результат, активно изучается для выявления связей между различными отраслями знаний, а также анализа и про-гнозирования тенденций. Однако интерпретация графика научного цитирова-ния часто ненадежна вследствие несовершенных методов ручного и автомати-ческого поиска цитат и ссылок и сложных проблем с устранением авторской многозначности. Область охвата графика цитирования также ограничена (толь-ко ведущие журналы или только конкретные отрасли знания), и, к сожалению, самый репрезентативный график (Thomson Reuters) защищен правом собствен-ности.

Проблема с графиком цитирования является отражением более широкой проблемы: отсутствие непротиворечивой, задокументированной и наглядной картины эволюции научной статьи в системе, а также отсутствие информации о природе этой эволюции. Проблема в том, что связи, известные на момент пере-хода научной статьи на новую ступень в цепочке ценностей, практически сразу после этого теряются, и часто навсегда. Реальная динамика научных знаний — взаимодействие и связи между научными статьями, авторами, читателями, оцен-кой качества статей, областями научного исследования и т.п. — чрезвычайно сложно поддаются восстановлению постфактум. Поэтому важно создать слой, лежащий в основе научного взаимодействия, — систему, которая будет фикси-ровать и обнаруживать такую динамику, связи и зависимости.

Решение этой проблемы возникает в рамках нескольких инновационных инициатив, обеспечивающих публикацию информации о научном процессе в пригодной для автоматической обработки форме в Интернете, предпочтитель-но в момент, когда происходят вышеописанные события, и следовательно, когда имеется вся необходимая информация.

В частности, что касается графика цитирования, метод веб-цитирования, разрабатываемый в проекте CLADDIER, представляет механизм кодирования точного, доступного для обхода графика цитирования в Интернете. Несколько инициатив ориентированы на внедрение авторских идентификаторов [9], кото-рые позволят создавать менее противоречивые графики цитирования. График, снабженный семантикой цитирования, например, предложенной в проекте Citation Typing Ontology, также будет содержать информацию о причине цити-рования артефакта — важном аспекте, который до сих пор оставался неясным [10].

Помимо обработки данных о цитировании предпринимались и другие уси-лия по разработке научного процесса, включая проекты по реализации обмена научными данными (процесс фокусировки внимания на научной информации), такие как COUNTER, MESUR и сервис научных рекомендаций bX. В совокупно-

сти эти проекты иллюстрируют широкие возможности применения подобной информации о процессе научного взаимодействия для создания коллекций, рас-чета новых показателей для оценки влияния научных артефактов [11], анализа текущих нaправлений исследований [12] и рекомендательных систем. В резуль-тате этой работы несколько проектов в Европе занимаются поиском техниче-ских решений для обмена подробными данными об использовании в Интернете.

Другой пример автоматизации процесса — успешная инициатива myExpe-riment, представляющая социальный портал для обмена описаниями вычисли-тельных потоков работ. Аналогичные проекты в химии обеспечивают публика-цию и обмен информацией из лабораторных журналов через Интернет [13].

Мы считаем эти инициативы особенно вдохновляющими, поскольку они позволяют нам представить следующий логический шаг — обмен информаци-ей об источнике данных. Данные об источнике представляют журнал входных данных и этапов обработки при выполнении потоков работ и являются важным аспектом научной информации как для обеспечения уверенности в достоверно-сти данных, так и для поддержки воспроизводимости результатов, требуемой от всех экспериментальных наук. Недавние работы в ИТ-сообществе [14] привели к созданию систем, способных хранить подробную информацию об источнике данных в единой среде. Мы полагаем, что информация об источнике данных, описывающая и связывающая потоки работ, наборы данных и процессы, пред-ставляет новый тип метаданных о процессе, который сыграет ключевую роль в науке, основанной на сетях и использующей большой объем данных. Ее значе-ние можно сравнить с важностью описательных метаданных, данных о цитиро-вании и об использовании данных в научной среде, основанных на публикациях. Следовательно, логично предположить, что в конечном итоге информация об источнике данных будет автоматизирована, чтобы она могла быть использована различными инструментами для поиска, анализа и оценки влияния некоторых основных продуктов новых научных знаний: потоков работ, наборов данных и процессов.

ВЗГЛЯД В БУДУЩЕЕ

Как говорилось выше, архив науки будет представлять собой результат объеди-нения традиционных и новых научных артефактов, разработки автоматизиро-ванной основы научных знаний и автоматизации метаданных о научном процес-се. Эти возможности достигнут своего максимального потенциала только при условии, что они будут реализованы в подходящей и обеспечивающей взаимо-действие киберинфраструктуре, основанной на Интернете и соответствующих веб-стандартах. Применение Интернета будет не только способствовать целост-ности научного процесса, но и позволит гибко интегрировать научные дискуссии в более широкий контекст общественных дискуссий, ведущихся в Интернете.

За последнее время мы отмечаем растущую ориентированность на Интернет при разработке подходов к реализации научного взаимодействия. Это проявля-

Page 14: 4. ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХdownload.microsoft.com/documents/rus/devcenter/Part... · 176 ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ЧЕТВЕРТАЯ ПАРАДИГМАВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ 197196

ется в пробном или активном использовании идентификаторов URI, в частности HTTP URI для идентификации научных артефактов, понятий, исследователей и учреждений, а также применение форматов XML, RDF, RDFS, OWL, RSS и Atom для представления научной информации и знаний и обмена ими. Эти основные технологии все чаще дополняются совместимыми спецификациями, которые применяются и разрабатываются в отдельных научных сообществах. В общем, вырисовывается ситуация, когда все составляющие нового архива науки (авто-матизированные и пригодные для чтения человеком) публикуются в Интерне-те в соответствии с общими веб-стандартами и отраслевыми спецификациями этих стандартов. После их публикации в Интернете они становятся доступными для просмотра, сбора и анализа как человеком, так и автоматизированными агентами.

Наша работа над спецификациями OAI Object Reuse & Exchange (OAI-ORE) [15], в которых определяется подход к идентификации и описанию ресурсов e-Науки, представляющих агрегации нескольких ресурсов, является иллюстра-цией нового подхода, основанного на киберинфраструктуре, ориентированной на Интернет. Этот подход основывается на базовых веб-технологиях, а также следует основным принципам инициативы Linked Data, которая быстро разви-вается как наиболее масштабное проявление многих лет работы над проектом Semantic Web.

Описывая тенденции использования общих веб-технологий для научных це-лей, мы вспоминаем о Джиме Грее, который в ходе дискуссий, предварявших работы над спецификациями OAI-ORE, настаивал на том, что в любом решении должны применяться общие технологии потоковой передачи — RSS или Atom. Джим был прав, говоря о том, что для удовлетворения требований научного вза-имодействия необходимо разработать множество специализированных компо-нентов киберинфраструктуры, а прочие компоненты будут доступны сразу как результат общих работ по веб-стандартизации.

Заглядывая в ближайшее будущее, мы вспоминаем одну из известных фраз Джима Грея: «Да будут все ваши проблемы техническими». Этим ироничным комментарием Джим хотел сказать, что за самыми сложными техническими проблемами стоит еще более фундаментальная проблема: интеграция киберин-фраструктуры в потоки работ и практики ученых. Без этой интеграции даже са-мая лучшая инфраструктура не получит широкого распространения. К счастью, есть признаки того, что мы выучили этот урок опытным путем в результате мно-голетней работы над другими крупномасштабными инфраструктурными про-ектами, такими как Digital Libraries Initiative. Программа The Sustainable Digital Data Preservation and Access Network Partners (DataNet), финансируемая под-разделением Office of Cyberinfrastructure Национального научного фонда США, недавно утвердила финансирование двух 10-летних проектов, изучающих кибе-ринфраструктуру как социотехническую проблему, требующую знания техно-логий и понимания способов их интеграции в сообщества. Мы полагаем, что эта более широкая цель станет одним из самых важных факторов, которые будут

способствовать изменению природы научного знания и способов его передачи в следующем десятилетии.

Мы уверены в том, что продолжающееся развитие Интернета, появление но-вых технологий, использующих его основные принципы, и понимание того, как люди используют технологии, в совокупности послужит основанием для фун-даментально переосмысленной системы научного взаимодействия, удобной для человека и поддерживающей машинную обработку. С появлением этой системы мы с удовольствием откажемся от когда-то любимого нами сравнения существу-ющей системы научного взаимодействия с отсканированной копией бумажной системы.

ССЫЛКИ

[1] H. Van de Sompel, S. Payette, J. Erickson, C. Lagoze, and S. Warner, «Rethinking Scholarly Communication: Building the System that Scholars Deserve», D-Lib Mag., vol. 10, no. 9, 2004, www.dlib.org/dlib/september04/vandesompel/09vandesompel.html.

[2] P. Murray-Rust and H. S. Rzepa, «The Next Big Thing: From Hypermedia to Datuments», J. Digit. Inf., vol. 5, no. 1, 2004.

[3] C. L. Palmer, M. H. Cragin, and T. P. Hogan, «Weak information work in scientific discovery», Inf. Process. Manage., vol. 43, no. 3., pp. 808—820, 2007, doi: 10.1016/j.ipm.2006.06.003.

[4] A. Ruttenberg, T. Clark, W. Bug, M. Samwald, O. Bodenreider, H. Chen, D. Doherty, K. Forsberg, Y. Gao, V. Kashyap, J. Kinoshita, J. Luciano, M. S. Marshall, C. Ogbuji, J. Rees, S. Stephens, G. T. Wong, E. Wu, D. Zaccagnini, T. Hongsermeier, E. Neumann, I. Herman, and K. H. Cheung, «Advancing translational research with the Semantic Web», BMC Bioinf., vol. 8, suppl. 3, p. S2, 2007, doi: 10.1186/1471-2105-8-S3-S2.

[5] D. Shotton, K. Portwin, G. Klyne, and A. Miles, «Adventures in Semantic Publishing: Exemplar Semantic Enhancements of a Research Article», PLoS Comput. Biol., vol. 5, no. 4, p. e1000361, 2009, doi: 10.1371/journal.pcbi.1000361.

[6] F. Berman, «Got data?: a guide to data preservation in the information age», Commun. ACM, vol. 51, no. 12, pp. 50—56, 2008, doi: 10.1145/1409360.1409376.

[7] R. Ruusalepp, «Infrastructure Planning and Data Curation: A Comparative Study of International Approaches to Enabling the Sharing of Research Data», JISC, Nov. 30, 2008, www.dcc.ac.uk/docs/publications/reports/Data_Sharing_Report.pdf.

[8] M. Altman and G. King, «A Proposed Standard for the Scholarly Citation of Quantitative Data», D-Lib Magazine, vol. 13, no. 3/4, 2007.

[9] M. Enserink, «Science Publishing: Are You Ready to Become a Number?» Science, vol. 323, no. 5922, 2009, doi: 10.1126/science.323.5922.1662.

[10] N. Kaplan, «The norm of citation behavior», Am. Documentation, vol. 16. pp. 179—184, 1965.

[11] J. Bollen, H. Van de Sompel, A. Hagberg, and R. Chute, «A Principal Component Analysis of 39 Scientific Impact Measures», PLoS ONE, vol. 4, no. 6, p. e6022, 2009, doi: 10.1371/journal. pone.0006022.

Page 15: 4. ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХdownload.microsoft.com/documents/rus/devcenter/Part... · 176 ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ЧЕТВЕРТАЯ ПАРАДИГМА 199ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ198

ЭНН ФИЦДЖЕРАЛЬД (ANNE FITZGERALD), БРАЙАН ФИЦДЖЕРАЛЬД (BRIAN FITZGERALD), КАЙЛИ ПАППАЛАРОДО (KYLIE PAPPALARDO), Квинслендский технологический университет (Queensland University of Technology)

[12] J. Bollen, H. Van de Sompel, A. Hagberg, L. Bettencourt, R. Chute, and L. Balakireva, «Clickstream Data Yields High-Resolution Maps of Science», PLoS ONE, vol. 4, no. 3, p. e4803, 2009, doi: 10.1371/journal.pone.0004803.

[13] S. J. Coles, J. G. Frey, M. B. Hursthouse, M. E. Light, A. J. Milsted, L. A. Carr, D. De Roure, C. J. Gutteridge, H. R. Mills, K. E. Meacham, M. Surridge, E. Lyon, R. Heery, M. Duke, and M. Day, «An e-science environment for service crystallography from submission to dissemination», J. Chem. Inf. Model., vol. 46, no. 3, 2006, doi: 10.1021/ci050362w.

[14] R. Bose and J. Frew, «Lineage retrieval for scientific data processing: a survey», ACM Comput. Surv. (CSUR), vol. 37, no. 1, pp. 1—28, 2005, doi: 10.1145/1057977.1057978.

[15] H. Van de Sompel, C. Lagoze, C. E. Nelson, S. Warner, R. Sanderson, and P. Johnston, «Adding eScience Publications to the Data Web», Proc. Linked Data on the Web 2009, Madrid.

Будущее политики данных

Прогресс в информационно-коммуникационных тех-нологиях повлек за собой информационную револю-цию, которая привела к фундаментальным измене-ниям в способах сбора, совместного использования и

распространения информации [1, 2]. Международные науч-ные сообщества уже давно признают важность создания си-стем, обеспечивающих доступность и возможность использо-вания результатов научной деятельности разными учеными. Осознание потребности в доступе к данным и обмене ими наиболее отчетливо проявляется в основных документах-обос нованиях широкомасштабных наблюдательных проек-тов, создающих огромное количество данных о Земле, воде, морской среде и атмосфере.

В течение более 50 лет основные документы крупных со-вместных научных проектов обычно включали в качестве од-ного из важнейших принципов обеспечение открытости и до-ступности результатов исследований. И хотя эти соглашения часто заключаются на международном уровне (между пра-вительствами государств или их представителями в между-народных организациях), отдельные исследователи и иссле-довательские проекты обычно работают на местном уровне, под национальной юрисдикцией. Чтобы принципы доступа к данным, принятые в международных научных совместных проектах, эффективно претворялись в жизнь, необходимо обеспечить их поддержку на уровне государственных поли-тик и законов тех стран, в которых работают участники про-екта. Отсутствие моста между принципами доступа к данным, принятыми на международном уровне, с одной стороны, и политиками и законами на государственном уровне, с другой, означает, что преимущества совместного использования дан-ных могут быть нивелированы из-за препятствий на местном уровне [3].

Page 16: 4. ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХdownload.microsoft.com/documents/rus/devcenter/Part... · 176 ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ЧЕТВЕРТАЯ ПАРАДИГМАВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ 201200

Необходимость согласования принципов доступа к данным, принятых меж-дународными научными совместными проектами, и местных политик и законов национальных юрисдикций, под которыми работают исследователи, подчерки-вается в проекте Global Earth Observation System of Systems11 (GEOSS), начатом в 2005 г. группой организаций, наблюдающих за состоянием Земли (Group on Earth Observations, GEO) [1, p. 125]. В проекте GEOSS предпринята попытка установить связь между учеными, предоставляющими данные об окружающей среде, и инструментами для поддержки принятия решений, с одной стороны, и конечными пользователями этих данных и инструментов, с другой, чтобы повы-сить важность и полезность наблюдений Земли для решения глобальных про-блем. В итоге будет создана глобальная общая инфраструктура, генерирующая всесторонние данные об окружающей среде почти в реальном времени, а также информацию и аналитику для широкого круга пользователей.

GEOSS — это «система систем», основанная на существующих системах на-блюдения и включающая новые системы моделирования и наблюдения Земли, предлагаемые как компоненты GEOSS. Эта новая общая инфраструктура свя-зывает растущее число различных инструментов и систем для мониторинга и прогнозирования изменений в глобальной окружающей среде. Она поддер-живает лиц, ответственных за разработку политик, менеджеров ресурсов, уче-ных-исследователей и многих других экспертов и специалистов, принимающих решения.

МЕЖДУНАРОДНЫЕ ПОЛИТИКИ

Среди первых действий, предпринятых группой GEO, было открытое призна-ние важности обмена данными для достижения своих целей и выработка стра-тегических принципов совместного использования данных в проекте GEOSS [4]:

• Полный и открытый обмен данными, метаданными и продуктами, совмест-но используемыми в проекте GEOSS, с учетом соответствующих междуна-родных стандартов, а также национального законодательства и политик.

• Предоставление всех совместно используемых данных, метаданных и про-дуктов с минимальными временными задержками и денежными затратами.

• Предоставление для исследований и образовательных целей всех совместно используемых данных, метаданных и продуктов — бесплатно или не дороже стоимости их воспроизведения.

Эти принципы, несмотря на свою важность, по сути не новы. Общая доступ-ность и открытый обмен данными также провозглашаются в ряде других между-народных политик, в том числе в документе «Бермудские принципы» (Bermuda

11 www.earthobservations.org/index.html

Principles, 1996) и в Берлинской декларации (Berlin Declaration on Open Access to Knowledge in the Sciences and Humanities (2003)) [5].

«Бермудские принципы» были разработаны учеными-участниками Между-народного консорциума по расшифровке генома человека (International Human Genome Sequencing Consortium) и финансирующими их организациями. Эти принципы представляли собой соглашение между учеными о необходимости создания основы для быстрого и открытого совместного использования данных о нуклеотидной последовательности гена до их публикации [6]. Бермудские принципы требовали автоматического сброса последовательности гена длиннее 1 Кбайт и немедленной публикации готовых аннотированных последовательно-стей. Они стремились сделать всю последовательность гена беспрепятственно доступной для общих исследований и разработок, чтобы обеспечить ее макси-мальную полезность для общества.

Берлинская декларация ставила своей целью поддержку парадигмы откры-того доступа посредством Интернета и продвигала Интернет в качестве основно-го инструмента для создания глобальной научной базы знаний. Она определяла «ресурс открытого доступа» (open access contribution) как результаты научных исследований, первичные данные и метаданные и требовала, чтобы ресурсы открытого доступа помещались в Интернет-хранилище и предоставлялись на основе «бесплатного безусловного всемирного права на доступ и разрешения на копирование, использование, распространение, передачу и публичное пред-ставление работы, а также создание и распространение производных работ, на любом цифровом носителе для любой разумной цели, при условии надлежащей ссылки на источник» [7].

В сущности, принципы GEOSS близко сопоставимы с принципами совмест-ного использования данных, которые поддерживаются в Договоре об Антаркти-ке, подписанном почти 50 годами ранее в Вашингтоне (США, округ Колумбия) в 1959 г.. Этот договор заслужил пристальное внимание в Австралии, особенно в связи с исследованиями данных морских наблюдений12. В статье III Договора об Антарктике сказано:

1. Для поощрения международного сотрудничества в научных исследовани-ях Антарктики, как установлено в Статье II настоящего Договора, стороны договора обязуются в максимально возможной и исполнимой мере:…

(c) обеспечивать обмен и свободную доступность научных наблюдений и ре-зультатов исследований в Антарктике [8].

Принципы совместного использования данных, изложенные в Договоре об Антарктике, в 10-летнем плане мероприятий проекта GEOSS, Бермудских принципах, Берлинской декларации и других документах, получили широ-

12 Среди других международных соглашений, включающих такие условия, — Конвенция ООН по мор-

скому праву, Озоновый протокол, Конвенция о биологическом разнообразии и Орхусская конвенция.

Page 17: 4. ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХdownload.microsoft.com/documents/rus/devcenter/Part... · 176 ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ЧЕТВЕРТАЯ ПАРАДИГМАВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ 203202

кое признание не только как полезные, но и как крайне важные факторы для поддержки информационных потоков и доступности данных. И все же возни-кают проблемы в связи с тем, что в отсутствии четкой законодательной базы и государственных политик появляются другие препятствия для эффективного совместного использования данных, имеющих важнейшее значение для между-народных научных совместных проектов [5, 9]. Опыт показывает, что при отсут-ствии четко сформулированной политики доступа к данным и соответствующей законодательной базы благие намерения на практике слишком легко терпят по-ражение.

НАЦИОНАЛЬНАЯ ЗАКОНОДАТЕЛЬНАЯ БАЗА И ПОЛИТИКИ

Главная стратегия, гарантирующая эффективное практическое применение международных политик «полного и открытого обмена данными», состоит в разработке последовательной политики и законодательной базы на государ-ственном уровне (см. рисунок 1). Национальная законодательная база должна поддерживать международные принципы доступа и совместного использова-ния данных, а также быть достаточно четкой и практически применимой, что-бы ею могли руководствоваться исследователи на уровне научных проектов. Национальные законодательные базы по совместному использованию данных эффективно применяются в США и Европе, однако во многих других странах (включая Австралию) этот во-прос еще не решен. Ким Фин-ни (Kim Finney) из ЦОД Ан-тарктики привлекла внимание к проблемам при выполне-нии Статьи III(1)(c) Договора об Антарктике в отсутствии утвержденных политик досту-па к данным у сторон, подпи-савших Договор. Она отмечает, что для выполнения целей До-говора необходима искренняя готовность ученых открыть доступ к своим данным для других исследователей. И этой готовности недостает — несмо-тря на четко выраженное в До-говоре указание «обменивать-ся и свободно предоставлять доступ» к научным данным об Антарктике. Финни говорит об острой необходимости в по-

литике доступа к данным в странах-участницах Договора об Антарктике, по-скольку без такой политики цели, изложенные в Договоре об Антарктике, будут в лучшем случае выполнены лишь отчасти [10] [1, с. 77—78].

В США политики доступа и использования данных для исполнительных от-раслевых департаментов и ведомств правительства США установлены в цирку-ляре A-130 Службы управления и бюджета США [11] [1, с. 174—175]. Подтверж-дая, что правительственная информация является ценным общим ресурсом, и что граждане должны получать пользу от ее распространения, циркуляр А-130 требует отказаться от излишних ограничений. Кроме того, в циркуляре A-16 под названием «Координирование обработки географических сведений и со-путствующих геопространственных данных» сказано, что федеральные службы США несут ответственность за «сбор, обработку, распространение и хранение пространственной информации таким образом, чтобы полученные данные, ин-формация или продукты могли быть открыто предоставлены другим федераль-ным ведомствам и негосударственным пользователям, а также способствовали интеграции между всеми источниками» [12] [1, с. 181—183].

В Европе система политик включает обширную Директиву о повторном использовании государственной информации (2003) [13], а также конкретную директиву по созданию инфраструктуры пространственной информации (INSPIRE Directive, 2007) и Директиву о доступе к экологической информации (2003) [15], обязывающую органы власти предоставлять своевременный доступ к экологической информации.

При обсуждении директивы о повторном использовании государственной информации Европарламент и Совет ЕС признали, что государственный сек-тор является крупнейшим производителем информации в Европе, и что при ус-ловии доступности и повторного использования этой информации могут быть достигнуты значительные социальные и экономические преимущества. Однако европейские компании, участвующие в создании полезных информационных продуктов на основе имеющихся информационных ресурсов, окажутся в не-выгодном конкурентном положении в случае, если у них не будет четких ру-ководящих политик и единых практик в области доступа и повторного исполь-зования государственной информации. Несогласованность политик и практик в отношении государственной информации рассматривалась как препятствие для разработки цифровых продуктов и услуг, основанных на информации, по-лученной от различных стран [1, с. 137—138]. В ответ на это Директива о повтор-ном использовании государственной информации устанавливает нормативную базу, управляющую порядком повторного использования существующих доку-ментов, хранящихся в государственных организациях стран-членов ЕС. Кроме того, директива INSPIRE устанавливает политику и принципы ЕС в отношении пространственных данных, находящихся в распоряжении органов государ-ственной власти или хранящихся по их поручению, и в отношении использова-ния пространственных данных органами государственной власти для решения государственных задач.

Международныеполитики

Например, принципысовместного использования

данных GEOSS,Договор об Антарктике,Бермудские принципы

Международныеправовые акты

Например,Рекомендации ОЭСР

Национальныезаконодательные базы

и политики

Планы управленияданными

РИСУНОК 1.

Нормативно-правовая база, регулирующая совместное использование данных.

Page 18: 4. ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХdownload.microsoft.com/documents/rus/devcenter/Part... · 176 ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ЧЕТВЕРТАЯ ПАРАДИГМАВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ 205204

В отличие от США и Европы, в Австралии в настоящее время отсутствует система политик, регулирующая доступ и использование данных. В частности, текущая ситуация с доступом и повторным использованием государственной информации неопределенна и лишена основы в виде согласованного набора по-литик, с точки зрения как внутреннего и межведомственного взаимодействия различных уровней государственной власти на местном, региональном и госу-дарственном уровне, так и взаимодействия между государственными органами, научными учреждениями и негосударственным сектором13. В 2008 г. в докладе «Venturous Australia», сделанном в рамках проекта по анализу национальной инновационной системы (Review of the National Innovation System), содержа-лись рекомендации (в разделе Рекомендации 7.7) по разработке национальной информационной стратегии Австралии для оптимизации потока информации в экономике Австралии [16]. Однако по-прежнему остается неясным, как создать национальную информационную стратегию.

Отправную точку для таких стран, как Австралия, которым еще предстоит создать государственную нормативно-правовую базу, регулирующую совмест-ное использование результатов исследований, предоставила Организация эко-номического сотрудничества и развития (ОЭСР). В 2008 г. на совещании мини-стров в Сеуле, посвященном будущему Интернет-экономики, министры ОЭСР поддержали определение принципа доступа к государственной информации и результатам исследований, финансируемых из государственного бюджета. Эти документы устанавливают принципы, регулирующие доступность результатов исследований, в том числе их открытость, прозрачность, соответствие требова-ниям действующего законодательства, совместимость, качество, эффективность, контролируемость и подтверждаемость, аналогично принципам, изложенным в документе GEOSS. Принцип открытости в документе ОЭСР «Рекомендации по доступу к результатам исследований с государственным финансированием» (2006) гласит:

Открытость означает доступ к данным на равных условиях для международ-ного научного сообщества с наименьшим возможным уровнем затрат, предпоч-тительно не дороже предельной себестоимости ее распространения. Открытый доступ к результатам исследований с государственным финансированием дол-жен предоставляться своевременно, без каких-либо затруднений, в удобном для пользователей виде, предпочтительно через Интернет [17].

Рекомендации ОЭСР являются правовым документом ОЭСР, содержащим описание стандартов или целей, которых должны достичь страны-члены ОЭСР (в том числе Австралия), хотя этот документ не имеет обязательной юридической

13 После того, как в 2001г. подразделение по управлению пространственными данными (Office of Spatial

Data Management) утвердило политику расчета цен и доступа к пространственным данным, в Австра-лии были отмечены лишь незначительные сдвиги в вопросе разработки политик доступа к правитель-ственной информации.

силы. И все же, как показывает долголетний опыт стран-членов ОЭСР, реко-мендации имеют большую морально-нравственную силу [2, с. 11]. В Австралии рабочая группа по данным для науки при Совете премьер-министра по науке, технике и инновациям (PMSEIC) в своем отчете за 2006 г. «От данных к мудрости: пути успешного управления научными данными в Австралии» рекомендовала учитывать руководство ОЭСР при разработке стратегической платформы для управления данными исследований в Австралии [18].

Разработка национальной системы для управления данными, основанной на принципах доступности и совместного использования данных (таких как рекомендации ОЭСР), поможет объединить государственные законы с между-народными политиками и протоколами, такими как Договор об Антарктике и принципы GEOSS. Эта система станет директивным указанием (или даже тре-бованием) для исследователей учитывать и, где это выполнимо, применять эти принципы совместного использования данных в своих планах по управлению данными исследовательских проектов [5, 9].

ЗАКЛЮЧЕНИЕ

Решение организационных вопросов о совместном использовании данных в рамках сложных международных электронных исследовательских проектов требует наличия соответствующих государственных политик, нормативно-пра-вовой базы и методик управления данными. И хотя международные научные сообщества, как правило, выражают готовность к совместному использованию и предоставлению доступа к данным, при отсутствии соответствующей государ-ственной политики, нормативно-правовой базы и эффективных методик управ-ления данными эти цели находятся под угрозой. Многие трудности обусловлены самой природой научных сообществ по электронным исследованиям, в особен-ности если ученые работают в географически удаленных регионах. Техноло-гия позволила преодолеть физические границы, однако границы юрисдикций остаются, как и прежде. Если результаты исследований должны передаваться, как это запланировано, необходимо, чтобы государственные политики и законы поддерживали системы доступа к данным, считающиеся основными для между-народных научных сообществ. При разработке политик, законов и методик на государственном уровне можно воспользоваться рекомендациями из документа ОЭСР о доступе к результатам исследований с государственным финансирова-нием, циркуляром A-130 Службы управления и бюджета США и различными директивами ЕС.

Важно отметить, что страны должны взять на себя ответственность за реа-лизацию целей политик по доступу и повторному использованию данных на всех трех уровнях для обеспечения эффективности информационных потоков. Лишь благодаря наличию надлежащих нормативно-правовых баз и политик мы сможем остаться на плаву в океане данных.

Page 19: 4. ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХdownload.microsoft.com/documents/rus/devcenter/Part... · 176 ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ЧЕТВЕРТАЯ ПАРАДИГМАВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ 207206

ССЫЛКИ

[1] A. Fitzgerald, «A review of the literature on the legal aspects of open access policy, practices and licensing in Australia and selected jurisdictions», July 2009, Cooperative Research Centre for Spatial Information and Queensland University of Technology, www.aupsi.org.

[2] Submission of the Intellectual Property: Knowledge, Culture and Economy (IP: KCE) Research Program, Queensland University of Technology, to the Digital Economy Future Directions paper, Australian Government, prepared by B. Fitzgerald, A. Fitzgerald, J. Coates, and K. Pappalardo, Mar. 4, 2009, p. 2, www.dbcde.gov.au/__data/assets/pdf_file/0011/112304/Queensland_University_of_Technology_QUT_Law_Faculty.pdf.

[3] B. Fitzgerald, Ed., Legal Framework for e-Research: Realising the Potential. Sydney University Press, 2008, http://eprints.qut.edu.au/14439.

[4] Group on Earth Observations (GEO), «GEOSS 10-Year Implementation Plan», adopted Feb. 16, 2005, p. 4, www.earthobservations.org/docs/10-Year%20Implementation%20Plan.pdf.

[5] A. Fitzgerald and K. Pappalardo, «Building the Infrastructure for Data Access and Reuse in Collaborative Research: An Analysis of the Legal Context», OAK Law Project and Legal Framework for e-Research Project, 2007, http://eprints.qut.edu.au/8865.

[6] Бермудские принципы (Bermuda Principles), 1996, www.ornl.gov/sci/techresources/Human_Genome/research/bermuda.shtml, по данным на 10 июня 2009 г.

[7] Берлинская декларация (Berlin Declaration on Open Access to Knowledge in the Sciences and Humanities) (2003), http://oa.mpg.de/openaccess-berlin/berlindeclaration.html, по данным на 10 июня 2009 г.

[8] Договор об Антарктике (The Antarctic Treaty) (1959), подписанный в г. Ва-шингтон (округ Колумбия) 1 декабря 1959 года, вступил в силу в Австралии и других странах 23 июня 1961 года [1961] ATS 12 (Australian Treaty Series, 1961, no. 12), www.austlii.edu.au/cgi-bin/sinodisp/au/other/dfat/treaties/1961/12.html?query=antarctic, по данным на 5 июня 2009 г.

[9] A. Fitzgerald, K. Pappalardo, and A. Austin, «Practical Data Management: A Legal and Policy Guide», OAK Law Project and Legal Framework for e-Research Project, 2008, http://eprints.qut.edu.au/14923.

[10] Scientific Committee on Antarctic Research (SCAR) Data and Information Strategy 2008—2013, Joint Committee on Antarctic Data Management (JCADM) and Standing Committee on Antarctic Geographic Information (SC-AGI), authored by K. Finney, Australian Antarctic Data Centre, Australian Antarctic Division (revised May 2008), p. 40, www.jcadm.scar.org/fileadmin/filesystem/jcadm_group/Strategy/SCAR_DIM_StrategyV2-CSKf_final.pdf.

[11] Циркуляр А-130 Службы управления и бюджета США по управлению государ-ственными информационными ресурсами (OMB Circular A-130), 2000, www.whitehouse.gov/omb/circulars/a130/a130trans4.html.

[12] Циркуляр А-16 Службы управления и бюджета США о координировании обработки географических сведений и сопутствующих геопространственных данных (OMB Circular A-16), дата выпуска 16 января 1953 г., редакции от 1967, 1990, 2002, Sec. 8, www.whitehouse.gov/omb/circulars_a016_rev/#8.

[13] Европарламент и Совет ЕС, директива 2003/98/EC Европарламента и Совета ЕС от 17 ноября 2003 г. по повторному использованию государственной инфор-мации, 2003, OJ L 345/90, http://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=CELEX:32003L0098:EN:HTML.

[14] Европарламент и Совет ЕС, директива 2007/2/EC Европарламента и Совета ЕС от 14 марта 2007 года о создании инфраструктуры пространственной инфор-мации, 2007, OJ L 108/1, Apr. 25, 2007, http://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=OJ:L:2007:108:0001:01:EN:HTML.

[15] Европарламент и Совет ЕС, директива 2003/4/EC Европарламента и Совета ЕС от 28 января 2003 г. об общем доступе к экологической информации и отменяю-щая директива Совета ЕС 90/313/EEC OJL 041, 14 февраля 2003г., с. 0026—0032, http://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=CELEX:32003L0004:EN:HTML.

[16] Cutler & Company, «Venturous Australia: Building Strength in Innovation,» Review of the National Innovation System, p. 95, 2008, www.innovation.gov.au/innovationreview/Pages/home.aspx.

[17] ОЭСР «Рекомендации для Совета ЕС по доступу к результатам исследований с государственным финансированием», C(2006)184, Dec. 14, 2006, http://webdomino1.oecd.org/horizontal/oecdacts.nsf/Display/3 A5FB1397B5ADFB7C12572980053C9D3?OpenDocument, по данным на 5 июня 2009 г. Обратите внимание, что эти рекомендации были также опубликованы в документе ОЭСР «Принципы и руководство по доступу к результатам исследований с государ-ственным финансированием», 2007.

[18] Совет премьер-министра по науке, технике и инновациям (PMSEIC), рабочая группа по данным для науки, «От данных к мудрости: пути успешного управ-ления научными данными в Австралии», рекомендация 9, с. 12, декабрь 2006 г., www.dest.gov.au/sectors/science_innovation/publications_resources/profiles/Presentation_Data_for_Science.htm.

Page 20: 4. ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХdownload.microsoft.com/documents/rus/devcenter/Part... · 176 ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ЧЕТВЕРТАЯ ПАРАДИГМА 209

ДЖОН УИЛБЭНКС (JOHN WILBANKS), Creative Commons

Я вижу изменение парадигмы, и это мы

Разговоры об изменениях парадигмы обычно действу-ют мне на нервы. Этот термин потерял свою ценность из-за его неточного применения в широких кругах, его даже превратили в шутку в сериале «Симпсоны». Поэ-

тому когда мы будем рассматривать понятие четвертой пара-дигмы и ее влияние на научное взаимодействие [2], нам сле-дует вспомнить его исходное значение в работе Томаса Куна (Thomas Kuhn) «Структура научных революций» (Structure of Scientific Revolutions) [1].

В своей модели Кун описывает мир науки, в котором некая совокупность идей становится превалирующей и закрепляет свои позиции, тем самым создавая мировоззрение (пресло-вутую «парадигму»), которая в свою очередь набирает силу и убедительность. Эта совокупность идей становится убеди-тельной, поскольку она представляет возможное объяснение наблюдаемых явлений. Так мы получили светоносный эфир, теорию миазмов в возникновении инфекционных болезней и идею о том, что Солнце вращается вокруг Земли. Совокуп-ность идей, мировоззрение, парадигма набирают силу путем инкрементализма. Обычно каждый ученый в своей работе шаг за шагом укрепляет текущую парадигму. Когда ученый вносит большой вклад в картину мира, он получает авторитет, контракты на проведение научных исследований, награды, призы и пост в совете директоров.

Все заинтересованные лица наживаются на совокупности идей, даже превосходя ее рамки. Различные отрасли эко-номики и органы власти (а также люди, в них работающие) создают компании и политики, зависящие от текущего миро-воззрения. Это создает уровень защиты, своего рода иммун-ную систему, которая защищает современное мировоззрение

Page 21: 4. ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХdownload.microsoft.com/documents/rus/devcenter/Part... · 176 ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ЧЕТВЕРТАЯ ПАРАДИГМАВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ 211210

от нападок. Скептики и противники отодвигаются на задний план. Новые идеи не разрабатываются, им не хватает финансирования и кадров. Страх, неуверен-ность и сомнение окрашивают восприятие новых идей, методов и подходов, ко-торые бросают вызов общепринятой парадигме.

И все же мировоззрения утрачивают свою силу, а парадигмы рушатся, когда они больше не могут объяснять наблюдаемые явления или когда эксперименты достоверно доказывают, что парадигма неверна. Идея эфира была окончатель-но опровергнута после сотен лет инкрементализма, так же как теория миазмов и геоцентризм. Время перемен приходит, когда старые объяснения явлений более не соответствуют новым реалиям.

Я поражен тем, что именно эта идея содержалась в рассуждениях Джима Грея о четвертой парадигме [3] и «лавине данных». Он говорил о том, что наша способность измерения, хранения, анализа и визуализации данных является той самой новой реальностью, к которой должна адаптироваться наука. В сердце новой парадигмы лежат данные, которые наряду с эмпиризмом, теорией и мо-делированием в совокупности формируют единое целое, воспринимаемое нами как современный научный метод.

И все же я пришел воздать дань первым трем парадигмам, а не похоронить их. Эмпиризм и теория помогли нам пройти долгий путь — от представления о том, что Солнце вращается вокруг Земли, до квантовой физики. Моделирование лежит в основе многих современных наук, от антропологических реконструк-ций древнего Рима до прогнозов погоды. Точность моделирования и прогнозов стала центром самых жарких политических дебатов об изменениях в экономике и климате. И очень важно отметить, что эмпиризм и теория являются неотъем-лемой частью эффективного моделирования. Я могу на своем компьютере со-здать славную модель, в которой отсутствует теория тяготения, но когда я еду с крутого склона на своем автомобиле, эмпиризм в лице силы тяжести тянет меня вниз.

Так что по сути это не изменение парадигмы в смысле Куна. Данные не от-метают прежнюю реальность. Данные просто создают ряд нагрузок на мето-дологии и социальные привычки, которые мы используем при работе с нашим опытом и теорией и для их передачи, а также на надежность и сложность нашего моделирования и на то, как мы представляем, передаем и интегрируем наши знания.

Нам нужно изменить парадигму себя как ученых, а не прежние парадигмы открытий. Когда мы начали понимать, что материя состоит из атомов, что мы состоим из генов, а Земля вращается вокруг Солнца, — все это были изменения парадигм в смысле Куна. То, о чем мы здесь говорим, идет вразрез с подобными типами изменений. Наука с использованием большого объема данных в случае ее правильной реализации обеспечит больше изменений парадигм в научной теории, которые будут происходить более высокими темпами, поскольку мы сможем быстро оценивать наше мировоззрение, сопоставляя его с «объективной реальностью», которую мы можем измерять столь мощными инструментами.

Стратегия преодоления «лавины данных» лучше базируется на сетях, а не на динамике Куна. Сети обладают возможностями масштабирования, полезны-ми для нас при управлении избытком данных. Они позволяют преобразовать огромные массивы информации в нечто ценное. Таким образом, информация перестает быть «проблемой», требующей «решения». И в самой структуре сетей заложен урок, который может помочь нам в изучении лавины данных: если нам требуется управлять лавиной данных, нам необходима открытая стратегия, от-вечающая практике использования сетей.

Говоря об этом, я имею в виду «сквозные», многоуровневые ИКТ-сети, состо-ящие всего-навсего из стека протоколов. Интернет был создан на основе доку-ментов, описывающих стандартные методы передачи и отображения информа-ции, а также порядок присвоения имен компьютерам и документам. Поскольку мы все согласились на эти методы, и любой может воспользоваться ими, не спра-шивая разрешения, Интернет появился на свет и продолжает расти.

В этом смысле данные являются не «четвертой парадигмой», а «четвертым сетевым уровнем» (поверх Ethernet, TCP/IP и Интернета [4]), который взаимо-действует сверху вниз с другими уровнями. Я полагаю, что эта точка зрения отражает характер научного метода немного лучше, чем понятие изменения парадигмы, имеющее деструктивную природу. Данные являются результатом поэтапного прогресса в развитии технологий, стоящих на службе у эмпиризма. Данные наполняют содержанием теорию, приводят в действие и подкрепляют моделирование и наиболее полезны в двустороннем стандартном взаимодей-ствии между этими двумя уровнями сети обмена знаниями.

Можно смело заявить о том, что парадигма, требующая ликвидации, — это мысль о том, что мы, как ученые, существуем вне сетей обмена знаниями. Это образное выражение, если мы с ним согласимся, скрывает в себе два урока, кото-рые станут очевидны по мере изучения нами проектирования сетей для научно-го взаимодействия на уровне, использующем большой объем данных.

Первый урок, который четко уловил Дэвид Айзенберг (David Isenberg), за-ключается в том, что Интернет «наследует свой деструктивный характер от од-ного очень специфичного свойства: ОН ПУБЛИЧЕН» [5]. Он публичен в несколь-ких отношениях. Спецификации стандартов, лежащих в основе Интернета, сами по себе открыты и публичны: их можно бесплатно просматривать, загружать, копировать и создавать на их основе производные стандарты. Они открыты с точки зрения авторского права. Эти спецификации могут быть использованы всеми, кто желает их усовершенствовать или расширить, но их ценность явля-ется результатом их повсеместного применения, а не частных усовершенствова-ний. Айзенберг отмечает, что именно так начинают происходить «чудеса»: сеть растет без хозяина, нам не нужно спрашивать разрешения, чтобы внедрять в нее инновации, в ней растут и появляются рынки (например, электронная почта, мгновенный обмен сообщениями, социальные сети и даже порнография). Изме-нение публичного характера Интернета угрожает самому факту его существо-вания. Это непонятно тем из нас, кто вырос в мире экономической конкуренции

Page 22: 4. ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХdownload.microsoft.com/documents/rus/devcenter/Part... · 176 ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ЧЕТВЕРТАЯ ПАРАДИГМАВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ 213212

и традиционной экономической теории. И пусть Википедия существует, она не имеет ничего общего с энциклопедией «Британика».

Однако, как сказал Галилей, «И все-таки она вертится!» [6] Википедия суще-ствует, и Интернет — массовая иллюзия, определяемая набором сухих докумен-тов и протоколов, — помогает мне обмениваться видеозвонками по скайпу с моей семьей в Бразилии. Это движущая сила для инноваций, подобных которым мы никогда не видели. Интернет преподает нам урок: новые уровни сети, связанные с данными, должны воплощать идею публичности и открытости — стандарты, которые позволяют нам открыто работать вместе и переносить столь хорошо знакомые нам свойства сети с огромных коллекций документов в Интернете на огромные коллекции данных, которые мы можем очень легко накопить.

Второй урок проистекает из другого открытого пространства — открытого программного обеспечения. Программное обеспечение, построенное по модели разрозненных небольших разработок, объединенных на основе технических и правовых стандартов, также было теоретически невозможным. Однако реаль-ность Интернета сделала возможным это изменение парадигмы в модели Куна. Возможности повсеместного взаимодействия в сочетании с низкой стоимостью инструментов программирования и концептуальное применение публичных лицензий возымели необычный эффект: появление программного обеспечения, которое было работоспособным и увеличивалось в масштабе. Главный урок за-ключается в том, что мы можем использовать возможности миллионов умов, если создадим единую систему стандартов, а созданные продукты могут во мно-гих случаях превзойти программное обеспечение, разработанное в традицион-ной централизованной среде. (Хороший тому пример — Apache, самый попу-лярный веб-сервер в Интернете с 1996 г.)

Creative Commons применила эти уроки к лицензированию, создав набор стандартных лицензий для творческих работ. Эти лицензии, в свою очередь, рас-пространились по Интернету и охватили сотни миллионов цифровых объектов. Как оказалось, открытое лицензирование имеет замечательные преимущества. Оно обеспечивает своего рода совместимость (с практически нулевой стоимо-стью передачи), знакомую нам по техническим сетям, которая реализуется в виде различных прав, связанных с цифровыми объектами — песнями, фотогра-фиями, а также научной информацией.

При сравнении этих тенденций с традиционной экономической теорией нас ставит в тупик материальная мотивация. И здесь мы видим реальное изменение парадигмы в смысле Куна — прежняя теория не представляла мир, в котором люди работают бесплатно, но современная реальность это подтверждает. Эбен Моглен (Eben Moglen) сделал в 1999 г. провокационное заявление о том, что со-вместная работа в Интернете сродни электрической индукции — независимость сети не привязана к материальным выгодам отдельных ее участников. Мы не должны задаваться вопросом, в чем состоит материальная мотивация для со-вместной разработки программного обеспечения — как мы не спрашиваем, по-чему электроны движутся по проводам под действием силы тока. Вместо этого

нам нужно спросить, каково сопротивление в проводах или в чем состоит свой-ство независимости сети? Метафорическое следствие Моглена из закона Фара-дея и закона Ома14 спустя 10 лет по-прежнему вызывает интерес.

В сети существует значительное сопротивление уровню с использованием большого объема данных. И по сути оно в большей степени основывается на программном обеспечении, а не на проблемах интеллектуальной собственно-сти. (Хотя интенсивность поля авторского права в сопротивлении трансформа-ции реферируемой литературы очень высоко и активно препятствует «веб-ре-волюции» в области научного взаимодействия.) Что касается данных, проблемы возникают в связи с авторскими правами15, но сопротивление также связано со многими другими источниками: сложности при аннотировании и повторном использовании данных, сложности при отправке больших файлов с данными, проблемы совместимости данных, не предназначенных для этого, и многое дру-гое. Поэтому для тех, кто эти данные не создавал, они имеют очень короткий пе-риод полураспада. Это сопротивление берет начало в парадигме нас самих как отдельных ученых, а не в парадигмах эмпиризма, теории или моделирования.

Поэтому я считаю, что мы должны придерживаться взглядов Моглена и что мы сопротивляемся сопротивлению. Мы должны инвестировать в аннотирова-ние и курирование, в возможности хранения и обработки данных, в совместную визуализацию и аналитику. Нам необходимы открытые стандарты для совмест-ного использования и представления данных. Нам нужны документы RFC для уровня данных. И в первую очередь нам нужно научить ученых и исследовате-лей работать с этим новым уровнем данных. Если мы по-прежнему будем при-держиваться узкой специализации в культуре обучения научных гильдий, со-циальная структура науки будет также оказывать значительное сопротивление уровню данных.

Мы должны воспринимать себя как связанные узлы, которые должны пе-редавать данные, проверять теории и использовать результаты моделирования, созданные другим учеными. И поскольку кривые накопления данных устрем-ляются вверх в геометрической прогрессии, нам необходимо расширять наши возможности использовать эти данные, и это острая необходимость. Мы должны объединить самих себя и наши знания в сети. Ничто, созданное человеком до сих пор, не росло столь быстро, как открытые сети.

14 В Метафорическом следствии Моглена из закона Фарадея сказано, что если вы обернете Интернет

вокруг каждого человека на планете и начнете вращать планету, то по сети потечет программное обе-спечение. Это независимое свойство объединенных человеческих умов: они создают вещи для удо-вольствия друг друга и для победы над нелегким чувством избыточного одиночества. Единственный вопрос, который следует задать: каково сопротивление сети? Метафорическое следствие Моглена из закона Ома утверждает, что сопротивление сети прямо пропорционально напряженности поля систе-мы «интеллектуальной собственности» [7].15

К данным во всем мире применяются самые различные законы об авторских правах, что приводит к путанице, усложняя и затрудняя схемы международного лицензирования [8].

Page 23: 4. ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХdownload.microsoft.com/documents/rus/devcenter/Part... · 176 ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ЧЕТВЕРТАЯ ПАРАДИГМАВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ 215214

Как и любые сравнения, сравнение с сетью имеет свои ограничения. Созда-вать сети знаний сложнее, чем сети документов. Реализовать совместную разра-ботку программного обеспечения проще, поскольку инструменты разработки недорого стоят и имеются в избытке. Не так обстоят дела в физике и молекуляр-ной биологии. Некоторые аспекты, обуславливающие успешность Интернета, не будут в той же мере эффективны для науки и научного сообщества, поскольку договорные рейтинги позволят вам найти информацию, представляющую лишь скучное общее мнение, а не интересные данные, имеющие низкий рейтинг.

Но альтернатив сетевому подходу крайне мало. Лавина данных реальна, и она не замедляется. Мы можем обрабатывать данные быстрее и в больших объе-мах, чем когда-либо раньше, с массовым параллелизмом. Однако наши умствен-ные способности закостенели на уровне «один человек — один мозг». Если мы хотим идти в ногу со временем, нам нужно работать вместе, а сети являются наилучшим средством совместной работы, созданным в человеческой культуре. Это означает, что нам нужно сделать наш подход к данным столь же открытым, сколь и протоколы, соединяющие компьютеры и документы. И это единствен-ный путь достижения необходимого нам уровня масштаба.

Есть еще одно замечательное преимущество открытого подхода. У нас есть наши мировоззрения и парадигмы, наши мнения и аргументы. Мы по своей природе привыкли считать, что мы правы. Но мы можем быть неправы, и мы на-верняка не абсолютно правы. Включение нашего текущего мировоззрения в от-крытую систему будет означать, что те, кто придет после нас, будут продолжать нашу работу. Точно так же как мы в своей работе основываемся на эмпиризме, теории и моделировании. Если же мы ограничим себя закрытой системой, это будет означать, что для дальнейшего развития придется разрушить созданное нами. Добавление данных в сеть открытого уровня станет хорошим подарком для ученых, которые последуют за нами и перейдут в следующую парадигму. Оно будет эффективной структурой, которую запомнят как «кирпичик» на сле-дующем этапе эволюции научного метода.

ССЫЛКИ

[1] T. S. Kuhn, The Structure of Scientific Revolutions. Chicago: University of Chicago Press, 1996.

[2] G. Bell, T. Hey, and A. Szalay, «Beyond the Data Deluge», Science, vol. 323, pp. 1297—1298, Mar. 6, 2009, doi: 10.1126/science.1170411.

[3] J. Gray and A. Szalay, «eScience — A Transformed Scientific Method», presentation to the Computer Science and Technology Board of the National Research Council, Mountain View, CA, Jan. 11, 2007. (В этом издании содержится отредактирован-ная запись презентации.)

[4] Joi Ito, ключевая презентация на конференции ETech, San Jose, CA, Mar. 11, 2009.[5] «Broadband without Internet ain’t worth squat», by David Isenberg, keynote

address delivered at Broadband Properties Summit, accessed on Apr. 30, 2009, at http://isen.com/blog/2009/04/broadband-without-internet-ain-worth.html.

[6] Wikipedia, http://en.wikipedia.org/wiki/E_pur_si_muove, по данным на 30 апреля 2009 г.

[7] E. Moglen, «Anarchism Triumphant: Free Software and the Death of Copyright», First Monday, vol. 4, no. 8, Aug. 1999, http://emoglen.law.columbia.edu/my_pubs/nospeech.html.

[8] Протокол Science Commons по данным с открытым доступом, http://sciencecommons.org/projects/publishing/open-access-data-protocol.

Page 24: 4. ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХdownload.microsoft.com/documents/rus/devcenter/Part... · 176 ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ЧЕТВЕРТАЯ ПАРАДИГМА 217

ТИМО ХЭННАЙ (TIMO HANNAY), Nature Publishing Group

От Web 2.0 к глобальной базе данных

Один из самых острых на язык веб-комментаторов, Клэй Ширки (Clay Shirky), выразил эту мысль наи-более точно. Во время своих бесед «Lessons from Napster» на конференции O’Reilly Peer-to-Peer

Conference в 2001 г. он предложил своей аудитории пораз-мышлять над пресловутым предсказанием создателя IBM Томаса Уотсона (Thomas Watson) о том, что мировой рынок компьютеров застынет на отметке примерно пять штук [1]. Без сомнения, у некоторых из присутствовавших в тот день с собой было больше компьютеров — на коленях, запястьях, в карманах и сумках. И это не считая всех прочих компьюте-ров, находившихся вокруг них в одном помещении — внутри проектора, звуковой системы, кондиционера и т.д. Но когда смешки в зале затихли, он нанес решающий удар. «Теперь мы знаем, что это число было неверным, — сказал Ширки. — Он завысил его на четыре». Это замечание вызвало бурное весе-лье в аудитории.

Разумеется, Ширки хотел сказать, что определяющей ха-рактеристикой эры Интернета в большей степени является не повсеместное распространение вычислительных устройств (хотя и имеющее трансформирующий характер), а их взаи-мосвязанность. Мы быстро приближаемся к тому моменту, когда любое устройство, не подключенное к Интернету, вряд ли будет считаться компьютером вообще. Как говорят, сеть — это компьютер.

Этот факт в сочетании с попутным наблюдением, что доминирующей вычислительной платформой в наше вре-мя являются не ОС Unix, Windows или Mac, а сам Интернет, натолкнули Тима О’Рейли (Tim O’Reilly) на разработку кон-цепции, которую он назвал «Операционная система Интер-

Page 25: 4. ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХdownload.microsoft.com/documents/rus/devcenter/Part... · 176 ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ЧЕТВЕРТАЯ ПАРАДИГМАВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ 219218

нет» [2]. Впоследствии она превратилась в Интернет-мем, известный по всему миру как «Web 2.0» [3].

В этом емком (и теперь, к сожалению, чрезмерно распространенном) терми-не содержатся два важных понятия. Во-первых, Web 2.0 служил напоминанием о том, что Интернет, несмотря на крах доткомов в 2001 г. серьезным образом и раз-носторонне меняет наш мир. Во-вторых, он воплощает ряд передовых практик (или «проектных и бизнес-моделей») для максимально эффективного использо-вания и раскрытия этого потенциала. Перечислю эти передовые практики:

• сетевые эффекты и «архитектуры участия»;

• «длинный хвост»;

• программное обеспечение как сервис;

• технологии однорангового взаимодействия;

• системы доверия и растущие данные;

• открытые API и мэшапы;

• AJAX;

• тэгирование и фолксономии;

• «данные как новый Intel Inside».

Первую из этих передовых практик принято считать наиболее важной. Интернет обладает более мощными возможностями по сравнению с предше-ствующими платформами, поскольку он представляет собой открытую сеть, обеспечивающую эффективную работу приложений для совместной работы. В результате наиболее успешные веб-приложения используют сеть, на базе кото-рой они созданы, и производят собственные сетевые эффекты, иногда дающие очевидный устойчивый импульс к дальнейшему развитию. Именно так в форме eBay может возникнуть целая новая экономика. Именно так список Крейга и Ви-кипедия могут взять на себя могущество ведущих СМИ и справочных изданий, а Google может дать отличные результаты поиска путем незаметного связывания каждого создателя веб-ссылки с ее целью.

Если концепция Web 2.0 подчеркивает глобальную, коллективную природу этой новой среды передачи данных, как ее можно использовать в научном ис-следовании, которое является, наверное, наиболее глобальным и коллективным из всех предприятий человечества? Как это ни парадоксально, несмотря на про-исхождение Интернета в лаборатории CERN [4], ученые сравнительно медлен-но осваивают подходы, использующие все возможности Интернета, по крайней мере, в своей профессиональной жизни. Например, блоги по-разному исполь-зуются среди среди технических специалистов, политиков, экономистов и даже

математиков. Более того, таким средам совместной работы, как OpenWetWare16 и Nature Network17, еще предстоит получить статус массовых среди исследовате-лей. Физики уже давно используют для обмена информацией о своих открыти-ях препринтный сервер arXiv18, но лишь потому, что он имитирует привычные им методы работы сначала с обычной, а затем и с электронной почтой. Науки о жизни и о Земле, напротив, медленнее осваивают подобные сервисы, такие как Nature Precedings19.

Это объясняется тем, что препятствия к широкомасштабному освоению этих сервисов носят не только (и не столько) технический характер, но скорее являют-ся психологическими и социальными. От старых привычек сложно отказаться, а системы мотивации, изначально созданные для стимулирования обмена ин-формацией через научные журналы, теперь могут дать обратный эффект, не способствуя аналогичной деятельности в других направлениях.

И хотя эти новые подходы развиваются медленнее, чем многие из нас желали бы, они все равно развиваются. Сложно предсказать, когда именно произойдут перемены, однако долгосрочные тенденции в научных исследованиях не вы-зывают сомнений: более глубокая специализация, более быстрый и открытый обмен информацией, сокращение размера «минимально публикуемого фраг-мента», показатели производительности, превосходящие публикации в журна-лах, стирание границы между журналами и базами данных, и реорганизация ролей издателей и редакторов. И главный результат этого постепенного, но не-избежного распространения информационных технологий, — мы увидим воз-растание скорости, с которой будут совершаться и претворяться в жизнь новые открытия. Лаборатории будущего будут работать в унисон с абсолютно новой наукой, с поддержкой вычислений, взаимодействия и Интернета.

Взгляните, к примеру, на химию. Предшественник всех сайтов совместной работы, Википедия20, теперь содержит много высококачественной научной ин-формации, большей частью предоставленной самими учеными. В Википедии представлена ценная, хорошо организованная, взаимосвязанная информация о тысячах химических соединений. При этом наблюдается рост более специализи-рованных ресурсов открытых и частных инициатив, в особенности PubChem21 и ChemSpider22 — с точки зрения контента, числа участников и широты примене-ния несмотря на то, что исторически химия всегда была довольно специализи-

16 http://openwetware.org

17 http://network.nature.com

18 www.arxiv.org

19 http://precedings.nature.com

20 http://wikipedia.org

21 http://pubchem.ncbi.nlm.nih.gov

22 www.chemspider.com

Page 26: 4. ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХdownload.microsoft.com/documents/rus/devcenter/Part... · 176 ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ЧЕТВЕРТАЯ ПАРАДИГМАВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ 221220

рованной областью. (Или, возможно, отчасти из-за этого, хотя это уже тема для другой статьи.)

Говоря о специализированных областях, возьмем, к примеру, разработку новых лекарств. Компания InnoCentive23, отделившаяся от Eli Lilly, проложила новый путь своей Интернет-моделью открытых инноваций, в которой органи-зации решают различные исследовательские задачи, выходя за пределы своей внутренней деятельности. Некоторые другие фармацевтические компании, с которыми я общался за последние месяцы, также начали использовать подоб-ные подходы — в первую очередь не как акты доброй воли, а для достижения своих научных и коммерческих целей.

В науке, как и в промышленности, одним из наиболее важных движущих факторов для внедрения совместной работы, основанной на технической плат-форме, является насущная необходимость. Прошли те времена, когда один ис-следователь мог внести важный вклад, скажем, в молекулярную биологию, не имея доступа к данным, опыту и результатам анализа, выполненного другими учеными. В результате за последние пару десятков лет многие области иссле-дования, особенно в биологии, эволюционировали от «фермерского хозяйства» (небольшая группа исследователей в одном месте выполняет все: от сбора дан-ных до написания научной работы) до более «промышленного» варианта (круп-ные, распределенные команды специалистов, совместно работающие вне вре-менных и пространственных рамок для достижения общей цели).

В процессе работы они накапливают огромные объемы данных, причем на каждом этапе работ рост данных имеет не линейный, а экспоненциальный ха-рактер. К примеру, секвенирование генов уже давно уступило место целым ге-номам, а сейчас даже целым особям [5] и экосистемам [6]. Аналогичным образом одномерные данные о последовательности белков уступают место трехмерным структурам белка и в последнее время высокоразмерным наборам данных меж-белкового взаимодействия.

Это привносит изменения не только количественного, но и качественного ха-рактера. Криса Андерсена (Chris Anderson) критиковали за его статью в Wired, в которой он утверждает, что накопление и анализ столь больших объемов данных означает конец той науки, которую мы знаем [7]. Но он, без сомнения, прав в сво-ем более мягком (и, тем не менее, очень важном) высказывании о том, что в этом процессе настанет момент, когда «изменение количества данных будет иметь значение». Так же, как алгоритм поиска информации, например, PageRank от Google [8] мог функционировать, лишь когда Интернет достиг определенного масштаба, новые подходы к научным открытиям станут возможны лишь благо-даря масштабу накапливаемых нами наборов данных.

Однако реализовать этот потенциал будет непросто. Всем заинтересованным лицам, а не только исследователям и издателям, придется приложить немало усилий, чтобы сделать данные более полезными. Для этого потребуется ис-

23 www.innocentive.com

пользовать ряд подходов, от относительно формальных, таких как четко сфор-мулированные стандартные форматы данных и согласованные на мировом уровне идентификаторы и онтологии, до менее формализованных, таких как тегирование текстов на естественных языках [9] и микроформаты HTML [10]. Эти подходы, наряду с такими автоматизированными методами, как интеллек-туальный анализ текста [11], помогут снабдить каждый фрагмент информации контекстом, связывающим его с остальными фрагментами. Это также позволит объединить в единое целое две ранее отдельные области — текстовый, частич-но структурированный мир журналов и цифровой, высокоструктурированный мир баз данных. По мере структурирования информации, содержащейся в журналах, по мере курирования данных в многочисленных базах данных и по мере установления более многообразных взаимосвязей между этими областями, может настать тот день, когда различие между ними станет столь размытым, что потеряет свой смысл.

Усовершенствованные структуры данных и более подробные аннотации бу-дут достигнуты в значительной мере благодаря работе у источника — в лабора-тории. В некоторых проектах и научных направлениях мы уже видим, что ор-ганизация и управление исходными веществами, экспериментами и наборами данных выполняются посредством сложных лабораторных информационных систем. Мы также увидим, что записи исследователей все чаще будут выполнять-ся не на бумаге, а в виде электронных лабораторных журналов, что обеспечит их улучшенную интеграцию с остальной генерируемой информацией. В областях, имеющих клиническую значимость, эти данные будут также связаны с биопси-ей и информацией о пациентах. Так, от лабораторного стола и научной работы к клинической практике, от одного открытия к другому, мы будем соединять эти точки, изучая неизвестную область и устанавливая подробные связи там, где раньше мы имели лишь несколько примерных линий на пустом графике.

Научные знания, а по сути, все человеческие знания, являются фундамен-тально взаимосвязанными [12], и эти связи являются столь же информативными, как и сами факты. И хотя объемы данных растут ошеломляющими темпами, мы не должны упускать из виду еще более важной тенденции развития, которая требует нашего внимания и поддержки: информация становится более взаимос-вязанной. По мере добавления ссылок, тегов и идентификаторов данные во всем мире соединяются в единую бурлящую массу, которая станет не только сырьем для централизованной компьютерной обработки, но и единой глобальной базой данных. И как таковая, эта масса данных будет огромной, беспорядочной, бес-системной и запутанной. Но она также будет обладать безмерной ценностью — как неизменное свидетельство нашего рода и нашего века.

ССЫЛКИ

[1] C. Shirky, «Lessons from Napster», talk delivered at the O’Reilly Peer-to-Peer Conference, Feb. 15, 2001, www.openp2p.com/pub/a/p2p/2001/02/15/lessons.html.

Page 27: 4. ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХdownload.microsoft.com/documents/rus/devcenter/Part... · 176 ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ

ВЗАИМОДЕЙСТВИЕ В НАУЧНЫХ КРУГАХ222

[2] T. O’Reilly, «Inventing the Future», 2002, www.oreillynet.com/pub/a/network/2002/04/09/future.html.

[3] T. O’Reilly, «What Is Web 2.0», 2005, www.oreillynet.com/pub/a/oreilly/tim/news/2005/09/30/what-is-web-20.html.

[4] T. Berners-Lee, Weaving the Web. San Francisco: HarperOne, 1999.[5] «International Consortium Announces the 1000 Genomes Project», www.genome.

gov/26524516.[6] J. C. Venter et al., «Environmental genome shotgun sequencing of the Sargasso Sea»,

Science, vol. 304, pp. 66—74, 2004, doi:10.1126/science.1093857.[7] C. Anderson, «The End of Theory: The Data Deluge Makes the Scientific

Method Obsolete», Wired, June 2008, www.wired.com/science/discoveries/magazine/16-07/pb_theory.

[8] S. Brin and L. Page, «The Anatomy of a Large-Scale Hypertextual Web Search Engine», 1998, http://ilpubs.stanford.edu:8090/361.

[9] http://en.wikipedia.org/wiki/Tag_(metadata)[10] http://en.wikipedia.org/wiki/Microformat[11] http://en.wikipedia.org/wiki/Text_mining[12] E. O. Wilson, Consilience: The Unity of Knowledge. New York: Knopf, 1998.