На научно-популярном мультимедийном портале «Чердак: наука, технологии, будущее» опубликована статья, посвященная цифровым методам в гуманитарных науках. В статье младший научный сотрудник ИПП Катерина Губа дает свой комментарий относительно технологии big data и ее роли в проведении современных научных исследований.
ОТ ЦИФРЫ К СМЫСЛУ
О цифровых методах в гуманитарных науках
Шутки про невозможность пересечения гуманитариев и «матана» становятся все менее смешными в мире интернета, социальных сетей и больших данных. Методы компьютерных наук проникают в науки гуманитарные, заставляя лингвистов, архивистов и культурологов осваивать программирование, а в вузах появляются программы подготовки «цифровых гуманитариев». Корреспондент «Чердака» выяснил, как математика и цифровые инструменты меняют науки о человеке, обществе и культуре.
Количество против качества
К 1960-м годам историки поняли, что информацию можно извлекать не только из традиционных источников — грамот, указов и дневников, но и из налоговых отчетов, записей в податных книгах и медицинской статистики. Отдельные записи в них не представляют ценности для исследователя, но, взятые в большом количестве, они дают прекрасный материал для статистического анализа.
В 1964 и 1974 годах экономист Роберт Фогель выпустил две сенсационные научные работы — «Железные дороги и рост американской экономики: эссе по эконометрической истории» (Railroads and American Economic Growth: Essays in Econometric History) и «Срок на кресте: экономика рабства американских негров» (Time on the Cross: The Economics of American Negro Slavery), которые перевернули два традиционных представления — об исключительной необходимости железных дорог для роста американской экономики во второй половине XIX века и о полной неэффективности рабского труда на юге США.
Исследования Фогеля показали, что дороги особой роли не сыграли и их легко можно было заменить водными путями, а рабство оказалось весьма эффективным и поддерживало доходы населения южных штатов на уровне развитых стран того времени. Рабство, таким образом, пало исключительно по социальным и политическим причинам.
К выводам обоих исследований ученый пришел, построив математическую модель на основе исторической статистики. В 1993 году он совместно с Дугласом Нортом получил за .это Нобелевскую премию. Фогель и Норт стали одними из основоположников клиометрики — применения методов математики и статистики в исторических исследованиях. Позже в СССР, например, сложилась целая школа количественных методов, основанная Иваном Ковальченко.
Клиометрические модели сделали возможным сослагательное наклонение в истории. «С именем Фогеля связано контрфактическое моделирование: добавляем в математическую модель фактор, которого не было, или убираем фактор, который точно имел место, и смотрим, что будет. Это позволяет понять действительную значимость или незначимость этого фактора», — говорит доцент Пермского государственного университета, сотрудник центра цифровой гуманитаристики и лаборатории исторической и политической информатики Динара Гагарина.
С 1950-х годов статистические методы начали применять в языкознании, а в 1960-е годы, задолго до эпохи массовой компьютеризации и поисковых систем, для этой области знания появился специальный термин — корпусная лингвистика.
Социология, которую традиционно относят к общественным наукам, была задумана Огюстом Контом как точная («социальная физика»). Максимальной точности социологи пытались достичь, применяя статистику. Правда, быстро стало понятно, что сама по себе статистика мало что дает без понимания смысла, причин и следствий исследуемых процессов.
«По мере развития истории и философии науки, те, кто ими занимается, стали задаваться вопросом: а есть ли вообще разделение общественных и не общественных, естественных и „не естественных“ наук? Это лишь две категории или целый спектр? Исследования науки показали, что некоторые области, традиционно считающиеся естественнонаучным (например, медицина), по тому, как в них устроено взаимодействие ученых, гораздо больше похожи на социологию, чем на физику», — говорит кандидат социологических наук, профессор факультета политических наук и социологии Европейского университета в Санкт-Петербурге Михаил Соколов.
Похоже, математические методы были актуальными для некоторых гуманитарных дисциплин «до того, как это стало мейнстримом». Появление интернета, компьютеров, гаджетов, поисковых систем и социальных сетей не совершило переворот в этих науках, но дало ученым новые инструменты: науку о данных (data science), интеллектуальный анализ текста (text mining), геоинформатику. Так появились «цифровые гуманитарии».
Зонтичный бренд
Термин digital humanities возник в начале 2000-х. Он оказался удачным: соответствовал «цифровому повороту» в обществе и был достаточно понятен для фондов и госструктур, чтобы просить у них деньги на проекты в этой области, считает Динара Гагарина.
На русский digital humanities обычно переводят как «цифровые гуманитарные науки» или «цифровая гуманитаристика». Определений у этого термина не один десяток, и, обобщая их, можно сказать, что DH — это все виды применения информационных технологий и математических методов к решению задач в гуманитарных дисциплинах. Сюда же относят популяризацию гуманитарного знания с помощью digital-инструментов (яркий пример — проект «1917. Свободная история»). «В некотором смысле digital humanities — это „зонтичный бренд“, объединяющий компьютерную лингвистику, историческую информатику и другие отраслевые информатики», — считает Гагарина.
По словам Динары Гагариной, цифровые гуманитарные науки решают два типа задач. Первый — сохранение и расширение доступа к историко-культурному наследию, второй — разработка средств анализа данных и сам анализ.
Впрочем, некоторые эксперты относятся к «цифровой гуманитаристике» скептически. «Digital humanities — просто модный термин, описывающий любую работу гуманитария, в которой участвует компьютер. Но какая работа сегодня делается без него? В итоге термин описывает и совершенно новые направления, и традиционные. Например, работы по оцифровке архивов, безусловно, полезны. Но называть это новым направлением, которое перевернет все, довольно сомнительно. Источники публикуются уже века два, а теперь мы просто стали вывешивать их в интернете. Но зато digital humanities вызывают позитивные ассоциации у спонсоров и позволяют просить деньги на проекты», — считает Соколов.
Big data для гуманитариев
Цифровой инструментарий, появившийся в распоряжении гуманитариев, довольно обширен. Когда вы видите новость из серии «Ученый подсчитал вероятность смерти персонажей в «Игре престолов», будьте уверены, что к тексту книги или сценарию сериала применили теорию графов. На ней базируется одна из ключевых техник современной социологии — анализ социальных сетей, который изучает связи между объектами социальной реальности: пользователями, группами, институтами. Если же вам попадается интерактивная карта письменностей, культур или исторических событий, значит специалисты соединили данные гуманитарных наук с геоинформационной системой.
Но, пожалуй, самая сложная и быстро развивающаяся область компьютерных наук, проникшая в гуманитарные науки, — технологии big data — больших, непрерывно генерируемых объемов данных разной степени структурированности.
«Большие данные появляются без запроса со стороны исследователя, просто потому что бизнес и государственные ведомства организуют рабочие процессы через информационные системы, которые автоматически накапливают информацию. Люди пользуются социальными сетями, мобильными телефонами, совершают покупки и расплачиваются банковскими картами. Все это оставляет следы, к некоторым из них ученые получают доступ, что и позволяет проводить научные исследования», — говорит младший научный сотрудник Института проблем правоприменения Европейского университета в Санкт-Петербурге Катерина Губа.
На больших данных построено машинное обучение: с их помощью нейросети учатся распознавать изображения и писать стихи, а алгоритмы поисковых систем — выдавать релевантные результаты. «Такому поисковику, как Яндекс, требуются миллионы событий, производимых миллионами людей, чтобы он выдавал нужный результат. Каждое из этих событий совершенно неинтересно. По правилам статистики они обретают смысл, только когда их много. Система учитывает десятки тысяч параметров, и формулы, которые это высчитывают, невероятно сложные», — говорит менеджер проектов «Яндекса», специалист по компьютерному зрению и обработке медиаданных Александр Крайнов.
По его словам, чтобы обучить нейросеть, необходимы фундаментальные математические знания, сильные аналитические способности, понимание теории алгоритмов и умение программировать. Поэтому классическим анализом данных применительно к ИИ пока занимаются в основном специалисты-«технари».
Но к данным можно подступиться и с другой стороны, и тогда мы говорим о data mining — извлечении полезной информации из «тысяч тонн информационной руды». Для этой задачи достаточно понимать теорию вероятностей и математическую статистику. К тому же для «добычи данных» появляется все больше удобных инструментов, что делает их привлекательными для гуманитарных исследований.
Анализ данных больше в чести у лингвистов, социологов и экономистов. В качестве их источника обычно выступают всевозможные электронные базы данных. Например, исследование Михаила Соколова о городских практиках культурного потребления основано на анализе системы городских библиотек ИРБИС, а Катерина Губа, изучающая, какие ученые и как ссылаются друг на друга, работает с базами научных статей Web of Science и Scopus.
Иногда в руки исследователей попадают нетипичные источники, такие как личная переписка сотрудников компании Enron, в которой содержится 600 тысяч (по другим данным — 1,6 миллиона) сообщений 158 работников высшего звена. Она представляет интерес не только для специалистов в машинном обучении, но и для лингвистов.
Большие данные помогают исследователям, когда их можно формализовать, а также найти критерий для поиска закономерностей. Одно из известных исследований на эту тему — о влиянии поведения пользователей в Facebook на политический процесс, проведенное на 60 миллионах американцев.
Специалисты искали ответ на вопрос, как одни люди влияют на решения других людей, в частности, сходить на выборы конгрессменов. 60 миллионам человек в новостной ленте показали баннер о выборах с кнопкой «I voted» (англ. «я проголосовал»). В этом сообщении не только была информация, где проходят выборы, но и показывались профили людей из числа друзей пользователя, которые уже проголосовали.
Источник: «Чердак: наука, технологии, будущее».