На днях СМИ в своих научных разделах сообщили об исследовании, осуществленном учеными с физического факультета университета города Умео (северная Швеция). В работе найден ответ на вопрос, как с математической точностью описывать индивидуальность стиля писателя. Полученная формула дает разные значения для разных прозаиков и, соответственно, открывает большие возможности для определения авторства текстов, создателей которых мы пока не знаем. Атрибуция произведений - одна их прикладных и самых главных задач филологии, и шведские физики, видимо, решили посильно помочь гуманитариям. Их статья будет опубликована в журнале New Journal of Physics.
Авторы исследования отталкиваются от так называемого закона Зипфа (Ципфа), сформулированного в 1935-49 годах и использующегося, например, в современных системах поиска в интернете. Лингвист Джордж Кингсли Зипф исследовал частотность слов: одних в тексте попадается больше, других меньше, и по этому принципу все слова разбиваются на группы. Ученый предложил дать этим группам порядковые номера (ранги): самые частотные слова получают номер 1, с частотностью пониже - 2, еще на уровень ниже - 3, и так далее. Далее вычисляется вероятность встретить слово Икс в тексте: количество слов Икс в тексте делится на число всех слов. Зипф обнаружил, что если вероятность для слова Икспомножить на порядковый номер ранга, в котором оно оказалось, то каждый раз будет получаться приблизительно одна и та же величина. Так, для английского языка эта константа равна примерно 0,1, а для русского - 0,06-0,07.
Шведские ученые эту универсалию решили скорректировать. Они считают, что частота использования тех или иных слов не всецело определяется безличным языком, а зависит от индивидуального стиля человека, который им пользуется, в нашем случае - писателя. Физики обратились к словам самого высокого ранга - тем, которые встречаются в тексте лишь единожды - и изучили их распределение по всему произведению. Оказалось, что чем дальше читаешь текст, тем реже попадаются такие "уникальные" слова. Шведы взяли произведения трех классиков англоязычной литературы - Томаса Харди, Д.Г. Лоуренса и Германа Мелвилла - и выяснили, что степень снижения встречаемости "уникальных" слов является общей для разных произведений одного автора, но при этом своей собственной для каждого из троих писателей. Ученые исследования предполагают, что этот показатель может быть "ключом" к индивидуальному авторскому стилю и поможет определить, какой текст справедливо приписывается тому или иному писателю, а какой стоит исключить из его собрания сочинений.
Как видно, физики, решившие заняться литературоведением, прибегли к методамлингвистики, в которой давно и с успехом применяется математическая статистика. Станет ли новый метод прорывом в филологической атрибуции текста - покажут дальнейшие результаты его применения. В конце концов, не исключено, что какое-нибудь случайное совпадение между Вальтером Скоттом и Джеком Керуаком перечеркнет все амбициозные выводы шведских исследователей.
Некоторые сомнения также вызывает сам выбранный метод - он кажется несколько взятым с потолка: почему Толстой от Достоевского должен отличаться именно скоростью снижения встречаемости "уникальных" слов, а не каким-нибудь другим показателем? Не знаю про шведских физиков, а филологам известно, что статистические методы давно и с успехом применяются при определении авторства текста. Однако перед тем как рассказать об этом, стоит кратко описать историю становления точных методов в гуманитарных науках. Их родиной можно с гордостью признать Россию.
Поверить алгеброй гармонию
Андрей Белый. Портрет Леона Бакста, фрагмент |
Открытие Белого имело широкий успех: после выхода в 1910 году его книги "Символизм" множество ученых начинает изучать ритм стиха квантитативными (статистическими) методами. Так рождается новая гуманитарная дисциплина - стиховедение. Были среди ее адептов и профессиональные математики: вслед за Белым считать ударения начинает Борис Томашевский, впоследствии - крупнейший пушкинист. Во второй половине века к стиховедению обращается классик математики Андрей Колмогоров; когда говорят о применении точных методов в гуманитарных науках, часто называют его имя, отдавая должное подъему математического энтузиазма, но несправедливо забывая об успехах других ученых. Главным подвижником стиховедения с 1960-х становится великий филолог Михаил Гаспаров; заслуг в этой области у него столько, что он в одиночку стал символом этой дисциплины. Некоторым даже кажется, что своими трудами Гаспаров "закрыл" стиховедение и исследовать больше нечего. То, что это иллюзия, убедительно продемонстрировал филолог Максим Шапир, о котором еще будет сказано.
Изучение ритма стиха, кажется, единственная гуманитарная наука, в которой русские специалисты сразу захватили лидерство и продолжали его удерживать на протяжении всего XX века. Для западной публики новаторство Белого-Гаспарова был столь очевидно, что американский славист Джеймс Бейли даже предложил называть статистическое стиховедение "русским методом". После смерти Гаспарова и Шапира в русском стиховедении, однако, начался кризис, и судьба дисциплины оказалась под угрозой.
Исследование Белого было выполнено в период общего подъема позитивизма в науке, и стиховедение оказалось не единственной областью литературоведения, где стали применять математические методы. Главным идеологом точного знания в гуманитарной сфере стоит считать филолога Бориса Ярхо (Гаспаров называл себя его учеником). Он предлагал полностью реформировать науку о литературе, максимально приблизив ее к естественным наукам; для этого, считал Ярхо, нужно как можно больше применять квантитативные методы. Сам ученый, например, попытался определить набор формальных признаков, по которым классицизм в драме отличается от романтизма. Ярхо умер от туберкулеза в эвакуации в 1942 году, а последователей у него не нашлось. Его фундаментальный труд "Методология точного литературоведения" был опубликован лишь в 2006 году.
Он и меня посчитал
Михаил Гаспаров. Фото Виктора Сонькина |
Первые опыты применения статистики для определения авторства произведения предпринимаются почти сразу после открытия Белого. В 1916 году Николай Морозов (печально прославившийся в качестве предшественника "новой хронологии" Фоменко) публикует работу с красноречивым подзаголовком Средство для отличения плагиатов от истинных произведений того или другого известного автора. В ней он предложил взять универсальные и самые популярные слова языка - служебные части речи - и подсчитать частоту их употребления у разных авторов. "Возьмем хотя бы отрицание не. Подсчитайте - и вы увидите, что на каждую тысячу отдельных слов у Толстого оно встречается обыкновенно немного менее 20 раз, у Пушкина и Гоголя около 20-ти, а у Тургенева значительно более, чем у них, иногда свыше 30 раз... Все это показывает, что служебная частица 'не' в большой мере подвержена индивидуальным колебаниям, т.е. определяет склад речи автора". А раз так, то "нельзя ли по частоте таких частиц узнавать авторов, как будто по чертам их портретов?", задается вопросом Морозов, предвосхищая лингвистические изыскания безымянных физиков из Швеции.
В конце XIX века некто Зуев дописал неоконченную пушкинскую "Русалку", а затем опубликовал, выдав свои стихи за творение Пушкина. Филологи того времени ему не очень поверили, однако не нашли в тексте никаких "айфонов", которые бы ясно указывали на то, что Пушкин этого не писал. Такие черты впоследствии нашел Томашевский, воспользовавшись стиховедческой методикой: он установил, что подделать пушкинский ритм Зуев не сумел.
Следующая удача стиховедения - на счету Кирилла Тарановского, выходца из России, работавшего в Югославии и США. Он решил опровергнуть расхожее мнение, согласно которому скабрезная поэма "Лука Мудищев" принадлежит перу Ивана Баркова, классика матерной поэзии середины XVIII века. О разнице между 4-стопным ямбом XVIII и XIX века уже говорилось; воспользовавшись этими данными, Тарановский установил, что "Луку" написали никак не раньше 1820 года. Впоследствии Шапир, подсчитав точные и приблизительные рифмы в непристойной поэме, уточнил: не раньше 1850 года.
Попытки приписать автору чужие произведения и, наоборот, "отнять" у него собственные предпринимались неоднократно, однако ни над кем в этой связи так не издевались, как над Шекспиром. Корпус произведений великого английского драматурга содержит немало загадок для филологов, его пытаются то расширить, то сузить. Усложняет дело то, что что-то могло быть написано Шекспиром в соавторстве. Здесь статистика и стиховедение замечательно себя зарекомендовали. Так, коллега Гаспарова Марина Тарлинская, работающая в США, сделала вывод, что "Эдуард Третий" распадается на два текста: более поздний похож на Шекспира, ранний субстрат - на поэта-елизаветинца Кристофера Марло; по всей видимости, первый дописал последнего (кстати, буквально в этом году появилось еще одно исследование той же пьесы, в ходе которого статистическим подсчетам подверглись не ритмические, а лексические ее особенности; в результате британский ученый сэр Брайан Викерс подтвердил, что одним из авторов "Эдуарда Третьего" был Шекспир, а вот вторым назвал не Марло, а его современника Томаса Кида).
Максим Шапир. Фото автора статьи |
Итак
Итак, успехи точных методов в атрибуции литературных текстов несомненны, а заслуги русских филологов - очень велики. В этом смысле энтузиазм физиков из Швеции, доказавших, что "Любовника леди Чаттерлей" написал не Мелвилл, а "Моби Дика" - не Лоуренс, кажется немного смешным. Очевидно, что у профессиональных филологов больше опыта в определении авторства текстов, и они лучше знают, когда формулам и графикам можно доверять полностью, а когда нет. Однако в то, что сотрудники университета в Умео пойдут учиться на литературоведов, почему-то не верится.