edgeways.ru
|
|
Версия: Волгарин - это Подойницын ? Пользователь: Gruppe NCh (IP-адрес скрыт) Дата: 15, January, 2015 21:52 Мы-группа независимых исследователей Gruppe NCh, считаем что истина сделает наш мир более разумным и счастливым.
Сегодня нас заинтересовала гипотеза: Волгарин это Подойницын (?). Мы решили ее проверить. В настоящей работе гипотеза о дубликате А.Подойницына проверяется с помощью метода авторского инварианта, обнаруженного и разработанного В.П.Фоменко и Т.Г.Фоменко в [218] и [МЕТ2]:2, с.743-778. Получены следующие результаты. Мы сравнили значения авторского инварианта для Волгарина с его значениями для А.Подойницына, оригинальные сообщения которых мы позаимствовали на этом форуме. Полученные результаты подтверждают высказанную выше гипотезу о дубликате А.Подойницына. Итак, возникает следующая проблема. Верно ли, что под именем Волгарина скрывается А.Подойницын, участник, который больше не посещает данный форум? К решению этой задачи можно подойти на основе разработанного в [218] и [МЕТ2]:2, с.743-778, метода идентификации авторства. Метод основан на найденном В.П.Фоменко и Т.Г.Фоменко [218] авторском инварианте. Оказывается, инвариантом является частота употребления всех служебных слов. Подсчет этой частоты позволяет обнаруживать плагиат и выявлять писателей с близким авторским стилем [МЕТ2]:2, с.743-778, а также [220], т.2. Поясним вкратце - о чем идет речь. При возникновении и исследовании различных проблем авторства полезным инструментом могут оказаться "авторские инварианты" литературных произведений. Под авторским инвариантом понимается такой числовой параметр текстов, который однозначно характеризует своей величиной тексты одного автора или небольшой группы авторов. В то же время принимает существенно разные значения для текстов разных групп авторов. Желательно, чтобы количество этих "разных групп" было велико и чтобы в каждой группе объединялось мало "близких" авторов, по сравнению с общим количеством исследуемых авторов. Численные эксперименты показывают, что обнаружение числовых характеристик, позволяющих уверенно различать тексты разных авторов, - весьма сложная задача. Дело в том, что при написании текста существенную роль играют не только подсознательные факторы, но и осознаваемые. Например, частота употребления автором редких и иностранных слов может служить в некотором смысле показателем его эрудиции. Однако этот показатель достаточно легко контролируется автором на сознательном уровне, что не позволяет использовать эту числовую характеристику в качестве авторского инварианта [218], [МЕТ2]:2, с.743-778. Трудности также связаны с тем, что многие числовые характеристики текстов чрезвычайно чувствительны в смене стиля в произведениях одного и того же автора. То есть, принимают существенно различные значения для текстов, написанных автором в разное время. Таким образом, установление отличительных особенностей каждого автора весьма сложно, особенно если мы хотим оценивать эти индивидуальные параметры количественно. Искомая характеристика должна удовлетворять следующим условиям. 1) Она должна быть достаточно "массовой", чтобы слабо контролироваться автором. Другими словами, характеристика должна быть в некотором смысле "бессознательным параметром" авторов. 2) Она должна быть "постоянной" для каждого автора. То есть, иметь небольшое отклонение от среднего значения, слабо колебаться вдоль всех его произведений. 3) Она должна различать между собой разные группы авторов. То есть, должны существовать разные группы авторов, для которых отличия в значениях этой характеристики были бы больше, чем ее колебания внутри текстов одного автора. После проведения В.П.Фоменко и Т.Г.Фоменко обширного численного эксперимента оказалось, что числовым параметром текстов, удовлетворяющим перечисленным условиям, является ОТНОСИТЕЛЬНАЯ ЧАСТОТА УПОТРЕБЛЕНИЯ АВТОРОМ СОВОКУПНОСТИ ВСЕХ СЛУЖЕБНЫХ СЛОВ - ПРЕДЛОГОВ, СОЮЗОВ И ЧАСТИЦ [218], [220]. При движении вдоль текста с выборками величиной по 16000 слов, процент служебных слов для каждого автора оказался приблизительно постоянным для всех его произведений. То есть, кривая, изображающая эволюцию указанной частоты, оказывается практически горизонтальной прямой. Выяснилось далее, что разность между максимальным и минимальным значениями этого параметра значительно больше амплитуды его колебаний внутри произведений отдельных авторов. Минимум и максимум были взяты по всем исследованным авторам. Следовательно, обнаруженный параметр хорошо различает между собой многих авторов. На этом основании он был назван авторским инвариантом. Его можно использовать как для атрибуции неизвестных произведений, так и для обнаружения плагиата. Хотя и с определенной осторожностью, поскольку у некоторых авторов могут быть очень близкие инварианты. Например, Фонвизин и Толстой. Кроме того, для достаточно уверенных статистических выводов требуются произведения большого объема. Мы решили поступить именно так: взять материал большого объема. Для начала мы вручную отобрали все оригинальные форумные сообщения А.Подойницына, исключили из них копипаст, цитаты и отсылки на др. авторов. Таким же образом мы поступили с форумными сообщениями Волгарина. Для чистоты эксперимента мы решили проверить и книгу А.Подойницына ”Азбука поведения”. Получены следующие результаты: 1) А.Подойницын-форум – 34790 слов, из них 7943 служебных слова согласно списку Фоменко, авторский инвариант 0,2283127335441 2) Волгарин-форум – 21892 слова, из них 4724 служебных слова согласно списку служебных слов Фоменко, авторский инвариант 0,2157865887082 3) А.Подойницын-книга ”Азбука поведения” 34348 слов, из них 6853 служебных слова согласно списку служебных слов Фоменко, авторский инвариант 0,1995167113077 Выводы: авторский инвариант Подойницын форум равняется 22,8%, авторский вариант Волгарин форум равняется 21,5%, авторский инвариант Подойницын книга равняется 19,9%. Мы сделали предположение что для того чтобы установить идентичность авторства необходимо чтобы разница авторского инварианта составляла не более 3%. Как видно из исследования, разница между авторскими инвариантами Подойницына форум и Волгарина форум составляет всего 1,3% (что объяснимо если Подойницын осознанно немного меняет свой привычный стиль и словарь), в то время как разница между авторским инвариантом Подойницын форум и Подойницын книга составляет 2,9%, практически критическое значение для установления авторства (что для нас было небольшим открытием). Вот что об этом пишет Фоменко:
Мы считаем что проведенное исследование исчерпывающе доказывает принадлежность текстов А.Подойницын-форум и Волгарин-форум одному автору, тогда как авторство А.Подойницын-книга ставится под сомнение. Использованные материалы: [yadi.sk] Подойницын все сообщения [yadi.sk] Волгарин все сообщения [yadi.sk] Подойницын-книга ”Азбука поведения” Для создания частотного словаря была использована программа BX Language Aquisition. Н.С. Келлин (ИПМ им. М.В. Келдыша РАН) , Г.В. Носовский (МГУ им. М.В. Ломоносова) А.Т. Фоменко (МГУ им. М.В. Ломоносова) ЕЩЕ ОДНО ПРИМЕНЕНИЕ АВТОРСКОГО ИНВАРИАНТА. ВОПРОС О ПОДЛИННОСТИ "РОССИЙСКОЙ ИСТОРИИ" ЛОМОНОСОВА. ЛОМОНОСОВ ИЛИ МИЛЛЕР? Спасибо за внимание. : Claire, Волгарин Модератор: 22.01.2015 14:44 Навигатор: Тема была перемещена в указанный форум. (Лаборатория -> Неформатъ) 22.01.2015 15:54 Навигатор: Эта тема закрыта. 23.01.2015 14:41 BAPBAP: Тема была открыта. 23.01.2015 14:43 BAPBAP: Эта тема закрыта. |