Supernovum.ru
Список форумов
Это архив форумов. Работающие форумы расположены вот по этой ссылке
Консилиумъ (архив)
Дискуссионная площадка по исторической тематике. Древний мир и НХ. 
Страницы: <<12345
Страница: 5 из 5
Отв: Так или не так?
Пользователь: Виктор Ф. (IP-адрес скрыт)
Дата: 02, March, 2011 15:17

Цитата:
Так в 16, 17 и в общем-то 18 веке практически все тонет в ощибках распознавания и ошибках датирования книг (там оно местами очень странное - его искуственный интеллект сделал). Вы посмотрите на исходники книг, и все станет ясно. Так что на то, что было в давние времена, по этим выборкам смотреть наверняка не имеет смысла. Получается что-то подобное:

Ещё раз обращаю Ваше внимание, что мы обсуждаем идею chispa1707, который сделал попытку выявить следы правок истории по характеру изменения частоты появления значений дат, набранных в текстах арабскими цифрами. Берём, например, 18-й век и смотрим:

Очевидно, что эти даты вовсе не тонут в ошибках распознавания и ошибках датирования книг. Не будете же Вы настаивать, что пик появления чисел 1750,1751,1752 и 1753, начинающийся в 1750 году - это не частота появления этих дат, а нечто иное типа ошибок распознавания или датирования?
На мой взгляд, очевидно, что и последующая "синусоида" является результатом присутствия в книгах, относимых к соответствующим годам, именно этих дат, а не чего-либо иного.
Теперь осталось только понять и объяснить, почему эта синусоида имеет место быть. И гипотеза chispa1707 о том, что эта синусоида - результат позднейших правок хронологии, напрашивается сама собой. Во всяком случае рассуждения Andrew VK о том, что такой эффект может быть связан со всякого рода юбилеями, выглядят куда более сомнительными.

Отв: Так или не так?
Пользователь: Tello (IP-адрес скрыт)
Дата: 02, March, 2011 17:44

>>
Ещё раз обращаю Ваше внимание, что мы обсуждаем идею chispa1707, который сделал попытку выявить следы правок истории по характеру изменения частоты появления значений дат, набранных в текстах арабскими цифрами. Берём, например, 18-й век и смотрим:

Очевидно, что эти даты вовсе не тонут в ошибках распознавания и ошибках датирования книг. Не будете же Вы настаивать, что пик появления чисел 1750,1751,1752 и 1753, начинающийся в 1750 году - это не частота появления этих дат, а нечто иное типа ошибок распознавания или датирования?
>>

Я пытался до Вас донести простую мысль, что, примерно до второй половины 18 века, мы ничего, кроме ошибок распознавания и датирования, на графиках не увидим:


[ngrams.googlelabs.com]

>> Теперь осталось только понять и объяснить, почему эта синусоида имеет место быть.

Смотрю на график, который выше, и не вижу синусоиды.

Отв: Странно было бы, если бы слово "интернет"(tu)
Пользователь: Tello (IP-адрес скрыт)
Дата: 02, March, 2011 17:56

>>
случайно не подмешивалось к материалам, ВЫЛОЖЕННЫМ в интернете

>>

И странно было бы, если бы интеловские процессоры не подмешивали туда слово "Intel"



(tu): chispa1707

Отв: Так или не так?
Пользователь: chispa1707 (IP-адрес скрыт)
Дата: 02, March, 2011 18:05

Обратите внимание на 1815 примерно год.
Это год поражения Наполеона, и именно там невысокий синхронный пик.
Еще 2-3 года и у Франции начнется провал в оружейных новациях - примерно до 1840 года.

Важно то, что этот пик наблюдается, хотя Вы взяли даты, очень сильно отстоящие одна от другой.
Именно поэтому зеленый 1730-й дает максимальный пик на 1730-м.
Синий 1778 дает максимальный пик на 1778-м.

Все четко.

Отв: Ну да, все слова, содержащие Intel...
Аватарка Пользователь: sezam (IP-адрес скрыт)
Дата: 02, March, 2011 18:09

[books.google.com]

придумали лично Роберт Нойс и Гордон Мур в 1968 году.



погугли в яндексе

Отв: Ну да, все слова, содержащие Intel...
Пользователь: Tello (IP-адрес скрыт)
Дата: 02, March, 2011 19:13

придумали лично Роберт Нойс и Гордон Мур в 1968 году
>>

Или Цицерон в 1581: [books.google.com].

Или Цезарь в 1574: [books.google.com]

А что показывают эти графики?(tu)
Пользователь: Ordusofob (IP-адрес скрыт)
Дата: 02, March, 2011 19:23

А кто-нибудь пробовал разбираться, что вообще показывают эти графики?

Решил проверить ручками какой-нибудь простой вариант. Взял один год 1705 и посмотрел график на промежутке 1700-1800

[ngrams.googlelabs.com]

ClipBoard_1705.jpg

На этом графике явно виден горб в районе 1740 года, сравнимый с горбом в районе 1705 года.

А потом начал просматривать, сколько же вообще документов за разные годы существует на гугле с фильтром по слову "1705"

Получилось следующее:

1704 - 24 книги
1705 - 495 книг
1706 - 129 книг
1707 - 47 книг
1738 - 25 книг
1739 - 23 книги
1740 - 23 книги
1741 - 33 книги
1742 - 33 книги

Вот пример запрос о количестве книг на 1739 год

ClipBoard_1705 (1739).jpg

Так что же показывают эти странные графики?

И вообще - 33 книги в год - это совсем не куча. Не так сложно просмотреть ручками на предмет наличия "вброса" нового хронологического материала. Было бы куда пользительнее, чем шаманство с непонятными картинками.

(tu): chispa1707

А можно поподробнее?
Пользователь: chispa1707 (IP-адрес скрыт)
Дата: 02, March, 2011 19:30

Я, пройдя по верхней ссылке, забил слева в колонке выборку с 1738 по 1742 (там же самый высокий пик).
Получил 118 книг - довольно много, ИМХО.

Отв: А что показывают эти графики?
Пользователь: Tello (IP-адрес скрыт)
Дата: 02, March, 2011 19:34

>>
А кто-нибудь пробовал разбираться, что вообще показывают эти графики?
>>

Я-то, по привычке разбираться в том, что применяешь, давным-давно посмотрел, и увидел, что в 16-17 веках кроме лажи обычно ничего нет, а вот в 19-м лажа обычно особо картину не портит.

Отв: Так или не так?(tu)
Пользователь: Tello (IP-адрес скрыт)
Дата: 02, March, 2011 20:39

>>
Важно то, что этот пик наблюдается, хотя Вы взяли даты, очень сильно отстоящие одна от другой.
Именно поэтому зеленый 1730-й дает максимальный пик на 1730-м.
Синий 1778 дает максимальный пик на 1778-м.

Все четко.
>>

Естественно 1730-й дает пик на 1730-м, а 1778 на 1778-м. Ведь все книги, отнесенные искусственным интелектом к 1730 г. содержат "1730", а к 1778-му - "1778". А вот с книгами, к примеру, 1520 г это не проходит


[ngrams.googlelabs.com]

Если Вы нажмете на ссылочку 1500 - 1519 под графиком, то получите от искусственного интеллекта парочку книг, изданных явно в 20 веке и никакого 1520 года не содержащих.
Если же вы нажмете на ссылочку 1520 то получите ссылки на кучу книг якобы 1520 г, но только на 2 из них можно посмотреть глазами:
1) английский перевод некоторой работы Лютера 1520 года, изданный неведомо когда, но содержащий в предисловии ссылку на статью 1896 г.
2) Каталог книг 16 века, изданный в Вене, в ту пору, когда телефоны там были 5-значные
[books.google.com]

Что касается книг, которые не показывают, но полагаю, что они не лучше вышеуказанных.

(tu): chispa1707

Отв: А можно поподробнее?
Пользователь: Ordusofob (IP-адрес скрыт)
Дата: 02, March, 2011 22:13

Цитата:
Я, пройдя по верхней ссылке, забил слева в колонке выборку с 1738 по 1742 (там же самый высокий пик).
Получил 118 книг - довольно много, ИМХО.

Теперь мне надо спрашивать, как у Вас получилось 118, у меня получилось 116.

Я поступаю просто, после вывода графика кликаю внизу в разделе Search in Google Books: в любой диапазон годов, а потом внизу слева в разделе "За период" выставляю даты "с" и "по". Если нужно за один год, то выставлятся в виде с 1.1.1705 по 31.12.1705. В появляющемся списке сверху написано "Результатов примерно", но там показываются какая-то лабуда. Если дойти до последней странице, то там уже показывается точное количество изданий, которые были отображены в этом списке.

За период с 1.1.1938 по 31.12.1942 показывает 116 изданий.

1705 (1738-1742).jpg

Что касается того, много это или мало.

За следующие 5 лет (1743-1747) - получается 103 книги

1748-1752 - 115 книг
1753-1757 - 149 книг

Так что непонятно, почему этот график в 1738-1742 годах показывал какой-то пик

Я делал также
Пользователь: chispa1707 (IP-адрес скрыт)
Дата: 02, March, 2011 22:18

Хм... а разница в две ссылки...

Думаю, пик получается потому, что в этот период сами запрашиваемые цифры встречаются в текстах чаще.

Отв: Так или не так?
Пользователь: Виктор Ф. (IP-адрес скрыт)
Дата: 02, March, 2011 23:56

Цитата:
Я пытался до Вас донести простую мысль, что, примерно до второй половины 18 века, мы ничего, кроме ошибок распознавания и датирования, на графиках не увидим:

Поскольку выше эту простую мысль Вы сформулировали несколько иначе ("Так в 16, 17 и в общем-то 18 веке практически все тонет в ощибках распознавания и ошибках датирования книг"), я просто посмотрел графики для четырёх лет середины 18 века. Оказалось, что для этих дат результат не соответствует этому утверждению. Впрочем, если отвлечься от определения точной границы, то не могу с Вами не согласиться. На мой взгляд, граница всё-таки где-то в начале 18 века.

Цитата:
>> Теперь осталось только понять и объяснить, почему эта синусоида имеет место быть.
Смотрю на график, который выше, и не вижу синусоиды.

Странно. Вроде, отчетливые максимумы и минимумы на всех кривых, кроме, пожалуй кривой для 1511, явно прослеживаются...

Отв: Я делал также
Пользователь: Ordusofob (IP-адрес скрыт)
Дата: 03, March, 2011 01:39

Цитата:
Думаю, пик получается потому, что в этот период сами запрашиваемые цифры встречаются в текстах чаще.

Может быть поэтому, а может быть просто количество оцифрованных книг, падающих на эти годы, почему-то меньше, в результате меньше знаменатель и больше доля. Эта может объяснить, почему пик кривая поднимается вверх для наборов разных цифр-дат. А может и еще почему-то.

В любом случае все это не более, чем гадание на гугловой гуще и смысла имеет немного, пока не найдены те тексты, которые можно трактовать как "вброс мемуарной и исследовательской литературы" или что-то в этом духе. К примеру, логарифмология или вычисления курсов обмены валют на это явно не тянут (хотя указанные цифры там и присутствуют) :)

Intel - это еще и вводная для "complicated intelligence operations"
Пользователь: wba (IP-адрес скрыт)
Дата: 03, March, 2011 04:11

В лексиконе у военных американцев во время и после корейской и вьетнамской войн.
Судя по цитатам об этой лаборатории
Пользователь: chispa1707 (IP-адрес скрыт)
Дата: 03, March, 2011 10:09

... выборка была сделана правильно, то есть, случайно. Крупных накладок быть не должно.
Плюс я не вижу мотива подрывать свой авторитет некорректной выборкой. Скорее, наоборот, есть интерес выглядеть пристойно, иначе бабла не отбить.

Увидеть корректные данные по валюте нереально. Очень похоже на то, что финансовые данные 19 века сильно потерты - еще тогда.

Отв: Судя по цитатам об этой лаборатории(tu)
Пользователь: Ordusofob (IP-адрес скрыт)
Дата: 03, March, 2011 12:05

Цитата:
... выборка была сделана правильно, то есть, случайно. Крупных накладок быть не должно.
Плюс я не вижу мотива подрывать свой авторитет некорректной выборкой. Скорее, наоборот, есть интерес выглядеть пристойно, иначе бабла не отбить.

Я не понимаю, причем здесь случайная выборка. Судя по декларациям, описанным здесь [ngrams.googlelabs.com], по оси Y показывается процент книг, содержащих данное выражение, по отношению ко всему количеству книг, находящихся в гугле. Если я правильно понял, что там написано, поскольку формулировка какая-то расплывчатая, для слова kindergarten написано "Of all the unigrams, what percentage of them are "kindergarten""

Если речь идет о "доле книг", то это может служить объяснинием кажущихся синусоид, определяемых разными значениями знаменателя (общего количества книг). Но это никак не объясняет, почему при этом не показывается пик изданий в год, заданный в условиях выборки. Для цифры "1705" в 1705 году найдено 495 изданий, в 1739 - 23 издания, а значения по оси Y - почти одинаковое.

Сдается мне, что где-то они там халтурят при рисовании этих графиков.

Цитата:
Увидеть корректные данные по валюте нереально. Очень похоже на то, что финансовые данные 19 века сильно потерты - еще тогда.

"Очень похоже на то" - это достойный НХ аргумент.

(tu): chispa1707

Отв: Судя по цитатам об этой лаборатории(tu)
Пользователь: Виктор Ф. (IP-адрес скрыт)
Дата: 03, March, 2011 15:35

Цитата:
Я не понимаю, причем здесь случайная выборка. Судя по декларациям, описанным здесь [ngrams.googlelabs.com], по оси Y показывается процент книг, содержащих данное выражение, по отношению ко всему количеству книг, находящихся в гугле. Если я правильно понял, что там написано, поскольку формулировка какая-то расплывчатая, для слова kindergarten написано "Of all the unigrams, what percentage of them are "kindergarten""

Вы не верно поняли смысл того, что откладывается по ординате на графиках. Для каждого года вычисляется отношение числа упоминаний искомой "фразы" к общему количеству всех "фраз" во всех книгах этого года и откладывается по ординате в виде процентов. Юниграмма (unigram) - это фраза из одного слова. Биграмма - фраза из двух слов, и так далее вплоть до пентаграмм. Таким образом, для слова kindergarten по ординате откладывается процент этого слова от всех слов во всех книгах данного года для данного корпуса (например, немецкоязычных книг). Отсюда совершенно ясно, что количество книг в данном году практически не может повлиять на результат. Результат полностью определяется частотой использования данного слова (или фразы) в книгах. Однако естественно, что чем меньше книг, в исследуемом временнОм отрезке, тем больше будут флуктуации частоты появления той или иной фразы. А про то, откуда берутся данные для графиков нужно смотреть здесь [ngrams.googlelabs.com].
Поскольку все фразы от юниграмм до пентаграмм во всех гугловских книгах уже подсчитаны, упорядочены, проиндексированы и сохранены в файлах, которые выложены на [ngrams.googlelabs.com], то графики строятся очень быстро.

Цитата:
Для цифры "1705" в 1705 году найдено 495 изданий, в 1739 - 23 издания, а значения по оси Y - почти одинаковое.
Сдается мне, что где-то они там халтурят при рисовании этих графиков.

Цитата:
Увидеть корректные данные по валюте нереально. Очень похоже на то, что финансовые данные 19 века сильно потерты - еще тогда.


"Очень похоже на то" - это достойный НХ аргумент.

Здесь Вы малость прокололись.
Ваше "Сдается мне" - одного поля ягода с "Очень похоже на то" от НХ :)
Ну, а почему, несмотря на разное количество книг в 1705 и 1739 году, по оси ординат получается примерно одна и та же величина, я уже объяснил выше.

(tu): chispa1707

Отв: Проверка на вшивость
Пользователь: maximzuk (IP-адрес скрыт)
Дата: 09, March, 2011 11:39

>>
На этом сайте ботов минимум пятеро. Догадайтесь с первого раза почему именно столько.
>>
потомушто в "Пользователь: Suwar" пять буков???

Отв: что вы называете "ботом"?
Аватарка Пользователь: sezam (IP-адрес скрыт)
Дата: 09, March, 2011 14:19

типа прогу , рассылающую автоматические сообщения?

погугли в яндексе

Страницы: <<12345
Страница: 5 из 5


Этот форум в режиме 'только для чтения'.
В онлайне

Гости: 11

This forum powered by Phorum.