>> А нерегулярные? А если ip меняется?
> а какая разница? Нам же общее представление иметь надо, а не отслеживать
> пользователя (или нет ;-)Представь что тебе приходят запросы на обновление раз в месяц. Но в чётные месяцы они приходят с ip x.x.x.x, а в нечётные с y.y.y.y. Сколько установок прячется за этими запросами? Две или одна?
> Нет, тут так не получится, точнее, это какой-то редкий извращенец, не отражающийся в статистике.
Откуда мы знаем, что он редкий? Мы не знаем. Мы *предполагаем*, что такое поведение редкость, и в своих предположениях мы опираемся на свой собственный опыт обновления своих систем. Может быть на опыт ещё нескольких участников. По-хорошему же, такие предположения неплохо бы проверить отдельным исследованием. А как это исследование провести? Именно data scientist'ы и называются scientist'ами. Они в своей работе опираются на научный опыт исследования систем, чётко разделяя в голове необоснованный предположения и подтверждённые гипотезы. Вон, если глянуть на mozilla, в их потугах на сбор статистики видны все эти эксперименты, типа взяли случайную выборку пользователей и собрали с них побольше данных. Очевидно для того, чтобы посчитать распространённость тех или иных явлений по выборке и распространить выводы на генеральную совокупность. Чтобы знать, какие явления редкость, а какие не очень. С тем чтобы потом иметь возможность делать обоснованные выводы о генсовокупности из гораздо более косвенных данных.
> там суть-то в том что по этим признакам ищут потом проблему в
> обновлении, если она была. И раз, как правило, находят - значит
> смысл в сборе именно такой информации есть.
А false negative'ы не влияют? В смысле когда проблема есть, но мы принимаем решение, что проблем нет. Проблема проявилась через полгода после апдейта, когда какой-то невоспроизводимый багрепорт вдруг начал набирать голосов, и вдруг выяснилось что он воспроизводится у каждого второго пользователя (хотя два месяца назад назад никто не мог воспроизвести, кроме зарепортившего пользователя), и... и пойди теперь разберись из-за чего проблема взялась и как долго она была актуальна. А при ближайшем рассмотрении становится не ясно, как оно вообще могло работать.
Хотя может и нет, такое в разработке софта бывает, но если речь об обновлениях бинарного дистра, то я не вижу как оно может случиться.
>> Я подозреваю, что количество установок Fedora -- это довольно важная статистика для RedHat'а,
>> влияющая на капитализацию.
> вряд ли (пока сдуру не начнут публиковать ежемесячно - потому что это
> спекулятивный рыночек, и влияет именно цифирь в отчете, а не реальное
> положение дел)
> Важная - количество _покупок_ лицензий rhel. А они подсчитываются очень просто, и
> без всяких геморроев для пользователя. И без шансов манипулировать ей. Поэтому
> ее публиковать не будут ;-)
Количество покупок лицензий несомненно важная статистика. А вот насчёт того что количество установок Fedora не важно -- я не уверен. Они могут например на основании этих установок предсказывать количество покупок лицензий в будущем. Или просто делать качественные предсказания, типа "популярность редхата растёт" или "популярность редхата падает". И эти предсказания повышают стоимость акций уже сейчас. Весь капитализм построен на таких пузырях, на вере инвесторов в то, что завтра будет лучше, так почему бы и здесь не надуть ещё один пузырь?
Помимо цифири в отчётах, влияет так же и всё остальное. Цены на акции построены на вере. Чем собственно забавны все эти биткоины -- они довели систему до абсурда, циферки стоят денег, потому что люди верят в то, что они стоят денег. С акциями то же самое, но всё же за акциями как правило стоит и что-то, что можно продать -- ну хотя бы здание штаб-квартиры. И именно поэтому все так озабочены сбором данных. Есть игроки типа фб и гугла, которые зарабатывают на этих данных, но для большинства же данные нужны, чтобы создать позитивный новостной фон, который будет поддерживать веру в миф об успешности. Пока вера будет жить, миф будет реальностью.
> А зеркало чего-то типа давно мертвой opensuse 11.4 занимало 150G (в основном
> благодаря стапиццта копиям мазилы, громоптица и прочих ненужно).
Я представляю себе, я как-то поднимал зеркало генты (в смысле не кешировал то, что использовал, а выкачивал и поддерживал в актуальном состоянии вообще всё из официального репа) и да, там было под сотню гигов. И это было давно: я поддерживал его около года и всё это время объём постепенно рос. Собственно я прибил зеркало через год потому, что место на разделе кончилось, а в локалке никто так и не заинтересовался зеркалом. Я не удивлюсь, если сейчас такое зеркало будет кушать 200Gb или больше.