> Представь что тебе приходят запросы на обновление раз в месяц. Но в
> чётные месяцы они приходят с ip x.x.x.x, а в нечётные с
> y.y.y.y. Сколько установок прячется за этими запросами? Две или одна?очевидно - если оба раза качается примерно одно и то же - две. Если никогда не повторяется, или, редко, тут же повторяется(это обломилось почему-то скачивание) - одна.
Когда на самом деле не раз в месяц, а раз в секунду, там сложнее, но все еще можно разделять, просто ты получишь именно интегральную статистику, а не повод поторговать списком пользователей (адреса, знаешь ли, легко превращаются в имена и паспортные данные с помощью той же GA)
> Откуда мы знаем, что он редкий? Мы не знаем. Мы *предполагаем*, что
из бритвы оккама, да.
Ну и из основного отличия науки от ненауки - научная теория позволяет делать правильные прогнозы, а если прогноз неправильный - мы либо вышли из граничных условий, либо теория неверна.
>> там суть-то в том что по этим признакам ищут потом проблему в
>> обновлении, если она была. И раз, как правило, находят - значит
>> смысл в сборе именно такой информации есть.
> А false negative'ы не влияют? В смысле когда проблема есть, но мы
ну мы ж с программами работаем, а не с пользователем, к счастью - программа не может год скрывать что среднее время выполнения вот этого сценария увеличилось на 20%, а потом внезапно массовое обращение зарегистрировать.
> Количество покупок лицензий несомненно важная статистика. А вот насчёт того что количество
> установок Fedora не важно -- я не уверен. Они могут например
> на основании этих установок предсказывать количество покупок лицензий в будущем. Или
а вот для этого надо доказать наличие корелляции ;-)
А это summer student сделает неубедительно.
> поэтому все так озабочены сбором данных. Есть игроки типа фб и
> гугла, которые зарабатывают на этих данных, но для большинства же данные
> нужны, чтобы создать позитивный новостной фон, который будет поддерживать веру в
> миф об успешности. Пока вера будет жить, миф будет реальностью.
фиг знает - данные собирают какие-то совершенно чудесатые индусские конторы, и кто им платит за хостинг и электричество - весьма немалых денег - я решительно не понимаю (там есть ньюанс- датасборник не должен тормозить и влиять на функционал того из под кого он тырит - иначе выпилят мгновенно)
imho, это уже пузырь ради пузыря - то есть нико эти данные никогда не купит, ибо нафиг не нужны в таком количестве и качестве, но инвесторы несут бабки мешками, потому что модно и "как у гугля".