The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Режим отображения отдельной подветви беседы [ Отслеживать ]

Оглавление

Первый релиз многопоточного HTML-парсера MyHTML, opennews (ok), 13-Июл-16, (0) [смотреть все] +1

Сообщения [Сортировка по времени | RSS]


19. "Первый релиз многопоточного HTML-парсера MyHTML"  –5 +/
Сообщение от angra (ok), 13-Июл-16, 22:58 
Мсье точно смотрел графики? В каком месте на порядок? Или кто-то не знает, что порядок это в 10 раз, а не на 10%?
Ответить | Правка | К родителю #6 | Наверх | Cообщить модератору

21. "Первый релиз многопоточного HTML-парсера MyHTML"  +3 +/
Сообщение от rob pike (?), 13-Июл-16, 23:01 
> MyHTML Overall time: 0.50890
> HTML5Ever Overall time: 4.50536
Ответить | Правка | Наверх | Cообщить модератору

22. "Первый релиз многопоточного HTML-парсера MyHTML"  –2 +/
Сообщение от angra (ok), 13-Июл-16, 23:11 
Ну как и предполагалось, графиков не смотрели, просто глянули на итоговые цифры.
Ответить | Правка | Наверх | Cообщить модератору

24. "Первый релиз многопоточного HTML-парсера MyHTML"  +/
Сообщение от rob pike (?), 14-Июл-16, 01:05 
Может быть вы расшифруете свою мысль, снизойдете до пояснений?
Ответить | Правка | Наверх | Cообщить модератору

51. "Первый релиз многопоточного HTML-парсера MyHTML"  –1 +/
Сообщение от angra (ok), 14-Июл-16, 11:06 
В большей части случаев разница не в 10 раз, а от двух до четырех. То есть финальная разница в 10 раз сделана небольшим количеством сайтов. Причем очень любопытно, что на какой-нибудь паре сайтов сабж справляется за почти одинаковое время, а html5ever  с разницей в три раза. Тут два варианта, либо есть проблемы с парсингом каких-то конструкций в html5ever, либо сабж просто скипает парсинг некорректных кусков. И в этом серьезная проблема всего бенчмарка, он сравнивает скорость парсинга, но не проверяет корректность или хотябы равенство результатов у парсеров.
Ответить | Правка | Наверх | Cообщить модератору

55. "Первый релиз многопоточного HTML-парсера MyHTML"  +1 +/
Сообщение от lastmacemail (?), 14-Июл-16, 12:14 
Сравниваются только полноценные парсеры. То есть те кто полностью соответствует спецификации и проходит тесты на правильное построение дерева https://github.com/html5lib/html5lib-tests/tree/master/tree-...

Прогон 60к сайтов показал среднее отставание html5ever в ~5 раз.

Ответить | Правка | Наверх | Cообщить модератору

104. "Первый релиз многопоточного HTML-парсера MyHTML"  +/
Сообщение от angra (ok), 14-Июл-16, 17:12 
Еще раз, сравнивались ли деревья, построенные парсерами на этих 60к сайтов, многие из которых скорее всего не полностью следуют спецификациям?  Насколько сильно оставание на этих эталонных тестах, а не реальных сайтах?
Ответить | Правка | Наверх | Cообщить модератору

115. "Первый релиз многопоточного HTML-парсера MyHTML"  +/
Сообщение от Crazy Alex (ok), 14-Июл-16, 18:38 
Чуть ниже по треду есть же ответ: http://www.opennet.ru/openforum/vsluhforumID3/108541.html#45
Ответить | Правка | Наверх | Cообщить модератору

122. "Первый релиз многопоточного HTML-парсера MyHTML"  +/
Сообщение от angra (ok), 14-Июл-16, 19:08 
Это не ответ на мой вопрос. Ну разве что считать это признанием в том, что на самом деле бенч был несколько некорректным.
Ответить | Правка | Наверх | Cообщить модератору

125. "Первый релиз многопоточного HTML-парсера MyHTML"  +/
Сообщение от lastmacemail (?), 14-Июл-16, 19:47 
Быть может вы удивитесь, но их нельзя сравнить по конечной серелизации данных. Всё крайне просто, спецификация "живая" и она постоянно меняется. Вот например, тег isindex выкинули из спецификации не так давно. Теперь такого тега нет, теперь он такой же как прочие "безымянные теги", вроде <mynametag>. Поменялась обработка тега menu and menuitem и т.д..

Есть общепризнанные тесты на правильное построение дерева: https://github.com/html5lib/html5lib-tests/tree/master/tree-... — тесты охватывают очень многое из спецификации, в особенности всё что связано с битыми тегами и невалидным хтмл. Сейчас сложно сказать с плеча, я как-то не особо изучаю сторонние парсеры, но вроде гумбо гугловский уже устарел, хтмл5эвер не знаю, сюда по логу коммитов он тоже давольно давно не обновлялся.

На момент прохождение бенчмарков хтмл5эвер не проходил все тесты на построения дерева, но это было что-то 10 из 1000 (приблизительно). Про гумбо уж не помню.

Порой даже в разных браузерах можно наблюдать разное построение дерева, со следующими версиями они обновляются.

Я стараюсь поддерживать свежую спецификацию.

Ответить | Правка | Наверх | Cообщить модератору

126. "Первый релиз многопоточного HTML-парсера MyHTML"  +/
Сообщение от angra (ok), 14-Июл-16, 21:17 
Я веду речь о том, что нельзя сравнивать напрямую скорость, если результат выдается неодинаковый. Тем более непонятно, почему при наличии тестов они не были использованы для бенчмарка. А если были, то интересен результат.
Ответить | Правка | Наверх | Cообщить модератору

130. "Первый релиз многопоточного HTML-парсера MyHTML"  +1 +/
Сообщение от lastmacemail (?), 14-Июл-16, 21:38 
Каждый тест парсится меньше чем за 1мс (0.00001). Там нечего тестировать на скорость, это тесты на корректность.

Потому и сравнивались всего несколько парсеров. Эти парсеры заявлены с полной поддержкой хтмл. Сравнение корректное, +- в реализации всегда будет, спецификация "живая", но этот +- ни на что не влияет. Чтобы понять почему этот +- ни как не влияет на скорость нужно вникнуть в спецификацию хтмл и понять на какие стадии разбивается анализ хтмл. Это я уже не буду тут описывать, всё есть в свободном доступе.

Могу лишь вас заверить, что корректность бенчмарка подтверждена не одним человеком. Более того, даже теми кто пилит серво.

Ответить | Правка | К родителю #126 | Наверх | Cообщить модератору

138. "Первый релиз многопоточного HTML-парсера MyHTML"  +/
Сообщение от angra (ok), 14-Июл-16, 22:32 
> Каждый тест парсится меньше чем за 1мс (0.00001). Там нечего тестировать на
> скорость, это тесты на корректность.

Это нормально для тестов, но обычно в таких случаях их просто запускают нужное количество раз в цикле. Что мешало сделать так?

> Могу лишь вас заверить, что корректность бенчмарка подтверждена не одним человеком. Более
> того, даже теми кто пилит серво.

Ну если уж общались с ними, то может они озвучивали предположения о причинах того, что скорость разнится то в два раза, то в десять.

Ответить | Правка | К родителю #130 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру