The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



"Первый релиз многопоточного HTML-парсера MyHTML"
Версия для распечатки Пред. тема | След. тема
Форум Разговоры, обсуждение новостей
Исходное сообщение [ Отслеживать ]
Присылайте удачные настройки в раздел примеров файлов конфигурации на WIKI.opennet.ru.
. "Первый релиз многопоточного HTML-парсера MyHTML" +/
Сообщение от lastmacemail (?), 14-Июл-16, 19:47 
Быть может вы удивитесь, но их нельзя сравнить по конечной серелизации данных. Всё крайне просто, спецификация "живая" и она постоянно меняется. Вот например, тег isindex выкинули из спецификации не так давно. Теперь такого тега нет, теперь он такой же как прочие "безымянные теги", вроде <mynametag>. Поменялась обработка тега menu and menuitem и т.д..

Есть общепризнанные тесты на правильное построение дерева: https://github.com/html5lib/html5lib-tests/tree/master/tree-... — тесты охватывают очень многое из спецификации, в особенности всё что связано с битыми тегами и невалидным хтмл. Сейчас сложно сказать с плеча, я как-то не особо изучаю сторонние парсеры, но вроде гумбо гугловский уже устарел, хтмл5эвер не знаю, сюда по логу коммитов он тоже давольно давно не обновлялся.

На момент прохождение бенчмарков хтмл5эвер не проходил все тесты на построения дерева, но это было что-то 10 из 1000 (приблизительно). Про гумбо уж не помню.

Порой даже в разных браузерах можно наблюдать разное построение дерева, со следующими версиями они обновляются.

Я стараюсь поддерживать свежую спецификацию.

Ответить | Правка | Наверх | Cообщить модератору

Оглавление
Первый релиз многопоточного HTML-парсера MyHTML, opennews, 13-Июл-16, 20:16  [смотреть все]
Форумы | Темы | Пред. тема | След. тема



Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру