The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]



"Google открыл код парсера файлов robots.txt[BR]"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Google открыл код парсера файлов robots.txt[BR]"  +/
Сообщение от opennews (??), 02-Июл-19, 00:19 
Компания Google опубликовала (https://opensource.googleblog.com/2019/07/googles-robotstxt-...) под лицензией Apache 2.0 код С++ библиотеки (https://github.com/google/robotstxt) для разбора файлов robots.txt, содержащих правила (https://ru.wikipedia.org/wiki/%D0%A1%D1%...) (REP (https://www.robotstxt.org/norobots-rfc.txt), Robots Exclusion Protocol) для  исключения контента из области индексации ботами поисковых систем. Одновременно компания Google выступила с инициативой продвижения протокола REP в качестве интернет-стандарта после 25 лет существования в роли стандарта де-факто.


Библиотека развивается уже около 20 лет, соответствует стандарту C++11  и учитывает различные нюансы оформления, встречающиеся в обиходе. Вместе с библиотекой также предложен код утилиты для проверки правильности определения правил в robots.txt. Представленный код используется в рабочих системах Google, выполняющих обработку robots.txt.


URL: https://opensource.googleblog.com/2019/07/googles-robotstxt-...
Новость: https://www.opennet.ru/opennews/art.shtml?num=51003

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения [Сортировка по времени | RSS]


1. "Google открыл код парсера файлов robots.txt"  –10 +/
Сообщение от Аноним (1), 02-Июл-19, 00:19 
ну прям рокет сайнс!...
куча кода, что делается в 10 строк...
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

3. "Google открыл код парсера файлов robots.txt"  +9 +/
Сообщение от аноннн (?), 02-Июл-19, 00:25 
ну ка, хотел бы посмотреть на парсер robots в 10 или хотябы в 100 строк кода

обрадуете нас своим изобретением?

Ответить | Правка | ^ к родителю #1 | Наверх | Cообщить модератору

6. "Google открыл код парсера файлов robots.txt"  –1 +/
Сообщение от Аноним (6), 02-Июл-19, 08:10 
Что делается в 10 строк != парсер robots.txt
Он мог и про отдельные функции говорить и вообще с другим языком сравнивать
Ответить | Правка | ^ к родителю #3 | Наверх | Cообщить модератору

2. "Google открыл код парсера файлов robots.txt"  +15 +/
Сообщение от zloykakpes (ok), 02-Июл-19, 00:24 
Это всё для получения «классов» на гитхабе.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

4. "Google открыл код парсера файлов robots.txt"  +2 +/
Сообщение от Аноним (4), 02-Июл-19, 01:02 
User-agent: Googlebot
Disallow: /
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

5. "Google открыл код парсера файлов robots.txt"  +/
Сообщение от Аноним (5), 02-Июл-19, 07:58 
> Библиотека ... учитывает различные нюансы оформления,

Костыли чтоль? )))

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

7. "Google открыл код парсера файлов robots.txt"  +/
Сообщение от DerRoteBaron (ok), 02-Июл-19, 10:00 
Опечатки, например, diasllow
Ответить | Правка | ^ к родителю #5 | Наверх | Cообщить модератору

8. "Google открыл код парсера файлов robots.txt"  –2 +/
Сообщение от пох. (?), 02-Июл-19, 10:38 
эксперты опеннета, как всегда. Нет, думать за вас и исправлять ваши опечатки этот парсер не обучен.
Но есть "нюансы", изучайте:
https://github.com/google/robotstxt/blob/master/robots_test....
Ответить | Правка | ^ к родителю #7 | Наверх | Cообщить модератору

12. "Google открыл код парсера файлов robots.txt"  +5 +/
Сообщение от Аноним84701 (ok), 02-Июл-19, 11:38 
>> Опечатки, например, diasllow
> эксперты опеннета, как всегда. Нет, думать за вас и исправлять ваши опечатки
> этот парсер не обучен.

Эк вы … самокритичны (впрочем, как обычно):
https://github.com/google/robotstxt/blob/master/robots.cc#L696


bool ParsedRobotsKey::KeyIsDisallow(absl::string_view key) {
  return (
      absl::StartsWithIgnoreCase(key, "disallow") ||
      (kAllowFrequentTypos && ((absl::StartsWithIgnoreCase(key, "dissallow")) ||
                               (absl::StartsWithIgnoreCase(key, "dissalow")) ||
                               (absl::StartsWithIgnoreCase(key, "disalow")) ||
                               (absl::StartsWithIgnoreCase(key, "diasllow")) ||
                               (absl::StartsWithIgnoreCase(key, "disallaw")))));

Ответить | Правка | ^ к родителю #8 | Наверх | Cообщить модератору

14. "Google открыл код парсера файлов robots.txt"  –1 +/
Сообщение от пох. (?), 02-Июл-19, 13:25 
о, хренассе, это вот прямо в основном коде.

впрочем, пользы от поделки все равно никакой - https://www.opennet.ru/openforum/vsluhforumID3/117784.html#11

(ведь сиплюсплюсики такой низкоуровневый язычок, что для банальной задачи обработки текстового файла из десятка предопределенных строк надо притащить за собой мильен каких-то мусорных гуглоисходников и собирать это все нескучной сборочной системочкой)

Ответить | Правка | ^ к родителю #12 | Наверх | Cообщить модератору

9. "Google открыл код парсера файлов robots.txt"  +2 +/
Сообщение от бублички (?), 02-Июл-19, 10:45 
просто бесценный проект - целый индус трудился и больше часа. да и новость тоже революционная. ждём hello world 2
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

16. "Google открыл код парсера файлов robots.txt"  +/
Сообщение от пох. (?), 02-Июл-19, 13:29 
ты просто еще зависимости не скачал - там не "целый индус", там вся его бангалорская родня в количестве 3000000 обезьян трудилась.
И еще пяток миллионов китайцев припахала за ними горшки выносить.


Ответить | Правка | ^ к родителю #9 | Наверх | Cообщить модератору

17. "Google открыл код парсера файлов robots.txt"  +/
Сообщение от бублички (?), 02-Июл-19, 15:25 
за 20 лет, карл! ты погляди чего наваляли! поди с нуля переписывали 80 раз (по 4 раза в год)
Ответить | Правка | ^ к родителю #16 | Наверх | Cообщить модератору

19. "Google открыл код парсера файлов robots.txt"  +/
Сообщение от пох. (?), 02-Июл-19, 21:45 
> поди с нуля переписывали 80 раз (по 4 раза в год)

конечно - ты ради кода в 1,5k строк (работающего банально - со строками) будешь изучать что это за нёх?
absl::StartsWithIgnoreCase() - и т д?

Полагаю, ты просто перепишешь большую часть на чем-то что либо нужно в другой работе, либо просто уже знаешь.

Вот и следующий копчоный то же самое сделает.

Ответить | Правка | ^ к родителю #17 | Наверх | Cообщить модератору

10. "Google открыл код парсера файлов robots.txt"  –2 +/
Сообщение от Аноним (10), 02-Июл-19, 11:28 
>содержащих правила (REP, Robots Exclusion Protocol) для исключения контента из области индексации ботами поисковых систем

РКН обяжет всех поисковиков к обязательному использованию. А правилами исключения захочет рулить самостоятельно.

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

11. "Google открыл код парсера файлов robots.txt"  +3 +/
Сообщение от Аноним (11), 02-Июл-19, 11:28 
Building the library

Bazel is the official build system for the library

расходимся, ребята - чтобы собрать "библиотеку" из ЦЕЛОГО ОДНОГО файла - как обычно у гугля, нужно себе нескучных зондопрограмм понаставить пару терабайт.

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

18. "Google открыл код парсера файлов robots.txt"  –2 +/
Сообщение от Аноним (18), 02-Июл-19, 17:37 
О, эксперты-любители автокрапа подъехали? Его то уж точно не пара терабайт, да?
Ответить | Правка | ^ к родителю #11 | Наверх | Cообщить модератору

13. "Google открыл код парсера файлов robots.txt"  +1 +/
Сообщение от YetAnotherOnanym (ok), 02-Июл-19, 11:45 
Осталась мелочь - догадаться, что сам Гугл вовсе не обязательно использует этот парсер в том виде, в каком он опубликован, но уж всяко хочет, чтобы мы верили, что используемый им парсер именно такой.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

15. "Google открыл код парсера файлов robots.txt"  +/
Сообщение от пох. (?), 02-Июл-19, 13:27 
ты хочешь сказать, что моя строчка с dissalow: / все же не будет им обрабатываться "правильно"?

да ну, не может быть!

Ответить | Правка | ^ к родителю #13 | Наверх | Cообщить модератору

20. "Google открыл код парсера файлов robots.txt"  +/
Сообщение от Andrey_Karpov (ok), 11-Июл-19, 19:50 
PVS-Studio хотел, но не смог найти баги в robots.txt - https://www.viva64.com/ru/b/0638/
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Спонсоры:
Слёрм
Inferno Solutions
Hosting by Ihor
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2019 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру