The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Открыт исходный код поискового движка Gigablast

03.08.2013 11:05

Компанией Gigablast объявила об открытии исходного кода поискового движка Gigablast. Независимый поисковик Gigablast был основан в 2000 году Мэттом Уэллсом, бывшим сотрудником Infoseek. По словам Уэллса, на сегодня Gigablast единственный из поисковых движков с открытым исходным кодом, проиндексировавший более двенадцати миллиардов страниц.

Движок, написанный на C/C++ и насчитывающий более 500 тысяч строк кода, открыт под лицензией Apache версии 2.0 и опубликован на Github. Движок Gigablast достаточно прост в использовании и сразу готов к работе - код компилируется в форму единого исполняемого файла, который может заменить собой достаточно сложные конфигурации поисковых сервисов, построенных с привлечением Hadoop, Cassandra, MySQL, NoSQL, MongoDB, Lucene, Nutch, Solr, Zookeeper и Apache. Исполняемый файл включает в себя в том числе реализацию высокопроизводительного web-сервера, СУБД и других компонентов, необходимых для обособленной работы движка.

Основные особенности:

  • Движок масштабируется для развёртывания на тысячах серверов. Запущенная в эксплуатацию конфигурация из 200 серверов обрабатывает поисковый индекс из более чем 12 млрд web-страниц;
  • Высокая надёжность, код находится в промышленном использовании с 2002 года;
  • Поддержка кэширования web-страниц с выводом результатов из кэша с подсветкой найденных ключевых слов;
  • Поддержка подключения плагинов для обработки различных видов документов, от HTML до PDF;
  • Отображение в поисковой выдаче популярного контента;
  • Встроенная система мониторинга и уведомления о проблемах;
  • Поддержка подключения базы синонимов;
  • Сохранение позиции и формата информации для каждого слова в проиндексированном документе;
  • Отображение в результатах поиска полных весовых характеристик для найденного контента;
  • Отдельная индексация текста, используемого в ссылках;
  • Возможность связывания другим сайтом на базе движка Gigablast для формирования агрегированного вывода;
  • Система автоматического удаления дубликатов из поисковой выдачи;
  • Распределённый Web crawler. Гибкая система определения логики работы Crawler-а с возможностью управления приоритетом обработки элементов в очередях запросов;
  • REST/XML API для интеграции с внешними сервисами;
  • Средства автоматического выявления повреждения данных и восстановления узла после сбоя оборудования.


  1. Главная ссылка к новости (http://www.prnewswire.com/news...)
Автор новости: newdya
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/37591-search
Ключевые слова: search, gigablast
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (59) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, Аноним (-), 11:50, 03/08/2013 [ответить] [﹢﹢﹢] [ · · · ]  
  • +10 +/
    Все, пойду google свой создавать
     
     
  • 2.14, Криптоманьяк (?), 14:26, 03/08/2013 [^] [^^] [^^^] [ответить]  
  • +2 +/
    > Все, пойду google свой создавать

    Если в I2P, то дерзай - весь мир из 2.5К нод затаил дыхание.

     
     
  • 3.18, Аноним (-), 15:31, 03/08/2013 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Да ничего не будет. Он просто будет долго долго индексировать те несколько сотен сайтов.
     
  • 2.35, Аноним (-), 15:22, 04/08/2013 [^] [^^] [^^^] [ответить]  
  • –4 +/
    > Все, пойду google свой создавать

    Давай, бухти нам, как твои космические корабли бороздят просторы Большого Театра.

     
     
  • 3.54, Аноним (-), 13:51, 05/08/2013 [^] [^^] [^^^] [ответить]  
  • +/
    > Давай, бухти нам, как твои космические корабли бороздят просторы Большого Театра.

    Вспомните эту фразу, когда будете выполнять запрос в моем детище!

     
     
  • 4.55, arisu (ok), 14:05, 05/08/2013 [^] [^^] [^^^] [ответить]  
  • +/
    >> Давай, бухти нам, как твои космические корабли бороздят просторы Большого Театра.
    > Вспомните эту фразу, когда будете выполнять запрос в моем детище!

    вот ещё: вспоминать! само должно напомнить и найти.

     

  • 1.2, тоже Аноним (ok), 12:03, 03/08/2013 [ответить] [﹢﹢﹢] [ · · · ]  
  • +4 +/
    У нас кое-где все еще используют устаревшие Yandesk и Google Desktop, есть нужда в локальном поисковике, тем более, что все документы давно лежат на Debian-серверах.
    Вот только есть подозрение, что такого монстра эти сервера (скромные довольно-таки коробочки на Атомах) просто-напросто не потянут. Да и под русскую морфологию его, полагаю, за полчаса не заточишь...
     
     
  • 2.3, Аноним (-), 12:13, 03/08/2013 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Ну что, правильно я понимаю что хана яндексовому глюкалу? Которое мало того что не поддерживается, так еще и без сорсов, но зато с уймой багов.
     
     
  • 3.6, пох (?), 12:59, 03/08/2013 [^] [^^] [^^^] [ответить]  
  • +3 +/
    > Ну что, правильно я понимаю что хана яндексовому глюкалу? Которое мало того

    нет, неправильно. Хана яндексовскому глюкалу пришла когда везде завелись локальные гугльпоиски, изрядно сократившие и без того небольшую среду его обитания (осталось только то что закрыто извне и при этом имеет вокруг себя неленивых грамотных людей, способных эту уродину настроить и поддерживать). Лет десять уже как. А штуковина, не умеющая русской морфологии - бесполезна в принципе.

    > что не поддерживается, так еще и без сорсов, но зато с

    с сорсами у нас есть гов...простите, mnogosearch. Почему вы не ставите его вместо яндекса? Почему его не ставят даже там где есть те вышепомянутые условия? От тож.

    > уймой багов.

    см выше - вы все равно не осилите их исправить. Если бы могли - вы бы уже выпускали бы свой гигабласт.

     
     
  • 4.13, Аноним (-), 13:56, 03/08/2013 [^] [^^] [^^^] [ответить]  
  • +4 +/
    И чем они принципиально отличаются Гугля дает исходники на разумных условиях И... большой текст свёрнут, показать
     
  • 4.36, kurokaze (ok), 15:53, 04/08/2013 [^] [^^] [^^^] [ответить]  
  • +1 +/
    >А штуковина, не умеющая русской морфологии - бесполезна в принципе.

    Кому как. Главное чтобы украинскую поддерживала, а на остальные - плевать

     
     
  • 5.43, arisu (ok), 17:35, 04/08/2013 [^] [^^] [^^^] [ответить]  
  • +/
    >>А штуковина, не умеющая русской морфологии - бесполезна в принципе.
    > Кому как. Главное чтобы украинскую поддерживала, а на остальные - плевать

    да и на украинскую плевать, главное, чтобы язык Цивилизации нормально поддерживался.

     
     
  • 6.48, kurokaze (ok), 01:37, 05/08/2013 [^] [^^] [^^^] [ответить]  
  • +/
    >да и на украинскую плевать, главное, чтобы язык Цивилизации нормально поддерживался.

    во-во, именно поэтому на украинский и не плевать, ггг

     
     
  • 7.49, arisu (ok), 02:46, 05/08/2013 [^] [^^] [^^^] [ответить]  
  • +1 +/
    в Цивилизации говорят на английском.
     
     
  • 8.56, Michael Shigorin (ok), 17:49, 05/08/2013 [^] [^^] [^^^] [ответить]  
  • +/
    Ту цивилизацию я в гробу видал Уж больно много на английском врут, притом не... текст свёрнут, показать
     
     
  • 9.57, arisu (ok), 17:57, 05/08/2013 [^] [^^] [^^^] [ответить]  
  • +1 +/
    это да то ли дело 8212 русский защита детей, мизулина, милонов, 171 роско... текст свёрнут, показать
     
  • 2.5, Michael Shigorin (ok), 12:40, 03/08/2013 [^] [^^] [^^^] [ответить]  
  • +2 +/
    > Вот только есть подозрение, что такого монстра эти сервера (скромные довольно-таки
    > коробочки на Атомах) просто-напросто не потянут. Да и под русскую морфологию его,
    > полагаю, за полчаса не заточишь...

    Посмотрите Xapian Omega (только там crawler'а нет, так что смотря как у вас там устроено), оценить xapian как движок можно при помощи recoll на localhost.  Регулярнейшим образом применяю для поиска по своему почтовому архиву, а омегу прикручивал к bugzilla для сквозного поиска по багам и приложениям к ним.

     
     
  • 3.8, тоже Аноним (ok), 13:27, 03/08/2013 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Спасибо за наводку!
    Краулер в локалке и не понадобится (достаточно задать расписание индексации конкретных папок), а вот список поддерживаемых языков и форматов выглядит очень "вкусно" :)
     
  • 3.21, arisu (ok), 18:37, 03/08/2013 [^] [^^] [^^^] [ответить]  
  • +/
    > Посмотрите Xapian Omega

    кстати, пнул гигабласт поиском «Xapian Omega». оригинальной страницы проекта на первой странице нет. совсем. тьфу. тоже мне, «поисковик»… (это я про гигабласт, если кто не понял)

     
     
  • 4.30, бедный буратино (ok), 04:55, 04/08/2013 [^] [^^] [^^^] [ответить]  
  • +2 +/
    это же opensource. достаточно приделать патч, и хоть опеннет будет первым по всем запросам.
     
     
  • 5.40, arisu (ok), 17:23, 04/08/2013 [^] [^^] [^^^] [ответить]  
  • +/
    > это же opensource. достаточно приделать патч, и хоть опеннет будет первым по
    > всем запросам.

    приделывай. а мне лично неинтересно. я проверил качество — неудовлетворительное. поискал киллерфичи — не нашёл. джентльмены где-то тут же в топике пообсуждали код — ужаснулись.

    в общем, это что-то по типу «на тобі, небоже, що мені негоже».

     
  • 2.28, MrClon (?), 04:20, 04/08/2013 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Посмотрите в сторону sphinx. Помнится разрабы говорили что он на смартфоне неплохо может крутиться. Ну и с русскими текстами должен справляться хорошо.
     
     
  • 3.32, тоже Аноним (ok), 10:50, 04/08/2013 [^] [^^] [^^^] [ответить]  
  • +/
    Спасибо, посмотрю и на него.
    Вообще я, видимо, решал проблему не в том направлении. Искал замену локальному поиску, а этим сейчас, похоже, только в KDE еще балуются.
    А вот если вынести это на сторону сервера - сразу открывается немало интересных альтернатив.
     

  • 1.4, Алексей Пугалин (?), 12:22, 03/08/2013 [ответить] [﹢﹢﹢] [ · · · ]  
  • +4 +/
    ПРЕВОСХОДНАЯ новость! Молодцы, гигабластовцы!
    Больше поисковиков - хороших и разных!
    [на понтах]Гугель.. ну ты понел "давай, досвиданья!"[/на понтах]
    Конечно не всякий сможет запустить, но если в Сети появится хотя бы ещё сотня независимых поисковиков - будет очень и очень хорошо для населения планеты вообще и сетян в частности.
     
     
  • 2.7, Аноним (-), 13:25, 03/08/2013 [^] [^^] [^^^] [ответить]  
  • –8 +/
    > ПРЕВОСХОДНАЯ новость! Молодцы, гигабластовцы!
    > Больше поисковиков - хороших и разных!
    > [на понтах]Гугель.. ну ты понел "давай, досвиданья!"[/на понтах]
    > Конечно не всякий сможет запустить, но если в Сети появится хотя бы
    > ещё сотня независимых поисковиков - будет очень и очень хорошо для
    > населения планеты вообще и сетян в частности.

    Больной ты, что ли? Чем будет хорошо? Мама-анархия, папа-стакан портвейна? От тысяч дистров линя лучше стало кому-то?

     
     
  • 3.10, тоже Аноним (ok), 13:29, 03/08/2013 [^] [^^] [^^^] [ответить]  
  • +8 +/
    > От тысяч дистров линя лучше стало кому-то?

    Можно подумать, что от единственного дистрибутива винды у всех благорастворение воздухов. Конкуренция и вольная обкатка идей - это очень даже неплохо для конечного пользователя.

     
  • 3.12, Аноним (-), 13:48, 03/08/2013 [^] [^^] [^^^] [ответить]  
  • +6 +/
    > Больной ты, что ли? Чем будет хорошо? Мама-анархия, папа-стакан портвейна?

    Хорошо будет благодаря отсутствию вендорлока и возможности самостоятельно и in-place доубить какой-то задолбавший баг, например.

    > От тысяч дистров линя лучше стало кому-то?

    Ну вот мне, например. Я выбрал себе то что мне по вкусу и пользуюсь. Мне стало лучше. Надеюсь, это отвечает на ваш вопрос :).

     
     
  • 4.22, Anon671 (?), 19:03, 03/08/2013 [^] [^^] [^^^] [ответить]  
  • +/
    Интересно, как Вы победите задолбавшее всех качество поиска Google по низкочастотным запросам? Не смешите.
    А задолбавший простой баг - можно и в bugreport оформить. Вдобавок, странно что его не заметили.

    Кстати, про дистр. Какой, если не секрет?
    Mint/*Ubuntu/Debian/Fedora/Suse/CentOS/Arch/Gentoo/Slackware/Puppy?
    Ведь наверняка у Вас один из них? А фишка в том, что их едва ли не 1000!

     
     
  • 5.31, Аноним (-), 09:31, 04/08/2013 [^] [^^] [^^^] [ответить]  
  • +/
    Гугля - никак, разумеется Хотя-бы потому что у меня нет доступа к модификации а... большой текст свёрнут, показать
     
     
  • 6.33, Аноним (-), 12:41, 04/08/2013 [^] [^^] [^^^] [ответить]  
  • +/
    >> Интересно, как Вы победите задолбавшее всех качество поиска Google
    > Гугля - никак, разумеется. Хотя-бы потому что у меня нет доступа к
    > модификации алгоритма их поиска. Так что я даже чисто теоретически не
    > могу это. Даже если бы смог и захотел - фэйл ждет
    > сразу на старте.

    Гугля - никак по одной простой причине. У них денег больше (С) Скотт Фитцджеральд.

     
  • 5.52, Аноним (-), 13:37, 05/08/2013 [^] [^^] [^^^] [ответить]  
  • +/
    > Интересно, как Вы победите задолбавшее всех качество поиска Google по низкочастотным запросам?
    > Не смешите.

    Всех это кого, простите? Откройте для себя язык поисковых запросов _с условиями_. Уверяю вас - найдется все.

     
  • 3.37, kurokaze (ok), 15:55, 04/08/2013 [^] [^^] [^^^] [ответить]  
  • +/
    > От тысяч дистров линя лучше стало кому-то?

    Линуксоидам. А то что вантузятникам поплохело, ибо к выбору они не приучены, так на это плевать с эйфелевой башни.


     
  • 2.9, Аноним (-), 13:28, 03/08/2013 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Их уже дофига. Проблема том, что большинство искать не умеют, а остальные - не умеют нормально русский язык. Из адекватных - DuckDuckGo, из русскоязычных Nigma. Ещё прибавим Ixquick (прокси для гугла под названием Startpage по понятной причине не считаем). Остальное - либо полная фигня, либо совсем неизвестно.

    Количеством не возьмёшь, брать надо качеством.

     
     
  • 3.20, newdya (ok), 17:06, 03/08/2013 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Blekko ещё.
     
  • 3.25, anonymous (??), 21:04, 03/08/2013 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > Ixquick ... Startpage

    Разве это не одно и то же?


     
  • 3.27, Алексей Пугалин (?), 02:56, 04/08/2013 [^] [^^] [^^^] [ответить]  
  • +/
    Я знаю, что поисковиков много. Я было один начал рекламировать, так его быстро прикрыли. Теперь пользуюсь альтернативными втихаря - полтора года, полёт нормальный. Если будут множиться - напишу себе скрипт для рандомного поиска или сразу по всем.
     
     
  • 4.44, newdya (ok), 17:36, 04/08/2013 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Так вот кто погубил Cuil.
     
  • 2.19, Аноним (-), 15:34, 03/08/2013 [^] [^^] [^^^] [ответить]  
  • +3 +/
    > ПРЕВОСХОДНАЯ новость! Молодцы, гигабластовцы!
    > Больше поисковиков - хороших и разных!
    > [на понтах]Гугель.. ну ты понел "давай, досвиданья!"[/на понтах]
    > Конечно не всякий сможет запустить, но если в Сети появится хотя бы
    > ещё сотня независимых поисковиков - будет очень и очень хорошо для
    > населения планеты вообще и сетян в частности.

    лучше к yacy присоединись.

     

  • 1.11, arka (?), 13:37, 03/08/2013 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Первое же впечатление - CodeStyle у проекта полное г. А так, надо бы посмотреть
     
     
  • 2.17, badger (ok), 15:30, 03/08/2013 [^] [^^] [^^^] [ответить]  
  • +1 +/
    да, код страшноват, тут не поспоришь
    хотя там в разных файлах по-разному. есть еще ничего
     
     
  • 3.38, kurokaze (ok), 15:57, 04/08/2013 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > да, код страшноват, тут не поспоришь
    > хотя там в разных файлах по-разному. есть еще ничего

    Студни, незабудьте оставить на опеннете ссылку на ваши патчи

     

  • 1.15, Аноним (-), 14:52, 03/08/2013 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Им бы еще почтовый сервис прикрутить с imap
     
  • 1.16, Аноним (-), 14:59, 03/08/2013 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Судя по коду - авторы обожают паттерн Паблик Морозов.
     
  • 1.23, xnoname (?), 19:39, 03/08/2013 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    Захардкоженный html в https://github.com/rnz/open-source-search-engine/blob/master/PageParser.cpp "радует"...
     
     
  • 2.24, Anon671 (?), 20:27, 03/08/2013 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Не то слово!
    То, что внутри sendPageParser2 одновременно сосуществуют сетевой интерфейс, парсер, частоты слов, и захардкоженый ответ на 200 строк (являющийся к тому же параметром printf!!!).
    Видел за свое время два коммерческих поисковика. Таких кусков кода даже там нет!
     
     
  • 3.50, Аноним (-), 04:09, 05/08/2013 [^] [^^] [^^^] [ответить]  
  • +/
    Зато коменты присутствуют :)
     

  • 1.26, Аноним (-), 22:59, 03/08/2013 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    Сравнил бы кто его по возможностям с Solr/Lucene....
     
     
  • 2.42, DmA (??), 17:31, 04/08/2013 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Solr/Lucene используются в YaCy. Можете скачать эту поисковую систему за 5 минут ( версию 1.6 для Windows) и сами попробовать! Версию 1.6 ищете на немецкой странице, на русской недопереведено и там версия 1.4 до сих пор значится!
     

  • 1.29, MrClon (?), 04:21, 04/08/2013 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    >Исполняемый файл включает в себя в том числе реализацию высокопроизводительного web-сервера, СУБД и других компонентов, необходимых для обособленной работы движка.

    Звучит как антиреклама.

     
     
  • 2.39, Аноним (-), 16:00, 04/08/2013 [^] [^^] [^^^] [ответить]  
  • +/
    Мирный советский комбайн, очевидно же.
     

  • 1.41, DmA (??), 17:28, 04/08/2013 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    У гугла кроме поисковой системы есть ещё куча логов журнальных файов от действи... большой текст свёрнут, показать
     
     
  • 2.45, arisu (ok), 17:43, 04/08/2013 [^] [^^] [^^^] [ответить]  
  • +/
    у YaCy, к сожалению, очень глючный проксь. тратить время на допилку кода я не готов, я готов помочь, если оно будет нормально (т.е. удовлетворительно для меня) работать. поэтому YaCy-ноду я пока прикрыл. попробую ещё раз через годик.
     
     
  • 3.46, DmA (??), 19:19, 04/08/2013 [^] [^^] [^^^] [ответить]  
  • +/
    > у YaCy, к сожалению, очень глючный проксь. тратить время на допилку кода
    > я не готов, я готов помочь, если оно будет нормально (т.е.
    > удовлетворительно для меня) работать. поэтому YaCy-ноду я пока прикрыл. попробую ещё
    > раз через годик.

    А какую версию использовали? 1.4 или 1.6? Там есть на админке обновление вручную -показывает какая версия последняя и предлагает скачать, оставив каталог Data. В 1.6 мне показалось меньше неработающих пунктов меню и глюков. Новые Solr и Lucene 4.3

     
     
  • 4.47, arisu (ok), 19:39, 04/08/2013 [^] [^^] [^^^] [ответить]  
  • +/
    > А какую версию использовали? 1.4 или 1.6?

    1.4, судя по всему. претензии у меня, собственно, к работе в режиме «использовать яку как прокси-сервер»: иногда оно нереально тупило, периодически намертво зависало (не сама яка, просто проксь принимал запросы и не отвечал), тупило с кукишами и какие-то заголовки портило (уже не помню точно, какие).

    поскольку с жабой я дружить не хочу, то разбираться детальней не полез, а отложил «на потом».

     
  • 2.60, Аноним (-), 17:04, 07/08/2013 [^] [^^] [^^^] [ответить]  
  • +/
    YaCy уже научился в релевантные результаты поиска?
     
     
  • 3.61, arisu (ok), 17:12, 07/08/2013 [^] [^^] [^^^] [ответить]  
  • +/
    > YaCy уже научился в релевантные результаты поиска?

    а ты уже поставил у себя паучка, чтобы индекс рос? индекс, знаешь ли, из астрала не прилетит, его делать надо. а ты как думал?

     

  • 1.58, tessel (?), 18:02, 05/08/2013 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    Я только одного не понял - почему я про такой поисковик узнал только сейчас?
     
     
  • 2.59, DmA (??), 19:39, 05/08/2013 [^] [^^] [^^^] [ответить]  
  • +1 +/
    наверно потому ,что находились в пузыре фильтров и не догадывались об этом :)
     

  • 1.62, newdya (ok), 07:56, 14/11/2014 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Создатель поисковика Volunia тоже планирует открыть исходный код: http://www.math.unipd.it/~massimo/volunia/
     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру