The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]

форумы  помощь  поиск  регистрация  майллист  ВХОД  слежка  RSS
"OpenNews: У коммерческих поисковых систем появилась Open Sou..."
Вариант для распечатки Архивированная нить - только для чтения! 
Пред. тема | След. тема 
Форумы Разговоры, обсуждение новостей (Public)
Изначальное сообщение [Проследить за развитием треда]

"OpenNews: У коммерческих поисковых систем появилась Open Sou..."
Сообщение от opennews on 29-Апр-04, 10:36 
Благодаря совершенствованию доступного в исходных текстах поискового механизма nutch (http://www.nutch.org/) (написан на Java и C++), в сети появились две открытые поисковые системы:
- MozDex (http://www.mozdex.com) - 50 миллионов страниц в базе;
- Objects Search (http://www.objectssearch.com) - для подготовки и ранжирования результатов поиска используется Carrot2 (http://carrot2.sourceforge.net/).


Следует отметить еще один, очень скромный на фоне nutch, открытый поисковый движок на Java - egothor (http://www.egothor.org/).


PS. Для тестирования nutch используется индекс в 100 миллионов страниц.


URL: http://www.searchenginejournal.com/index.php?p=490
Новость: https://www.opennet.ru/opennews/art.shtml?num=3760

Cообщить модератору | Наверх | ^

 Оглавление

Сообщения по теме [Сортировка по времени, UBB]


1. "У коммерческих поисковых систем появилась Open Source альтер..."
Сообщение от Лукчинский on 29-Апр-04, 10:36 
А как "ranking algorithms" работает ? Так и не нашел описания как расположить найденные страничы по релевантности без полного перебора пересекаемых множеств.

Запрос: word1 word2 word3
Находим 3 множества страниц и весов для word1, word2 и word3.

В конце нужно найти пересечение этих трех множеств и отсортировать по общему весу.

Как быть при миллионных объемах множеств ??? Памяти не хватит !

Cообщить модератору | Наверх | ^

2. "У коммерческих поисковых систем появилась Open Source альтер..."
Сообщение от Tim email(??) on 29-Апр-04, 10:52 
nutch с русским нормально не работает.
Cообщить модератору | Наверх | ^

3. "У коммерческих поисковых систем появилась Open Source альтер..."
Сообщение от Ruslan email(??) on 30-Апр-04, 10:00 
А как же MnogoSearch некомерческая поисковая мащина, которой как минимум пара лет.
Cообщить модератору | Наверх | ^

4. "У коммерческих поисковых систем появилась Open Source альтер..."
Сообщение от uldus (ok) on 30-Апр-04, 11:16 
>А как же MnogoSearch некомерческая поисковая мащина, которой как минимум пара лет.

Максимум который можно выжать из MnogoSearch - это 1 мил. страниц в индексе, для этого только на расчет рейтинга понадобится около 1 Гб ОЗУ.

Nutch только тестируют на 100 миллионах.

Cообщить модератору | Наверх | ^

5. "У коммерческих поисковых систем появилась Open Source альтер..."
Сообщение от Kiev1.org email on 07-Май-04, 20:07 
>Максимум который можно выжать из MnogoSearch - это 1 мил. страниц в индексе

с чего это вдруг??? многосерч может хранить данные как в sql так и файловой системе

Cообщить модератору | Наверх | ^

6. "У коммерческих поисковых систем появилась Open Source альтер..."
Сообщение от Suslik on 17-Ноя-05, 13:19 
DPSEARCH
надо пользовать
он из многосерча сделан методом удаления багов и добавления фич
http://www.dataparksearch.org/cgi-bin/simpleforum.cgi
Cообщить модератору | Наверх | ^

Удалить

Индекс форумов | Темы | Пред. тема | След. тема




Спонсоры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2022 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру