The OpenNET Project / Index page

[ новости/++ | форум | wiki | теги ]

Программы для поиска на сервере

   Корень / Программы для администратора / Серверные приложения / WWW / Программы для поиска на сервере

!!!-* Estraier - full-text search system for personal use (Версия: 1.2.29 от 2005-12-26) [+]
[обсудить]
 Небольшая и простая система, написанная на языке Си, для создания полнотекстового поиска по группе документов на сайте (до нескольких тысяч документов). Для хранения индекса используется QDMB B+ tree.
 
rus-* pro-search - file search and navigation system (Версия: 0.18.3 от 2009-10-09) [+]
[обсудить]
 Система файлового поиска и навигации. Быстрое сканирование ftp, windows shares, http. Обработка описаний из *.m3u, files.bbs, descript.ion. Гибкая система выдачи результатов поиска (M3U, RSS, XML, в консоль)
 
rus-* smbsearch - система поиска файлов по SMB сети [+]
[обсудить]
 Система поиска файлов в расшаренных каталогах компьютеров локальной сети. Система не только индексирует данные, но и следит за активностью работы машин, ведет статистику, как суммарную, так и по файлам.Присутствует режим просмотра содержимого сети. Для работы используется php, apache, perl, nmap, samba, MySQL.
  • Аналог: ffsearch - поиск по SMB томам и FTP серверам.
  •  
    rus-* OpenFTS (Open Source Full Text Search engine) - PostgreSQL-based full text search engine (Версия: 0.39 от 2005-05-10) [+]
    [обсудить]
     Быстрый, надежный и легко расширяемый поисковый движок. Присутствует поддержка русской морфологии, через использование словарей от ispell. Для организации индекса используется RD-Tree (через GiST в PostgreSQL), что позволяет достичь великолепной производительности для многословных запросов. Проверено работой на сайтах содержащих более 500,000 документов.
     
    rus-* ASPSeek - GNU GPL Поисковая машина для Интернет, написана на С++ (Версия: 1.2.10 от 2002-07-23) [+]
    [есть мнение]
     Программа состоит из индексирующего робота, демона поиска и поискового CGI-скрипта. ASPSeek может индексировать и искать по нескольким миллионам URL. Поддерживается поиск слов, фраз, wildcards, булевские выражения. Результаты сортируются по релевантности (используются PageRanks) или по дате. Продукт оптимизирован для работы с большим количеством сайтов. ASPSeek понимает все русские кодировки.
     
    rus-* FLUIdS - Локальная поисковая система [+]
    [есть мнение]
     FLUIdS представляет собой свободно распространяемую локальную поисковую машину, предназначенную для использования совместно с Web сервером. С ее помощью Вы легко можете создать службу поиска для своего сервера. Изначальная поддержка всех русских кодировок.
     
    rus-* mnoGoSearch - full-featured SQL-based free search engine (Версия: 3.3.14 от 2013-04-04) [+]
    [обсудить]
     Универсальная поисковая система для Internet/Intranet серверов. Индексирует по протоколам HTTP, FTP, NNTP и на локальных дисках. Настраиваемые веса для заголовков, ключевых слов, тела документа. В запросах воспринимает различные формы слов и логические операторы. Результаты запросов можно настроить с помощью HTML шаблонов. mnoGoSearch может хранить данные во всех популярных SQL БД, а также во встроенной базе для малых сайтов.
  • Поисковые движки с web-интерфейсом на PHP: iSearch, PHPDig , RiSearch, Sphider, TSEP.
  •  
    ----* Apache Lucy - full-text search engine library written in C (Версия: 2.4.9 от 2014-06-14) [+]
    [обсудить]
     Попытка переписать один из самых мощных поисковых движков Apache Lucene на языке Си. Изначально библиотека Lucene написана на Java и обладает неплохой производительностью, переработка её на Си сулит ещё большее увеличение скорости работы и возможность создания на базе Lucy реализаций модулей для различных скриптовых языков программирования. В настоящий момент биндинги для Lucy доступны только для языка Perl, но в будущем ожидается реализация поддержки и других динамических языков.
     
    ----* Thrudb - indexing and document storage services [+]
    [обсудить]
     Thrudb предназначен для индексирования и хранения документов. Код системы основан на наработках социальной сети Facebook, поддерживается интеграция с системами кеширования Memcache и Spread, в качестве бэкенда для конечного хранения данных может использоваться BerkeleyDB, Disk, MySQL, S3.
     
    ----* HyperEstraier - full-text search system [+]
    [обсудить]
     Система полнотекстового поиска, в качестве БД для хранения индексов используется специализированное хранилище QDBM (B+ tree). Особенности:
    • Высокая производительность поиска;
    • Поддержка горизонтального масштабирования, P2P архитектура (на базе данной системы работает поиск в крупнейшей социальной сети Японии);
    • Учет ссылок при расчете релевантности, через задействование N-gram (группа из N последовательных символов) метода и морфологического анализатора;
    • Поддержка поиска точных фраз, поиска по регулярным выражениям и неточным совпадениям;
    • Поддержка Unicode;
    • Для индексации web-страниц задействован функциональный бот;
    • Простой API с поддержкой биндингов для языков Java, Ruby, Perl, Python;
     
    ----* YaCy - Web Search Engine (Версия: 1.4 от 2013-04-12) [+]
    [обсудить]
     Проект открытого поискового механизма с реализацией на языке Java. Система полностью децентрализованная (peer to peer), поисковый индекс распределен по машинам добровольцев, запустивших YaCy сервис, в разных точках сети.
     
    ----* Chestnut FTP Search [+]
    [есть мнение]
     Web-приложение для поиска файлов на FTP серверах, написанное на Python используя web.py. Для хранения индексов файлов используется PostgreSQL или MySQL. Возможности: режимы поиска: частичное совпадение, точное совпадение, регулярное выражение, шаблон оболочки; возможность указания кодировки для отдельных серверов; поиск с транслитерацией; интернационализация (русский, украинский, английский).
     
    ----* Beagle - search tool that ransacks your personal information space [+]
    [есть мнение]
     GNOME приложение для организации поиска персональных данных на локальной машине (текстовые файлы, PDF, RTF. ODF, DOC документы, сообщения электронной почты, man страницы, мета-данные из видео и аудио файлов). Приложение основано на поисковом механизме Lucene.
    Другие похожие системы:
  • JIndex - упрощенный вариант Beagle, ;
  • Meta Tracker;
  • Strigi - основанный на CLucene поисковик для KDE.
  • Сравнение вышеуказанных программ.
  • recoll - персональный поисковик основанный на движке Xapian с интерфейсом на Qt.
  •  
    ----* Semantic Indexing Project [+]
    [обсудить]
     Проект по созданию поискового движка, позволяющего вместо традиционной обработки ключевых слов выявить смысловые связи между поисковой фразой и документами в базе, отталкиваясь от близости слов по смыслу.
    Для наглядного представления семантических связей в документе, разработана специальная утилита.
    Базовый код (Semantic-Engine) написан на Си++, также присутствует интерфейсный модуль на Perl. Все наработки проекта распространяются под лицензией GPL.
     
    ----* Sphinx - Free open-source SQL full-text search engine [+]
    [обсудить]
     В рамках проекта Sphinx реализована поддержка полнотекстового поиска для любых типов хранилищ MySQL, включая InnoDB. В последних версиях дополнительно поддерживается СУБД PostgreSQL. Кроме, того приложение привносит ряд дополнительных новшеств, например, создание распределенных поисковых запросов.

    Так как автор проекта (Andrew Aksyonoff) проживает в России, то в Sphinx имеется отличная поддержка русского языка, включая возможность подключения русскоязычного стеммера.

    Что касается поискового механизма Sphinx (выше речь шла о патче для MySQL входящем в комплект Sphinx), то кроме MySQL имеется поддержка PostgreSQL. При измерении производительности Sphinx выполнил запрос в 15 раз быстрее чем Mnogosearch, в среднем потратив 0.1 сек при индексации 2-4 Гб текста. Разработчики заявляют, что Sphinx неплохо себя чувствует при объемах индексируемых данных до100 Гб или 100 миллионов документов.

    Основные особенности Sphinx:

    • Высокая скорость индексации (до 10 Мб/сек);
    • Высокая скорость поисковой выборки (0.1 сек. для запроса в базе с 2-4 Гб проиндексированного текста);
    • Высокая масштабируемость (один CPU может использоваться для обслуживания 100 Гб текста и 100 млн. документов);
    • Возможность организации распределенного на несколько узлов поискового механизма;
    • Нативная поддержка MySQL, поддерживаются как стандартные движки MyISAM и InnoDB, так и собственное хранилище SphinxSE
    • Поддержка поиска по заданным фразам;
    • Возможность вероятностного поиска с использованием ранжирования с элементами нечеткой логики;
    • Поддержка стеммеров для русского и английского языков;
    • Поддержка индексации любого числа полей в документах, вес для которых может изменяться на лету;
    • Поддержка групп документов;
    • Возможность определения запрещенных слов
    • Поддержка различных моделей поиска (совпадение всех ключей, совпадение фразы целиком, совпадение отдельных слов);
    • XML интерфейс для интеграции со сторонними проектами;
    • Доступно API для PHP, Python, Java, Perl и Ruby.
     
    ----* Xapian - Open Source Probabilistic Information Retrieval library [+]
    [есть мнение]
     Высокопроизводительная библиотека, написанная на C++, предназначенная для интегрирования поисковых функций в собственные приложения. Имеются интерфейсы к Perl, Python, PHP, Java и Tcl.
  • Omega - написанный с использованием Xapian поисковый движок;
  • Xapwrap - Python интерфейс к библиотекам Xapian;
  • Search::Xapian - Perl интерфейс;
  •  
    ----* mozdex - open search engine (доп. ссылка 1) [+]
    [обсудить]
     Открытая поисковая технология, созданная с использованием следующих проектов, написанных на Java:
  • Nutch - web-интерфейс для системы поиска и робот индексатор;
  • Lucene - одна из самых мощных открытых систем индексирования;
  •  
    ----* PhpDig - web spider and search engine written in PHP [+]
    [обсудить]
     Поисковый механизм для небольших сайтов написанный на PHP, с хранением поисковых индексов в MySQL;
     
    ----* Namazu - full-text search engine software [+]
    [обсудить]
     Подходит для организации системы полнотекстового поиска на локальном диске, а так же на небольшом или среднем сайте. Написана на Perl. В качестве хранилища используются простые текстовые индексы.
     
    ----* IndexData Zebra - high-performance structured text indexing and retrieval engine [+]
    [обсудить]
     Высокопроизводительная система хранения проиндексированной информации. Выборка данных осуществляется через поисковый запрос (кроме простых запросов возможно использование регулярных выражений или выборка примерных совпадений). Для управления используется специальный язык запросов. Система может хранить десятки миллионов документов.

    Похожие проекты (кирпичики для построения поисковых систем):

  • Senga - components to build a large scale internet search engine;
  • Greenstone - software for building and distributing digital library collections;
  • MG - open-source indexing and retrieval system for text, images, and textual images;
  •  
    ----* Harvest - A Distributed Search System [+]
    [обсудить]
     Поисковый механизм выгодно отличающийся тем, что может индексировать что угодно (HTML, DVI, PS, PDF, troff, RTF, Microsoft Word/Excel, SGML и т.д.), где угодно (HTTP, FTP, NNTP и т.д.). Индексы хранятся в GDBM базе. Для индексации 100 тыс. документов, объемом 1.5 GB достаточно Pentium 650MHz с 256MB ОЗУ, присутствует возможность распределения нагрузки на несколько машин.
  • harvest-ng - попытка переписать Harvest на Perl с сохранением общей архитектуры.
  • Документация пользователя Harvest на русском языке.
  •  
    ----* Swish-e - Simple Web Indexing System for Humans - Enhanced (Версия: 2.4.3 от 2005-08-20) [+]
    [обсудить]
     Перспективный, активно развивающийся набор инструментов для построения поисковой системы. Swish-e написана на языке Си, присутствует Perl интерфейс и API для построения расширений. Индекс хранится в файле собственного формата (разновидность бинарных деревьев). Для стеминга используется Snowball. Богатые возможности настройки, кроме web-сайтов может индексировать файлы различного формата в локальной ФС и содержимое полей в СУБД. Присутствует режим экономии ОЗУ (-e), когда в процессе индексации используется файл подкачки.
     
    ----* Perlfect Search - site indexing/searching suite [+]
    [есть мнение]
     Небольшая GPL система для организации поиска на сайте (несколько тысяч страниц). Написана на Perl, для хранения индексов используется Berkeley DB база. Скрипт ввода результатов поиска использует темплейты, что упрощает русификацию.
     
    ----* Nutch - open-source web search engine. [+]
    [обсудить]
     Поисковый механизм в открытых исходных текстах. Написан преимущественно на Java, критичные подсистемы разработаны с использованием C++. Позиционируется как движок для поисковых систем глобального масштаба, например, тестируется на индексе в 100 миллионов страниц.
  • Carrot2 - система для подготовки и ранжирования результатов поиска;
  • egothor - еще один, очень скромный на фоне nutch, открытый поисковый движок на Java;
  •  
    ----* DataparkSearch - поисковая система, использующая SQL (клон mnoGoSearch) (Версия: 4.53 от 2010-01-26) [+]
    [есть мнение]
     В качестве базиса использован mnoGoSearch 3.2.16, отличается от него по мелочам, в основном исправлены ошибки.
     
    ----* Plucene - A Perl port of the Lucene search engine [+]
    [обсудить]
     Набор Perl модулей (тулкит, порт мощного Java поисковика Lucene), позволяющих по кусочкам создать поисковую систему на базе Lucene API. Используется собственный формат хранения индексов.
  • KinoSearch - новый Perl порт поискового механизма Apache Lucene;
  • Lupy - порт Lucene на Python.
  • PyLucene - GCJ-совместимая версия Java Lucene, имеющая средства интеграции с Python посредством SWIG;
  •  
    ----* DBIx::FullTextSearch - Indexing documents with MySQL as storage [+]
    [обсудить]
     Perl модуль позволяющий создать локальную поисковую систему используя возможности полнотекстового поиска в MySql. Содержит функции для индексации файлов, URL или полей в БД, а так же выборки по ключевым словам.
     
    ----* HTGrep [+]
    ----* Excite EWS [+]
    ----* Muscat FX [+]
    ----* Glimpse (Версия: 4.18.5 от 2006-04-03) [+]
    ----* Alkaline - full-featured standalone search and index server (Версия: 1.1.2 от 2011-08-17) [+]
    ----* PathFinder - personal web search engine [+]
    !!!-* HtDig (Версия: 3.1.6 от 2002-02-03) [+]
    ----* swish - Simple Web Indexing System for Humans (Версия: 6.1.4 от 2006-03-16) [+]
    ----* wind (Версия: 1.5 от 2014-05-23) [+]
    ----* HtDig - WWW Search Engine Software [+]
    [обсудить]
     Средства организации поиска на локальном WEB сервере. Я выбрал HtDig, сделано красиво и с поиском русскоязычных документов, хранящихся в разных кодировках, проблем не возникает (возможные проблемы)(Руководство "Как обустроить ht://Dig")(надо прописать 'locale: koi8-r' в файл конфигурации, предварительно настроив koi8-r locale ).
     
    ----* FFIND - FTP-search engine [+]
    [обсудить]
     Поисковая система по нескольким ftp-серверам (индексация примерно 1,000,000 файлов). Для работы не требуется БД, внешний вид настраивается через темплейт.
     



    Близкие по значению ключи
    nice  garbage  udev  daemon  dbus  driver  lsof  timeout  zombie  path 
    Близкие по совпадению ключи
    mysql  database  sql  web  howto  ldap  filter  example  postgresql  shell  rus  text  auth  php  grep 
    Похожие разделы ключей
  • Программирование
  • Языки программирования
  • Базы данных
  • Средства разработки
  • Web-разработчику
  • сис. Функции
  • Библиотеки
  • Языковые конструкции

  • Раздел новостей
     [26.06.2015] Для PostgreSQL представлена реализация условных индексов
     [07.02.2015] Релиз движка для мета-поиска searx 0.7
     [30.08.2013] Web-браузер GNOME отказывается от поиска Google в пользу DuckDuckGo
     [03.08.2013] Открыт исходный код поискового движка Gigablast
     [09.07.2013] Поисковый движок Searchdaimon переведён в разряд свободных проектов
     [07.11.2012] Проект Debian ввёл в строй поисковую систему по коду доступных в дистрибутиве пакетов
     [11.07.2012] Релиз поискового движка Apache Nutch 2.0
     [23.12.2011] LinkedIn открыл код поисковых технологий IndexTank
    Следующая страница >>

    Советы и заметки
     Пример полнотекстового поиска в mySQL
     "Короткие" ссылки в браузерах Mozilla и Chromium
     Как найти подстроку находящуюся в переменной с экранированием опасных символов.
     Полнотекстовый поиск в PostgreSQL (Tsearch2)
     Как убрать Yandex из Firefox 3.5
     Зачем и как удалить beagle из OpenSUSE
     Расширенный анализ эффективности индексов в MySQL
     Подсказка по использованию APT
    Следующая страница >>

    Тематический каталог
     Создание индексных файлов для осуществления полнотекстового поиска
     Поиск в MySQL/PgSQL
     Как обустроить ht://Dig (c) http://www.lexa.ru
     Фильтры для поиска в LDAP
     Полнотекстовый поиск в MySQL на PHP
     пример скрипта для поиска с помощью grep
     Использование индексов в MySQL
     Полнотекстовый поиск и индексация больших блоков текста в MySQL
    Следующая страница >>

    Каталог программ
     IndexData Zebra - high-performance structured text indexing and retrieval engine
     HyperEstraier - full-text search system
     mozdex - open search engine
     Sphinx - Free open-source SQL full-text search engine
     Xapian - Open Source Probabilistic Information Retrieval library
     sleuthkit - examine the file systems (ранее назывался TASK)
     Semantic Indexing Project
     HPT - Husky-project
    Следующая страница >>

    Каталог ссылок
     freebsdsearch.com - FreeBSD Search Engine
     pgsql.ru - поисковая машина по ресурсам PotgreSQL
     xdsl.ru - Технологи широкополосных абонентских сетей (xDSL)
     wasm.ru - Системное программирование и ассемблер
     С.В. Кунегин, информационные и телекоммуникационные технологии.
     Tech Talk C/C++ FAQ
     searchengines.ru - энциклопедия поисковых систем
     Глоссарий сетевых терминов
    Следующая страница >>

    Архив документации
     Имитация карандашного рисунка при помощи GIMP
     Написание расширений для PostgreSQL с использованием GiST
     Index
     Index
     Comp.os.research: Frequently answered questions [2/3: l/m 13 Aug 1996]
     sci.crypt.research FAQ
     Information Research FAQ v.4.7 (Part 2/6)
     Internet Search FAQ 2/2 (URLS)
    Следующая страница >>


      Закладки на сайте
      Проследить за страницей
    Created 1996-2017 by Maxim Chirkov  
    ДобавитьРекламаВебмастеруГИД  
    Hosting by Ihor