Форум: "Основная";
Текущий архив: 2005.03.20;
Скачать: [xml.tar.bz2];
ВнизБыстрый поиск по HTML Найти похожие ветки
← →
Vasilisk (2005-03-01 19:04) [0]Народ, необходимо организовать быстрый поиск по каталогу содержащему HTML файлы. Необходимо искать текст в HTML (соответственно игнорируя сам HTML код). Если кто делал нечто подобное, или у кого есть соображения на эту тему - подскажите.
Заранее спасибо.
← →
BillyJeans (2005-03-02 08:37) [1]еще один спамерописатель...
← →
Vasilisk (2005-03-02 09:31) [2]2 BillyJeans : у кого что болит .....
← →
TUser © (2005-03-02 12:06) [3]Что значит быстрый? Можно организовать поиск в линейном времени по каждому файлу. При этом просто игнорируй все теги, используя любой известный алгоритм точного поиска подстроки. Например КМП.
← →
Gero © (2005-03-02 12:10) [4]
> При этом просто игнорируй все теги
Причем только между <body> и </body>.
← →
vertal © (2005-03-07 00:57) [5]Для того, чтобы организовать действительно быстрый поиск, будет необходимо проиндексировать все файлы в этом каталоге и искать уже через обращение к индексному файл. При индексации естественно потребуется процедура, выделяющая из HTML - файлов предложения и слова текста, возможно с их атрибутами (типа при прочих равных условиях больший вес имеет вхождение слова в заголовки).
Страницы: 1 вся ветка
Форум: "Основная";
Текущий архив: 2005.03.20;
Скачать: [xml.tar.bz2];
Память: 0.45 MB
Время: 0.037 c