Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2005.03.20;
Скачать: CL | DM;

Вниз

Быстрый поиск по HTML   Найти похожие ветки 

 
Vasilisk   (2005-03-01 19:04) [0]

Народ, необходимо организовать быстрый поиск по каталогу содержащему HTML файлы. Необходимо искать текст в HTML (соответственно игнорируя сам HTML код). Если кто делал нечто подобное, или у кого есть соображения на эту тему - подскажите.

Заранее спасибо.


 
BillyJeans   (2005-03-02 08:37) [1]

еще один спамерописатель...


 
Vasilisk   (2005-03-02 09:31) [2]

2 BillyJeans : у кого что болит .....


 
TUser ©   (2005-03-02 12:06) [3]

Что значит быстрый? Можно организовать поиск в линейном времени по каждому файлу. При этом просто игнорируй все теги, используя любой известный алгоритм точного поиска подстроки. Например КМП.


 
Gero ©   (2005-03-02 12:10) [4]


> При этом просто игнорируй все теги

Причем только между <body> и </body>.


 
vertal ©   (2005-03-07 00:57) [5]

Для того, чтобы организовать действительно быстрый поиск, будет необходимо проиндексировать все файлы в этом каталоге и искать уже через обращение к индексному файл. При индексации естественно потребуется процедура, выделяющая из HTML - файлов предложения и слова текста, возможно с их атрибутами (типа при прочих равных условиях больший вес имеет вхождение слова в заголовки).



Страницы: 1 вся ветка

Текущий архив: 2005.03.20;
Скачать: CL | DM;

Наверх




Память: 0.47 MB
Время: 0.04 c
14-1109712743
Andryk
2005-03-02 00:32
2005.03.20
Я се стрим поставил. Эх лепота!!!


14-1109578928
AlexG
2005-02-28 11:22
2005.03.20
Обреченность вида - Человек


6-1105789949
Separator
2005-01-15 14:52
2005.03.20
Автодозвон


3-1108998581
xman
2005-02-21 18:09
2005.03.20
ORACLE


14-1109684176
Vlad Oshin
2005-03-01 16:36
2005.03.20
WinXP не подключает сетевые диски