Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2005.03.20;
Скачать: CL | DM;

Вниз

Быстрый поиск по HTML   Найти похожие ветки 

 
Vasilisk   (2005-03-01 19:04) [0]

Народ, необходимо организовать быстрый поиск по каталогу содержащему HTML файлы. Необходимо искать текст в HTML (соответственно игнорируя сам HTML код). Если кто делал нечто подобное, или у кого есть соображения на эту тему - подскажите.

Заранее спасибо.


 
BillyJeans   (2005-03-02 08:37) [1]

еще один спамерописатель...


 
Vasilisk   (2005-03-02 09:31) [2]

2 BillyJeans : у кого что болит .....


 
TUser ©   (2005-03-02 12:06) [3]

Что значит быстрый? Можно организовать поиск в линейном времени по каждому файлу. При этом просто игнорируй все теги, используя любой известный алгоритм точного поиска подстроки. Например КМП.


 
Gero ©   (2005-03-02 12:10) [4]


> При этом просто игнорируй все теги

Причем только между <body> и </body>.


 
vertal ©   (2005-03-07 00:57) [5]

Для того, чтобы организовать действительно быстрый поиск, будет необходимо проиндексировать все файлы в этом каталоге и искать уже через обращение к индексному файл. При индексации естественно потребуется процедура, выделяющая из HTML - файлов предложения и слова текста, возможно с их атрибутами (типа при прочих равных условиях больший вес имеет вхождение слова в заголовки).



Страницы: 1 вся ветка

Текущий архив: 2005.03.20;
Скачать: CL | DM;

Наверх




Память: 0.47 MB
Время: 0.025 c
1-1110095064
Checist [root]
2005-03-06 10:44
2005.03.20
TreeNode


1-1109860032
BALU1111
2005-03-03 17:27
2005.03.20
Что выбрать?


14-1109586283
Ega23
2005-02-28 13:24
2005.03.20
Алёша Попович и Тугарин Змей


3-1108641732
Shizuku
2005-02-17 15:02
2005.03.20
Report for iBx


14-1109790550
Jetus
2005-03-02 22:09
2005.03.20
Как работает Morphine?