Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2005.03.20;
Скачать: CL | DM;

Вниз

Быстрый поиск по HTML   Найти похожие ветки 

 
Vasilisk   (2005-03-01 19:04) [0]

Народ, необходимо организовать быстрый поиск по каталогу содержащему HTML файлы. Необходимо искать текст в HTML (соответственно игнорируя сам HTML код). Если кто делал нечто подобное, или у кого есть соображения на эту тему - подскажите.

Заранее спасибо.


 
BillyJeans   (2005-03-02 08:37) [1]

еще один спамерописатель...


 
Vasilisk   (2005-03-02 09:31) [2]

2 BillyJeans : у кого что болит .....


 
TUser ©   (2005-03-02 12:06) [3]

Что значит быстрый? Можно организовать поиск в линейном времени по каждому файлу. При этом просто игнорируй все теги, используя любой известный алгоритм точного поиска подстроки. Например КМП.


 
Gero ©   (2005-03-02 12:10) [4]


> При этом просто игнорируй все теги

Причем только между <body> и </body>.


 
vertal ©   (2005-03-07 00:57) [5]

Для того, чтобы организовать действительно быстрый поиск, будет необходимо проиндексировать все файлы в этом каталоге и искать уже через обращение к индексному файл. При индексации естественно потребуется процедура, выделяющая из HTML - файлов предложения и слова текста, возможно с их атрибутами (типа при прочих равных условиях больший вес имеет вхождение слова в заголовки).



Страницы: 1 вся ветка

Текущий архив: 2005.03.20;
Скачать: CL | DM;

Наверх




Память: 0.47 MB
Время: 0.033 c
1-1110366176
Goga
2005-03-09 14:02
2005.03.20
Подскажите ....


3-1108568740
juice
2005-02-16 18:45
2005.03.20
CREATE TABLE в хранимой процедуре


1-1110212270
Urvin
2005-03-07 19:17
2005.03.20
Сделать разбиение по строкам


1-1110379034
noname:))
2005-03-09 17:37
2005.03.20
Как убивать поток по истечению какогото времени после его старта


10-1086765103
Tormoz
2004-06-09 11:11
2005.03.20
Excel ей становится много однако...