Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2005.03.20;
Скачать: CL | DM;

Вниз

Быстрый поиск по HTML   Найти похожие ветки 

 
Vasilisk   (2005-03-01 19:04) [0]

Народ, необходимо организовать быстрый поиск по каталогу содержащему HTML файлы. Необходимо искать текст в HTML (соответственно игнорируя сам HTML код). Если кто делал нечто подобное, или у кого есть соображения на эту тему - подскажите.

Заранее спасибо.


 
BillyJeans   (2005-03-02 08:37) [1]

еще один спамерописатель...


 
Vasilisk   (2005-03-02 09:31) [2]

2 BillyJeans : у кого что болит .....


 
TUser ©   (2005-03-02 12:06) [3]

Что значит быстрый? Можно организовать поиск в линейном времени по каждому файлу. При этом просто игнорируй все теги, используя любой известный алгоритм точного поиска подстроки. Например КМП.


 
Gero ©   (2005-03-02 12:10) [4]


> При этом просто игнорируй все теги

Причем только между <body> и </body>.


 
vertal ©   (2005-03-07 00:57) [5]

Для того, чтобы организовать действительно быстрый поиск, будет необходимо проиндексировать все файлы в этом каталоге и искать уже через обращение к индексному файл. При индексации естественно потребуется процедура, выделяющая из HTML - файлов предложения и слова текста, возможно с их атрибутами (типа при прочих равных условиях больший вес имеет вхождение слова в заголовки).



Страницы: 1 вся ветка

Текущий архив: 2005.03.20;
Скачать: CL | DM;

Наверх




Память: 0.47 MB
Время: 0.051 c
9-1103806612
Макс
2004-12-23 15:56
2005.03.20
Editable mesh


14-1109160034
GRAND25
2005-02-23 15:00
2005.03.20
Футбол. Лига Чемпионов 2004/2005


1-1109924669
webpauk
2005-03-04 11:24
2005.03.20
Program Files


14-1109439817
Местный
2005-02-26 20:43
2005.03.20
Возможно ли восстановить файлы, если отформатировал диск???


3-1108713713
AlexandrKu
2005-02-18 11:01
2005.03.20
Как в хранимой процедуре посчитать среднехронологические значения