Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Форум: "Основная";
Текущий архив: 2005.03.20;
Скачать: [xml.tar.bz2];

Вниз

Быстрый поиск по HTML   Найти похожие ветки 

 
Vasilisk   (2005-03-01 19:04) [0]

Народ, необходимо организовать быстрый поиск по каталогу содержащему HTML файлы. Необходимо искать текст в HTML (соответственно игнорируя сам HTML код). Если кто делал нечто подобное, или у кого есть соображения на эту тему - подскажите.

Заранее спасибо.


 
BillyJeans   (2005-03-02 08:37) [1]

еще один спамерописатель...


 
Vasilisk   (2005-03-02 09:31) [2]

2 BillyJeans : у кого что болит .....


 
TUser ©   (2005-03-02 12:06) [3]

Что значит быстрый? Можно организовать поиск в линейном времени по каждому файлу. При этом просто игнорируй все теги, используя любой известный алгоритм точного поиска подстроки. Например КМП.


 
Gero ©   (2005-03-02 12:10) [4]


> При этом просто игнорируй все теги

Причем только между <body> и </body>.


 
vertal ©   (2005-03-07 00:57) [5]

Для того, чтобы организовать действительно быстрый поиск, будет необходимо проиндексировать все файлы в этом каталоге и искать уже через обращение к индексному файл. При индексации естественно потребуется процедура, выделяющая из HTML - файлов предложения и слова текста, возможно с их атрибутами (типа при прочих равных условиях больший вес имеет вхождение слова в заголовки).



Страницы: 1 вся ветка

Форум: "Основная";
Текущий архив: 2005.03.20;
Скачать: [xml.tar.bz2];

Наверх





Память: 0.45 MB
Время: 0.039 c
1-1109868919
Seeker
2005-03-03 19:55
2005.03.20
TListWiew Selected


1-1109831333
Veles
2005-03-03 09:28
2005.03.20
Преобразование в HEX


4-1107521888
Alxxla
2005-02-04 15:58
2005.03.20
проблема с WMPAINT в стандартном TEDIT


14-1109586283
Ega23
2005-02-28 13:24
2005.03.20
Алёша Попович и Тугарин Змей


14-1108916899
Девушка
2005-02-20 19:28
2005.03.20
Ethernet-устройства





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский