Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2002.09.02;
Скачать: CL | DM;

Вниз

Поиск по файлам   Найти похожие ветки 

 
Денис М Радченко   (2002-08-20 16:55) [0]

Как лучше всего организовать поиск по статическим HTML страницам? Какой текстовый формат индекса лучше всего использовать (индекс будет генерироваться на Perl/PHP)? Размер страниц - до 10 МБ.


 
Jeer ©   (2002-08-20 17:59) [1]

Чтобы это значило..


 
McSimm ©   (2002-08-20 18:32) [2]

Это не сюда.
Лучше задать этот вопрос, например, здесь:
http://deforum.ru/cgi-bin/ubb61/ultimatebb.cgi?ubb=forum&f=3


 
Денис М Радченко   (2002-08-21 00:05) [3]

Скрипт на PHP я напишу, мне надо чтобы Delphi прога искала!


 
AL2002 ©   (2002-08-21 00:09) [4]

В кавычках фразы. И отдельно по словам. Чтоб были варианты все слова, ни одного слова, хотя бы одно...

Короче, в поисковик лезешь и смотришь синтаксис запросов.

Когда сделаешь прогу, дай посмотреть, если шара.


 
Денис М Радченко   (2002-08-21 16:53) [5]

2Al2002:
Запросы будут простыми (максимум поддержка нескольких слов).
Как ты считаешь, стоит ли использовать для этого TStringList? (размер индекса ~ 1MB)


 
McSimm ©   (2002-08-21 17:26) [6]

>Денис М Радченко (20.08.02 16:55)
Все зависит от задачи. Если важным критерием является быстродействие, то лучше хранить не слова, а их crc32, и не в текстовом, а в двоичном файле.

Тогда объемы индексных файлов и скорость поиска несоизмеримо улучшатся.
Этот способ я использую давно и практика показала, что двух разных слов с одним crc32 пока не встречалось.

Один из недостатков - обратное преобразование crc32 -> слово.
Если в рамках задачи (как в моем случае) это не требуется, то лучше использовать такой индекс.

Кстати, если есть желание организовывать поиск с учетом морфологии слова, то этот метод также подходит - требуется только перед расчетом crc32 (при индексации и при поиске) привести слово к какому-либо унифицированному виду. (Например отбрасыванием суффикса и окончания) Но это уже другая задача.

И в Делфи и в PHP расчет КС несложен.
В PHP есть crc_32()
Для Делфи есть аналогичная функция Q_CRC32() из модуля QStrings



Страницы: 1 вся ветка

Текущий архив: 2002.09.02;
Скачать: CL | DM;

Наверх




Память: 0.48 MB
Время: 0.011 c
14-3599
SPeller
2002-08-05 20:31
2002.09.02
Опять РНР


1-3427
Netizen
2002-08-22 23:00
2002.09.02
Как найти подстроку в строке???


3-3292
TAN
2002-07-23 17:24
2002.09.02
MySql


1-3370
dim-
2002-08-20 14:55
2002.09.02
что за ошибка?


6-3542
GM_
2002-06-21 23:15
2002.09.02
Как получить маску подсети ?