Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2002.09.02;
Скачать: CL | DM;

Вниз

Поиск по файлам   Найти похожие ветки 

 
Денис М Радченко   (2002-08-20 16:55) [0]

Как лучше всего организовать поиск по статическим HTML страницам? Какой текстовый формат индекса лучше всего использовать (индекс будет генерироваться на Perl/PHP)? Размер страниц - до 10 МБ.


 
Jeer ©   (2002-08-20 17:59) [1]

Чтобы это значило..


 
McSimm ©   (2002-08-20 18:32) [2]

Это не сюда.
Лучше задать этот вопрос, например, здесь:
http://deforum.ru/cgi-bin/ubb61/ultimatebb.cgi?ubb=forum&f=3


 
Денис М Радченко   (2002-08-21 00:05) [3]

Скрипт на PHP я напишу, мне надо чтобы Delphi прога искала!


 
AL2002 ©   (2002-08-21 00:09) [4]

В кавычках фразы. И отдельно по словам. Чтоб были варианты все слова, ни одного слова, хотя бы одно...

Короче, в поисковик лезешь и смотришь синтаксис запросов.

Когда сделаешь прогу, дай посмотреть, если шара.


 
Денис М Радченко   (2002-08-21 16:53) [5]

2Al2002:
Запросы будут простыми (максимум поддержка нескольких слов).
Как ты считаешь, стоит ли использовать для этого TStringList? (размер индекса ~ 1MB)


 
McSimm ©   (2002-08-21 17:26) [6]

>Денис М Радченко (20.08.02 16:55)
Все зависит от задачи. Если важным критерием является быстродействие, то лучше хранить не слова, а их crc32, и не в текстовом, а в двоичном файле.

Тогда объемы индексных файлов и скорость поиска несоизмеримо улучшатся.
Этот способ я использую давно и практика показала, что двух разных слов с одним crc32 пока не встречалось.

Один из недостатков - обратное преобразование crc32 -> слово.
Если в рамках задачи (как в моем случае) это не требуется, то лучше использовать такой индекс.

Кстати, если есть желание организовывать поиск с учетом морфологии слова, то этот метод также подходит - требуется только перед расчетом crc32 (при индексации и при поиске) привести слово к какому-либо унифицированному виду. (Например отбрасыванием суффикса и окончания) Но это уже другая задача.

И в Делфи и в PHP расчет КС несложен.
В PHP есть crc_32()
Для Делфи есть аналогичная функция Q_CRC32() из модуля QStrings



Страницы: 1 вся ветка

Текущий архив: 2002.09.02;
Скачать: CL | DM;

Наверх




Память: 0.48 MB
Время: 0.015 c
1-3373
EugenCFG
2002-08-21 13:06
2002.09.02
Работа с файлом...


3-3324
sndanil
2002-08-13 15:07
2002.09.02
Опять проблема с базой InterBase


1-3517
T2
2002-08-21 15:32
2002.09.02
qtintf.dll - что за беда?


3-3299
Елена
2002-08-11 13:00
2002.09.02
Вертикальная полоса прокрутки в DBGrid


1-3478
Zevs_mv
2002-08-21 10:23
2002.09.02
Мастера помогите с Excel