Форум: "Основная";
Текущий архив: 2002.09.02;
Скачать: [xml.tar.bz2];
ВнизПоиск по файлам Найти похожие ветки
← →
Денис М Радченко (2002-08-20 16:55) [0]Как лучше всего организовать поиск по статическим HTML страницам? Какой текстовый формат индекса лучше всего использовать (индекс будет генерироваться на Perl/PHP)? Размер страниц - до 10 МБ.
← →
Jeer (2002-08-20 17:59) [1]Чтобы это значило..
← →
McSimm (2002-08-20 18:32) [2]Это не сюда.
Лучше задать этот вопрос, например, здесь:
http://deforum.ru/cgi-bin/ubb61/ultimatebb.cgi?ubb=forum&f=3
← →
Денис М Радченко (2002-08-21 00:05) [3]Скрипт на PHP я напишу, мне надо чтобы Delphi прога искала!
← →
AL2002 (2002-08-21 00:09) [4]В кавычках фразы. И отдельно по словам. Чтоб были варианты все слова, ни одного слова, хотя бы одно...
Короче, в поисковик лезешь и смотришь синтаксис запросов.
Когда сделаешь прогу, дай посмотреть, если шара.
← →
Денис М Радченко (2002-08-21 16:53) [5]2Al2002:
Запросы будут простыми (максимум поддержка нескольких слов).
Как ты считаешь, стоит ли использовать для этого TStringList? (размер индекса ~ 1MB)
← →
McSimm (2002-08-21 17:26) [6]>Денис М Радченко (20.08.02 16:55)
Все зависит от задачи. Если важным критерием является быстродействие, то лучше хранить не слова, а их crc32, и не в текстовом, а в двоичном файле.
Тогда объемы индексных файлов и скорость поиска несоизмеримо улучшатся.
Этот способ я использую давно и практика показала, что двух разных слов с одним crc32 пока не встречалось.
Один из недостатков - обратное преобразование crc32 -> слово.
Если в рамках задачи (как в моем случае) это не требуется, то лучше использовать такой индекс.
Кстати, если есть желание организовывать поиск с учетом морфологии слова, то этот метод также подходит - требуется только перед расчетом crc32 (при индексации и при поиске) привести слово к какому-либо унифицированному виду. (Например отбрасыванием суффикса и окончания) Но это уже другая задача.
И в Делфи и в PHP расчет КС несложен.
В PHP есть crc_32()
Для Делфи есть аналогичная функция Q_CRC32() из модуля QStrings
Страницы: 1 вся ветка
Форум: "Основная";
Текущий архив: 2002.09.02;
Скачать: [xml.tar.bz2];
Память: 0.45 MB
Время: 0.007 c