Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Форум: "Основная";
Текущий архив: 2002.09.02;
Скачать: [xml.tar.bz2];

Вниз

Поиск по файлам   Найти похожие ветки 

 
Денис М Радченко   (2002-08-20 16:55) [0]

Как лучше всего организовать поиск по статическим HTML страницам? Какой текстовый формат индекса лучше всего использовать (индекс будет генерироваться на Perl/PHP)? Размер страниц - до 10 МБ.


 
Jeer   (2002-08-20 17:59) [1]

Чтобы это значило..


 
McSimm   (2002-08-20 18:32) [2]

Это не сюда.
Лучше задать этот вопрос, например, здесь:
http://deforum.ru/cgi-bin/ubb61/ultimatebb.cgi?ubb=forum&f=3


 
Денис М Радченко   (2002-08-21 00:05) [3]

Скрипт на PHP я напишу, мне надо чтобы Delphi прога искала!


 
AL2002   (2002-08-21 00:09) [4]

В кавычках фразы. И отдельно по словам. Чтоб были варианты все слова, ни одного слова, хотя бы одно...

Короче, в поисковик лезешь и смотришь синтаксис запросов.

Когда сделаешь прогу, дай посмотреть, если шара.


 
Денис М Радченко   (2002-08-21 16:53) [5]

2Al2002:
Запросы будут простыми (максимум поддержка нескольких слов).
Как ты считаешь, стоит ли использовать для этого TStringList? (размер индекса ~ 1MB)


 
McSimm   (2002-08-21 17:26) [6]

>Денис М Радченко (20.08.02 16:55)
Все зависит от задачи. Если важным критерием является быстродействие, то лучше хранить не слова, а их crc32, и не в текстовом, а в двоичном файле.

Тогда объемы индексных файлов и скорость поиска несоизмеримо улучшатся.
Этот способ я использую давно и практика показала, что двух разных слов с одним crc32 пока не встречалось.

Один из недостатков - обратное преобразование crc32 -> слово.
Если в рамках задачи (как в моем случае) это не требуется, то лучше использовать такой индекс.

Кстати, если есть желание организовывать поиск с учетом морфологии слова, то этот метод также подходит - требуется только перед расчетом crc32 (при индексации и при поиске) привести слово к какому-либо унифицированному виду. (Например отбрасыванием суффикса и окончания) Но это уже другая задача.

И в Делфи и в PHP расчет КС несложен.
В PHP есть crc_32()
Для Делфи есть аналогичная функция Q_CRC32() из модуля QStrings



Страницы: 1 вся ветка

Форум: "Основная";
Текущий архив: 2002.09.02;
Скачать: [xml.tar.bz2];

Наверх





Память: 0.45 MB
Время: 0.007 c
1-3441
NewGuest
2002-08-20 14:48
2002.09.02
Windows не может завершить работу


1-3410
Soft
2002-08-22 15:23
2002.09.02
Delphi 7.0 Studio Architect vs MS Visual Studio 7.0


3-3250
Павел Николаевич
2002-08-12 05:13
2002.09.02
Добавление записей (ADO)


1-3392
[BAD]Angel
2002-08-22 13:46
2002.09.02
Как узнать?


14-3591
Тракторист
2002-08-06 17:54
2002.09.02
Внимание задача для млада и стара!





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский