Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Форум: "Основная";
Текущий архив: 2004.12.05;
Скачать: [xml.tar.bz2];

Вниз

Алгоритм уникальности текста   Найти похожие ветки 

 
Sergey18   (2004-11-19 12:22) [0]

Уважаемые знатоки,
Возникла проблема: существует большое количество текстов, хранящихся в БД. Каждый текст в определенной строчке.

Размер каждого текста не очень большой (от 2 до 5 предложений), количество - порядка миллиона. При добавлении нового текста программой, она должна проверять - есть ли уже в БД такой-же текст. Варианты:  Использовать полнотекстовый поиск или LIKE-запрос не подходят по определенным соображением.

Вопрос: Подскажите, пожалуйста, какой-либо алгоритм, который переводил бы текст в уникальное (или почти уникальное) число (то, что погрешности будут, я понимаю), для последующего добавления этого числа в базу и определения повторения текста в базе по этому числу.

Спасибо.


 
PVOzerski ©   (2004-11-19 12:24) [1]

хранить в отдельном поле crc?


 
Мастер ©   (2004-11-19 12:32) [2]

Поищи в инете готовые хеширующие функции.


 
Palladin ©   (2004-11-19 12:34) [3]

Создать уникальный индекс по полю.


 
TUser ©   (2004-11-19 12:35) [4]

См - в исходниках класса THashedStringList есть хеш-функция от Борланда.



Страницы: 1 вся ветка

Форум: "Основная";
Текущий архив: 2004.12.05;
Скачать: [xml.tar.bz2];

Наверх




Память: 0.45 MB
Время: 0.032 c
4-1098023519
#Мастер#
2004-10-17 18:31
2004.12.05
Hook на всё


1-1101325190
BuG
2004-11-24 22:39
2004.12.05
Как сделать так, чтобы появлялась форма-заставка, пока программа


1-1101300025
Pretender
2004-11-24 15:40
2004.12.05
Подсчет символов


14-1100677558
by
2004-11-17 10:45
2004.12.05
Я бы в архитекторы/проектировщики ПО пошел, пусть меня научат.


1-1101208770
denis24
2004-11-23 14:19
2004.12.05
удаление контрола





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский