Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2004.12.05;
Скачать: CL | DM;

Вниз

Алгоритм уникальности текста   Найти похожие ветки 

 
Sergey18   (2004-11-19 12:22) [0]

Уважаемые знатоки,
Возникла проблема: существует большое количество текстов, хранящихся в БД. Каждый текст в определенной строчке.

Размер каждого текста не очень большой (от 2 до 5 предложений), количество - порядка миллиона. При добавлении нового текста программой, она должна проверять - есть ли уже в БД такой-же текст. Варианты:  Использовать полнотекстовый поиск или LIKE-запрос не подходят по определенным соображением.

Вопрос: Подскажите, пожалуйста, какой-либо алгоритм, который переводил бы текст в уникальное (или почти уникальное) число (то, что погрешности будут, я понимаю), для последующего добавления этого числа в базу и определения повторения текста в базе по этому числу.

Спасибо.


 
PVOzerski ©   (2004-11-19 12:24) [1]

хранить в отдельном поле crc?


 
Мастер ©   (2004-11-19 12:32) [2]

Поищи в инете готовые хеширующие функции.


 
Palladin ©   (2004-11-19 12:34) [3]

Создать уникальный индекс по полю.


 
TUser ©   (2004-11-19 12:35) [4]

См - в исходниках класса THashedStringList есть хеш-функция от Борланда.



Страницы: 1 вся ветка

Текущий архив: 2004.12.05;
Скачать: CL | DM;

Наверх




Память: 0.47 MB
Время: 0.047 c
1-1101271504
DDDeN
2004-11-24 07:45
2004.12.05
Получить строку из TStringGrid


1-1101110443
AleX200411
2004-11-22 11:00
2004.12.05
Сравнение объектов


1-1100802846
Sniper-Max
2004-11-18 21:34
2004.12.05
Edit и удобный ввод времени... Как это сделать?


14-1100534104
KilkennyCat
2004-11-15 18:55
2004.12.05
Завтра в Петербургском СКК начинают работать несколько выставок.


1-1101214540
Fatal
2004-11-23 15:55
2004.12.05
Проблемы выгрузки в Excel