Форум: "Основная";
Текущий архив: 2004.12.05;
Скачать: [xml.tar.bz2];
ВнизАлгоритм уникальности текста Найти похожие ветки
← →
Sergey18 (2004-11-19 12:22) [0]Уважаемые знатоки,
Возникла проблема: существует большое количество текстов, хранящихся в БД. Каждый текст в определенной строчке.
Размер каждого текста не очень большой (от 2 до 5 предложений), количество - порядка миллиона. При добавлении нового текста программой, она должна проверять - есть ли уже в БД такой-же текст. Варианты: Использовать полнотекстовый поиск или LIKE-запрос не подходят по определенным соображением.
Вопрос: Подскажите, пожалуйста, какой-либо алгоритм, который переводил бы текст в уникальное (или почти уникальное) число (то, что погрешности будут, я понимаю), для последующего добавления этого числа в базу и определения повторения текста в базе по этому числу.
Спасибо.
← →
PVOzerski © (2004-11-19 12:24) [1]хранить в отдельном поле crc?
← →
Мастер © (2004-11-19 12:32) [2]Поищи в инете готовые хеширующие функции.
← →
Palladin © (2004-11-19 12:34) [3]Создать уникальный индекс по полю.
← →
TUser © (2004-11-19 12:35) [4]См - в исходниках класса THashedStringList есть хеш-функция от Борланда.
Страницы: 1 вся ветка
Форум: "Основная";
Текущий архив: 2004.12.05;
Скачать: [xml.tar.bz2];
Память: 0.45 MB
Время: 0.032 c