Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Форум: "Начинающим";
Текущий архив: 2008.08.10;
Скачать: [xml.tar.bz2];

Вниз

алгоритм поиска дублирующих строк в файле   Найти похожие ветки 

 
max   (2008-07-10 15:00) [0]

Добрый день, уважаемые форумчане!
Помогите, пожалуйста, ускорить алгоритм поиска дублирующих
значений в файле.
Есть два файла. Вкаждом порядка 200000 строк. Используя ниже приведенный код на поиск уходит очень много времени.


while not EOF(f1) do
begin
 ReadLn(f1,line1);
 Reset(f2);
 while not EOF(f2) do
 begin
  ReadLn(f2, line2);
  if line1=line2 then    writeln(f_r, line1);
 end;
end;


 
tesseract ©   (2008-07-10 15:22) [1]

ну ещё бы, он не тормозил.  Надо строить самоупорядочивающиеся хэши строк, потом алгоритм сравнения. За сим отправляю к Кнуту и Бакнелу, ибо это страниц 30-40 разъеснений.


 
Сергей М. ©   (2008-07-10 16:04) [2]

А каков результат примерной оценки количества уникальных строк в результирующем списке ?

Я к тому что возможно приспособить под это дело TStringList, если оценка внушает оптимизм)


 
Ega23 ©   (2008-07-10 16:25) [3]


> возможно приспособить под это дело TStringList


на 200000 строк?
Хотя может и не будет тормозить...


 
Rouse_ ©   (2008-07-10 16:26) [4]

вот тут я что-то в свое время писал для чего-то, мошт пригодится:
http://rouse.drkb.ru/files/dict.zip


 
Игорь Шевченко ©   (2008-07-10 16:37) [5]


> Помогите, пожалуйста, ускорить алгоритм поиска дублирующих
> значений в файле.


есть замечательная программа diff с иходниками. Именно для этого предназначена. Работает довольно быстро. Исходники на С можно найти в интернете (и не одни)


 
Сергей М. ©   (2008-07-10 17:51) [6]


> Ega23 ©   (10.07.08 16:25) [3]


Имелась ввиду загрузка в TStringList результата, а не оригинала ..



Страницы: 1 вся ветка

Форум: "Начинающим";
Текущий архив: 2008.08.10;
Скачать: [xml.tar.bz2];

Наверх





Память: 0.45 MB
Время: 0.007 c
3-1204041756
Reindeer Moss Eater
2008-02-26 19:02
2008.08.10
MSSQL 2005 и политика паролей домена


15-1214169103
JetuS
2008-06-23 01:11
2008.08.10
Сниффер ICMP-пакетов


15-1214226247
dert333
2008-06-23 17:04
2008.08.10
Ошибка с установками


2-1215492775
uno-84
2008-07-08 08:52
2008.08.10
Оповещение в нижнем правом углу экрана


10-1148645234
AlexAlex
2006-05-26 16:07
2008.08.10
Передача файла DCom-серверу





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский