Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Форум: "Начинающим";
Текущий архив: 2008.08.10;
Скачать: [xml.tar.bz2];

Вниз

алгоритм поиска дублирующих строк в файле   Найти похожие ветки 

 
max   (2008-07-10 15:00) [0]

Добрый день, уважаемые форумчане!
Помогите, пожалуйста, ускорить алгоритм поиска дублирующих
значений в файле.
Есть два файла. Вкаждом порядка 200000 строк. Используя ниже приведенный код на поиск уходит очень много времени.


while not EOF(f1) do
begin
 ReadLn(f1,line1);
 Reset(f2);
 while not EOF(f2) do
 begin
  ReadLn(f2, line2);
  if line1=line2 then    writeln(f_r, line1);
 end;
end;


 
tesseract ©   (2008-07-10 15:22) [1]

ну ещё бы, он не тормозил.  Надо строить самоупорядочивающиеся хэши строк, потом алгоритм сравнения. За сим отправляю к Кнуту и Бакнелу, ибо это страниц 30-40 разъеснений.


 
Сергей М. ©   (2008-07-10 16:04) [2]

А каков результат примерной оценки количества уникальных строк в результирующем списке ?

Я к тому что возможно приспособить под это дело TStringList, если оценка внушает оптимизм)


 
Ega23 ©   (2008-07-10 16:25) [3]


> возможно приспособить под это дело TStringList


на 200000 строк?
Хотя может и не будет тормозить...


 
Rouse_ ©   (2008-07-10 16:26) [4]

вот тут я что-то в свое время писал для чего-то, мошт пригодится:
http://rouse.drkb.ru/files/dict.zip


 
Игорь Шевченко ©   (2008-07-10 16:37) [5]


> Помогите, пожалуйста, ускорить алгоритм поиска дублирующих
> значений в файле.


есть замечательная программа diff с иходниками. Именно для этого предназначена. Работает довольно быстро. Исходники на С можно найти в интернете (и не одни)


 
Сергей М. ©   (2008-07-10 17:51) [6]


> Ega23 ©   (10.07.08 16:25) [3]


Имелась ввиду загрузка в TStringList результата, а не оригинала ..



Страницы: 1 вся ветка

Форум: "Начинающим";
Текущий архив: 2008.08.10;
Скачать: [xml.tar.bz2];

Наверх




Память: 0.45 MB
Время: 0.007 c
4-1192602325
_Guest_
2007-10-17 10:25
2008.08.10
Распознать подключение / отключение флешки


2-1215676956
Артур Пирожков
2008-07-10 12:02
2008.08.10
Простой вопрос по tpopupmenu


6-1191501575
Леван Варшанидзе
2007-10-04 16:39
2008.08.10
IDFTP.LIST Не возвращает год создания фаила


11-1185386544
SiNiK
2007-07-25 22:02
2008.08.10
Lazarus+MCK - Ошибка


1-1196406830
Crystalis
2007-11-30 10:13
2008.08.10
Работа с HOTKEY =





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский