Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2006.04.23;
Скачать: CL | DM;

Вниз

Быстрый способ нахождения строки в файле   Найти похожие ветки 

 
QuickFinder   (2006-03-18 02:10) [0]

Имеется бинарный файл (с текстовыми и нетекстовыми символами).
Требуется найти количество вхождений строки XYZ и позиции этих вхождений.

Пока единственное, что приходит в голову, - это открыть файл через TFileStream и читать каждый байт. Но это очень медленно, если файл большой.
Есть ли более быстрый способ?

Когда открываю файл в FAR-е и начинаю поиск этой строки, то он работает довольно шустро.


 
Германн ©   (2006-03-18 02:38) [1]


> QuickFinder   (18.03.06 02:10)  
>
> Имеется бинарный файл (с текстовыми и нетекстовыми символами).
>
> Требуется найти количество вхождений строки XYZ и позиции
> этих вхождений.

Для поиска вхождений есть много алгоритмов, например:
"Boyer-Moore-Horspool pattern searching
algorithm".
А применить алгоритм для вычисления количества вхождений и определения позиций этих вхождений - это гораздо менее сложная задача, чем "пятничные  задачи от MBO".


 
QuickFinder   (2006-03-18 02:58) [2]

Повторяю:
Имеется бинарный файл (с текстовыми и нетекстовыми символами).

То есть простым Pos(Subst, Str) здесь НЕ обойтись.


 
Джо ©   (2006-03-18 03:04) [3]

>
> [2] QuickFinder   (18.03.06 02:58)
> Повторяю:
> Имеется бинарный файл (с текстовыми и нетекстовыми символами)
> То есть простым Pos(Subst, Str) здесь НЕ обойтись.

Почему?


 
Германн ©   (2006-03-18 03:06) [4]


> uickFinder   (18.03.06 02:58) [2]
>
> Повторяю:
> Имеется бинарный файл (с текстовыми и нетекстовыми символами).
>
>
> То есть простым Pos(Subst, Str) здесь НЕ обойтись.
>

Ну если тебе не лень, то повторяй.


 
Джо ©   (2006-03-18 03:12) [5]

Несмотря на возмущенные крики истца со своего места, все-же, посоветую еще кой-чего :)
Спроецируй файл в память (ключевый слова для поиска File mapping), затем производи поиск при помощи функции ComareMem. Скорости, для большОго числа прикладных задач, должно хватить. Если ее все-же не хватит, тогда уже и ищи "хитрые" алгоритмы.


 
TUser ©   (2006-03-18 05:25) [6]

Для строки XYZ не надобен Бойер-Мур, а нужен алгоритм Shift-And.


 
QuickFinder   (2006-03-18 10:19) [7]


> Джо ©   (18.03.06 03:04) [3]
> > То есть простым Pos(Subst, Str) здесь НЕ обойтись.
>
> Почему?


Я пробовал определить количество вхождений таким образом:

function SubStrCount(Substr, Str: string): Integer;
var
 I: Integer;
begin
 Result := 0;
 if (Substr = "") or (Str = "") then
   Exit;

 I := Pos(Substr, Str);
 while I > 0 do
 begin
   Inc(Result);
   Str := Copy(Str, I + Length(Substr), Length(Str));
   I := Pos(Substr, Str);
 end;
end;

Первое вхождение он находит, но не больше (а их точно больше). Дело в Copy?


 
Плохиш ©   (2006-03-18 10:59) [8]

PosEx


 
QuickFinder   (2006-03-18 11:07) [9]

Плохиш, а в каком модуле искать PosEx? В Delphi 5 его по ходу нет.


 
QuickFinder   (2006-03-18 11:23) [10]

Плохиш, будь ласка, запости сюда рутину PosEx.


 
Плохиш ©   (2006-03-18 11:57) [11]

> QuickFinder   (18.03.06 11:07) [9]
> Плохиш, а в каком модуле искать PosEx? В Delphi 5 его по
> ходу нет.

В Д7 она есть. Зачем Д7 в списке указывал?

> QuickFinder   (18.03.06 11:23) [10]
> Плохиш, будь ласка,

Ой, я сейчас покраснею..

function PosEx(const SubStr, S: string; Offset: Cardinal = 1): Integer;
var
 I,X: Integer;
 Len, LenSubStr: Integer;
begin
 if Offset = 1 then
   Result := Pos(SubStr, S)
 else
 begin
   I := Offset;
   LenSubStr := Length(SubStr);
   Len := Length(S) - LenSubStr + 1;
   while I <= Len do
   begin
     if S[I] = SubStr[1] then
     begin
       X := 1;
       while (X < LenSubStr) and (S[I + X] = SubStr[X + 1]) do
         Inc(X);
       if (X = LenSubStr) then
       begin
         Result := I;
         exit;
       end;
     end;
     Inc(I);
   end;
   Result := 0;
 end;
end;


 
QuickFinder   (2006-03-18 13:19) [12]


> Джо ©   (18.03.06 03:12) [5]
> Несмотря на возмущенные крики истца со своего места, все-
> же, посоветую еще кой-чего :)
> Спроецируй файл в память (ключевый слова для поиска File
> mapping), затем производи поиск при помощи функции ComareMem.
>  Скорости, для большОго числа прикладных задач, должно хватить.
>


Мне тоже кажется, что нужно смотреть в этом направлении.
Открываю довольно большой файл в UltraEdit-е, мигом открыл и все отобразил (в текстовом и шестнадцатиричном виде).



Страницы: 1 вся ветка

Текущий архив: 2006.04.23;
Скачать: CL | DM;

Наверх




Память: 0.5 MB
Время: 0.041 c
2-1144747602
dima_kds
2006-04-11 13:26
2006.04.23
Использование SQL


2-1144682165
новенький
2006-04-10 19:16
2006.04.23
котрольная сумма


15-1144155918
Джо
2006-04-04 17:05
2006.04.23
Ограничение доступа к Интету для выбранных локальных уч. записей


4-1138842232
Illuha_y
2006-02-02 04:03
2006.04.23
Не работает RegEnumValue


15-1144059580
balepa
2006-04-03 14:19
2006.04.23
Как можно "Ваше имя" сменить ?