Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2002.12.05;
Скачать: CL | DM;

Вниз

Подсчет слов в файле !!!   Найти похожие ветки 

 
valerchik   (2002-11-21 22:20) [0]

Кто знает как подсчитать сколько каких слов содержиться в файле любого размера ? Как организовать цикл выделения слов из строки текста..........


 
MBo ©   (2002-11-21 22:22) [1]

Сначала определи, что считать словом, как они разделяются, потом по эти разделителям и выбирай слова


 
Anatoly Podgoretsky ©   (2002-11-21 22:28) [2]

Создай список разделителей, остальное дело техники, просто сканирование, С точками только сложность, двоякая у них природа, то часть слова, то разделитель, но можно это отнести к погрешности подсчета.


 
Дмитрий К.К. ©   (2002-11-22 07:30) [3]

Ежели антиресует подсчет количества слов в строке, то вот ссылочка: http://delphibase.endimus.com/?action=viewfunc&topic=strmath&id=10086


 
Separator ©   (2002-11-22 07:49) [4]

Во посмотри, мжет чего и найдешь нужного:

const
StandartDelimiters: TDelimiter = [" ", "!", "@", "(", ")", "-", "|", "\", ";", ":", """, "/", "?", ".", ">", ",", "<"];

function StringToWords(const DelimitedText: string; ResultList: TStrings; Delimiters: TDelimiter = []; ListClear: boolean = true): boolean;
var
i, Len, Prev: word;
TempList: TStringList;

begin
Result:= false;
if (ResultList <> nil) and (DelimitedText <> "") then
try
TempList:= TStringList.Create;
if Delimiters = [] then
Delimiters:= StandartDelimiters;
Len:= 1;
Prev:= 0;
for i:= 1 to Length(DelimitedText) do
begin
if Prev <> 0 then
begin
if DelimitedText[i] in Delimiters then
begin
if Len = 0 then
Prev:= i + 1
else
begin
TempList.Add(copy(DelimitedText, Prev, Len));
Len:= 0;
Prev:= i + 1
end
end
else
Inc(Len)
end
else if not (DelimitedText[i] in Delimiters) then
Prev:= i
end;
if Len > 0 then
TempList.Add(copy(DelimitedText, Prev, Len));
if TempList.Count > 0 then
begin
if ListClear then
ResultList.Assign(TempList)
else
ResultList.AddStrings(TempList);
Result:= true
end;
finally
TempList.Free
end
end;

function StringsToWords(const DelimitedStrings: TStrings; ResultList: TStrings; Delimiters: TDelimiter = []; ListClear: boolean = true): boolean;
begin
if Delimiters = [] then
Delimiters:= StandartDelimiters + [#13, #10]
else
Delimiters:= Delimiters + [#13, #10];
Result:= StringToWords(DelimitedStrings.Text, ResultList, Delimiters, ListClear)
end;


 
Separator ©   (2002-11-22 08:05) [5]

Забыл. Нужно еще добавить вначале:

type
TDelimiter = set of #0..#255;


 
valerchik   (2002-11-22 08:06) [6]

Спасибо мужики.
Ща буду тестить все то что посоветовали :)
Вообще дело все в том...надо чтоб работало как можно быстрее.


 
Song ©   (2002-11-22 08:26) [7]

2Separator © (22.11.02 07:49)
Ты с Паскаля вырос что ли?
CommaText и более ничего не надо :-)


 
MBo ©   (2002-11-22 08:33) [8]

>Song
Все-таки у него не только по запятым и пробелам делит


 
Separator ©   (2002-11-22 08:34) [9]


> CommaText и более ничего не надо :-)

ДА???? Он не всегда правильно резделяет


 
Song ©   (2002-11-22 09:00) [10]

2MBo © (22.11.02 08:33)
Бывает какой-нибудь один разделитель, а два: и запятая и пробел - редко, это уже не БД получается, а какая-то ерунда, составленная очень неряшливо.

2Separator © (22.11.02 08:34)
>>ДА???? Он не всегда правильно резделяет
Ну хорошо не нравится CommaText используй это:

Text:=StringReplace(Text,#32,#13#10,[rfReplaceAll]);

разделит как надо.


 
Separator ©   (2002-11-22 09:21) [11]

А если допустим тест такой: "Это текст!Который надо разбить на слова."
Результат будет такой:
Это
текст!Который
надо
разбить
на
слова.

А результат моей функиции будет такой:
Это
текст
Который
надо
разбить
на
слова


 
Song ©   (2002-11-22 09:27) [12]

const StandartDelimiters: array of Char = [" ", "!", "@", "(", ")", "-", "|", "\", ";", ":", """, "/", "?", ".", ">", ",", "<"];

For t:=0 to High(StandartDelimiters)-1 Do Text:=StringReplace(Text,StandartDelimiters[t],#13#10,[rfReplaceAll]);
ShowMessage("В файле "+IntToStr(объект.Count)+ "слов.")

Я про то, что Ваша громоздкая ф-ия не нужна. Ещё спорить будете?


 
ProgMan ©   (2002-11-22 09:52) [13]

>>Song ©
А теперь сами сравните 2 ответа:
Song © (22.11.02 08:26)
и
Song © (22.11.02 09:27)

Спор ни о чем.
Если у Вас более красивое решение - предложите.
На то Вы и Мастер.
Separator © предложил готовое решение, а Вы начали "пальцевать":
>>Ты с Паскаля вырос что ли? А Вы не пользуетесь Паскалем в Delphi? :-)
Через час "ты" сменилось на "Вы"...
>>Ваша громоздкая ф-ия не нужна

Кстати, а как насчет двух разделителей подряд?


 
Дмитрий К.К. ©   (2002-11-22 09:59) [14]

ProgMan прав.


 
Song ©   (2002-11-22 10:00) [15]

Я его предложил. У меня разделение идёт одной строкой. У меня оно тоже готовое.


 
ProgMan ©   (2002-11-22 10:13) [16]

>>Ты с Паскаля вырос что ли?
>>CommaText и более ничего не надо :-)

Это не готовое решение, а совет по направлению решения.
Чувствуете разницу?

А это уже готовое решение (Ваше):
const StandartDelimiters: array of Char = [" ", "!", "@", "(", ")", "-", "|", "\", ";", ":", """, "/", "?", ".", ">", ",", "<"];

For t:=0 to High(StandartDelimiters)-1 Do Text:=StringReplace(Text,StandartDelimiters[t],#13#10,[rfReplaceAll]);
ShowMessage("В файле "+IntToStr(объект.Count)+ "слов.")


Но Вы его предложили позже, уже в процессе дискуссии, а начали с распальцовки. Вот я о чем...

Так насчет других замечаний?
ты-Вы?
Чем не угодил Паскаль Мастеру Delphi?
два разделителя подряд?


 
Song_   (2002-11-22 10:23) [17]

Сказав "Ты с Паскаля вырос что ли?" я имел ввиду, что человек предоставил решение полностью на конструкциях языка без использования возможностей, которые дают некоторые классы. И уж никак я не хотел кого-либо обидеть. Только Вы увидели в моих словах пренебрежение. Если Вы не знаете как использовать CommaText могу рассказать. Separator"у это не надо, я уверен, что он знает как это делать.
Заметьте я не пальцевал, а указал на более простое и рациональное решение, пальцуете как раз Вы, намекая на какое-то минимое различие между людьми на этом форуме посредством значка.
Насчёт ты-Вы, это проиходит не осознанно, и источники этого, без сомнения, я объяснять не буду.

>>Чем не угодил Паскаль Мастеру Delphi?
С паскалем всё Ok. Что я имел ввиду я написал выше.

>>два разделителя подряд?
Давайте мы поищем ещё кучу условностей. Три разделителя подряд? Пять, десять? Ещё чего-нибудь? Я имею ввиду, что если закрыть эту условность, то можно найти ещё с десяток, а это уже качество ведения б/д. См. Song © (22.11.02 09:00)


 
Separator ©   (2002-11-22 10:30) [18]

Кстати Song, а вы проверяли свое решение? Я вот взял ваш код и ничего не исправляя вставил в дельфи и каков результат? Ничего не работает, точней не совсем работает.
Чтоб избежать последуюзей дискусси вот код:

const
StandartDelimiters: array [1..17] of Char = (" ", "!", "@", "(", ")", "-", "|", "\", ";", ":", """, "/", "?", ".", ">", ",", "<");
var
t: integer;
begin
ListBox2.Items.Clear;
For t:=0 to High(StandartDelimiters)-1 Do
ListBox2.Items.Text:=StringReplace(ListBox1.Items.Strings[ListBox1.ItemIndex],StandartDelimiters[t],#13#10,[rfReplaceAll]);
end;


Результат на строку "Наступит утро, и свои" таков:
Наступит утро
и свои

Результат на строку "В миг лепестки распустит роза..." таков:
В миг лепестки распустит роза...

т.е. без изменений, может я что-то не так делаю?


 
Song_   (2002-11-22 10:42) [19]

Separator ©,
Я не хочу выбирать путь публичного унижения кого бы это ни было на этой конференции, как это сделал ProgMan, поэтому программа (~5 кб) направлена на Ваш почтовый ящик.


 
Separator ©   (2002-11-22 10:47) [20]


> Song_ (22.11.02 10:42)
Просьба если сможешь, то вышли эту программу на vilgelm@mail.kz
А лучше напишите в данном форуме, что я сделал неправильно?


 
Song ©   (2002-11-22 10:53) [21]

Выслал.
>>что я сделал неправильно
Не знаю. У меня всё работает.
Вообще я редко тестирую в самой Дельфи, то что отвечаю в форуме и не из-за того, что "зазнался", а из-за то, что времени не хватает. Но в этот раз я это сделал. Результат перед Вами в письме.


 
unreger   (2002-11-22 11:06) [22]

Что-то подобное такой задаче делается и у меня, но все, что найдется, должно попасть в базу данных для последующей обработки (морфология, синтаксис, поиск границ предложения и проч.)

Правило такое: все что цифробуква = слово, иначе = псевдослово (набор разделителей)
Делает это IsCharAlphaNumeric. Два буфера. TFileStream.
Посимвольное считывание (тут пока не разбирался, но если поток не оптимизирует это дело, то можно будет и свой написать). Как только последовательность цифробукв меняется на последовательность разделителей => в первом буфере собрали слово. Можно считать это еще одним вариантом. И красиво подсвечивать в RichEdit ход анализа.



 
Separator ©   (2002-11-22 11:11) [23]

Вот ваш код:

procedure TForm1.Button1Click(Sender: TObject);
Const StandartDelimiters: array [1..17] of Char = (" ", "!", "@", "(", ")", "-", "|", "\", ";", ":", """, "/", "?", ".", ">", ",", "<");
Var t:Integer;
Str:TStringList;
begin
Str:=TStringList.Create;
With Str Do
try
Text:=Edit1.Text;
For t:=1 to 17 Do Text:=StringReplace(Text,StandartDelimiters[t],#13#10,[rfReplaceAll]);
For t:=Count-1 downto 0 Do IF Trim(Strings[t])="" then Delete(t);
Memo1.Lines.Assign(Str);
ShowMessage("В строке "+IntToStr(Count)+ " слов.");
finally
Free;
end;
end;


Он работет правильно. Вот так и надо было сразу писать. И честно говоря перед тем, как что-либо выложить на форум НАДО проверять на работоспособность, так даже простая описка приведет к хотя бы к тому, что вас будут считать не компетентным.


 
Song ©   (2002-11-22 11:17) [24]

Я предпочитаю, чтобы люди учились программировать, а не брали всё готовое. Поэтому лучше дать человеку научиться, чем сразу ему дать работающий код. Последний он вставит в программу и забудет даже про него, не говоря уж о том, чтобы разобраться чего он делает. Это я Вам говорю по опыту.

>>..так даже простая описка приведет к хотя бы к тому, что вас будут считать не компетентным.
Это вряд ли. Но у Вас может быть своё личное мнение.


 
]?°’???   (2002-11-22 11:18) [25]

>Separator © (22.11.02 10:47)
>А лучше напишите в данном форуме, что я сделал неправильно?


For t:=0 to High(StandartDelimiters)-1 Do
ListBox2.Items.Text:=StringReplace(ListBox1.Items.Strings[ListBox1.ItemIndex],StandartDelimiters[t],#13#10,[rfReplaceAll]);

просто индекс списка тут ни при чем, нужно было так

ListBox2.Items.Text:=StringReplace(ListBox1.Items.Text,StandartDelimiters[t],#13#10,[rfReplaceAll]);


 
Separator ©   (2002-11-22 11:32) [26]


> ]?°’??? (22.11.02 11:18)

Просто я хотел, чтоб разбивалась конкретная строка, а не весь текст.


> Song © (22.11.02 11:17)
Не знаю как все, но я прежде чем использовать взятый где-либо код полностью разбираюсь как он работает. Кстати мой метод работает на порядок быстрее :)


 
Anatoly Podgoretsky ©   (2002-11-22 11:33) [27]

Separator © (22.11.02 10:47)
Как минимум это, нарушение границ индексов и также это означает, что у тебя отключена проверка диапазона в компиляторе.

StandartDelimiters: array [ 1..17] of Char =

For t:= 0 to High(StandartDelimiters)-1 Do

Надо

For t := Low(StandartDelimiters) to High(StandartDelimiters) Do

У Song объявлено array of Char, а у тебя array [1..17]
У него тоже мелкая ошибка High(StandartDelimiters)-1 не отработает разделитель "<", а у тебя серьезная.
Мораль: не выключай проверку диапазона или совсем или пока полностью не отладишь программ и не научишься писать безопасный код, в данном случае это использование Low и High

Для борьбы с множественным разделителями, надо после развиения удалить пустые строки из списка

P.S. И хотелось бы, что бы дисккуссии велись прилично, без переходов на личности, не добавляйте работы модераторам.


 
]?°’???   (2002-11-22 11:36) [28]

>конкретная строка
ListBox2.Items.Text явно не одна строка


 
Игорь Шевченко ©   (2002-11-22 11:40) [29]

RXLib, однако...


function WordCount(const S: string; const WordDelims: TCharSet): Integer;
var
SLen, I: Cardinal;
begin
Result := 0;
I := 1;
SLen := Length(S);
while I <= SLen do begin
while (I <= SLen) and (S[I] in WordDelims) do Inc(I);
if I <= SLen then Inc(Result);

while (I <= SLen) and not(S[I] in WordDelims) do Inc(I);
end;
end;


 
Separator ©   (2002-11-22 11:41) [30]


> Anatoly Podgoretsky © (22.11.02 11:33)

Полностью согласен, я не доглядел.


 
Игорь Шевченко ©   (2002-11-22 11:42) [31]

Дла файла "любого размера" аналогичная процедура делается через FileMapping и замену String в функции на PChar...


 
Separator ©   (2002-11-22 11:58) [32]


> Игорь Шевченко © (22.11.02 11:40)
Не знаю конкретно в чем дело, но у меня в тексте 2253 слова WordCount выдает 2230, функция Song и моя функция выдают 2253


 
Игорь Шевченко ©   (2002-11-22 12:16) [33]

Separator © (22.11.02 11:58)

Текст и вызов функции в студию ? :-)


 
Separator ©   (2002-11-22 12:33) [34]

type
TCharSet = set of Char;

var
StandartDelimiters: TCharSet = [" ", "!", "@", "(", ")", "-", "|", "\", ";", ":", """, "/", "?", ".", ">", ",", "<"];


function WordCount(const S: string; const WordDelims: TCharSet): Integer;
var
SLen, I: Cardinal;
begin
Result := 0;
I := 1;
SLen := Length(S);
while I <= SLen do begin
while (I <= SLen) and (S[I] in WordDelims) do Inc(I);
if I <= SLen then Inc(Result);

while (I <= SLen) and not(S[I] in WordDelims) do Inc(I);
end;
end;

procedure TForm1.Button4Click(Sender: TObject);
var
i: integer;

begin
i := WordCount(ListBox1.Items.Strings[ListBox1.ItemIndex], spUtils.StandartDelimiters);
ShowMessage(IntToStr(i));
end;

А текст приводит бесполезно, я просто запихал в ListBox несколько текстовых файлов, короче просто набор слов


 
Separator ©   (2002-11-22 12:39) [35]

Ошибка.
i := WordCount(ListBox1.Items.Text, spUtils.StandartDelimiters);


 
Игорь Шевченко ©   (2002-11-22 12:40) [36]

procedure TForm1.Button1Click(Sender: TObject);
begin
ShowMessageFmt("Слов: %d", [WordCount(Memo1.Lines.Text, [" ",","])]);
end;

Содержимое мемо:
"А текст приводит бесполезно, я просто запихал в ListBox несколько текстовых файлов, короче просто набор слов".

Результат - 16


 
Separator ©   (2002-11-22 12:50) [37]

Ну так это маленький текст, я подсунул ему тексты нескольких песен Ramstein, если надо могу их привести. Моя функция выдает 1804 слова, а эта функция выдает 1803


 
Song ©   (2002-11-22 12:55) [38]

Separator © (22.11.02 12:50)
Трассировкой пройди :-))


 
valerchik   (2002-11-22 15:01) [39]

Кто знает как подсчитать количество разных слов. Ну что-то вроди этого :

вася 5
купил 23
нашел 2


 
MBo ©   (2002-11-22 15:04) [40]

Заноси их в сортированный StringList, инкрементируя Integer(Objects), если такое слово уже есть



Страницы: 1 2 вся ветка

Текущий архив: 2002.12.05;
Скачать: CL | DM;

Наверх




Память: 0.58 MB
Время: 0.012 c
3-14363
KMZ
2002-11-11 14:30
2002.12.05
Привет всем!, Trigger в MS SQL Server


3-14452
Alex-kosmonavt
2002-11-16 10:12
2002.12.05
импорт-экспорт данных


1-14567
Дмитрий К.К.
2002-11-26 08:16
2002.12.05
Очередной вопрос о создании компонентов в run-time


1-14652
Novichek
2002-11-23 15:03
2002.12.05
выделение строки в StringGrid заданным цветом.


3-14390
Fbist
2002-11-15 13:21
2002.12.05
Привет всем мастерам!