Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2005.09.18;
Скачать: CL | DM;

Вниз

Как узнать в какой кодировке находится текст в файле.   Найти похожие ветки 

 
VID ©   (2005-08-26 11:52) [0]

Файл - *.txt.
Обычный текстовый файл, в котором текст может храниться в любой из кодировок.

Я хочу написать функцию которая текст из любой кодировки переведет в ANSI. Но для этого нужно знать кодировку исходного текста. А как это 100% узнать ?


 
Anatoly Podgoretsky ©   (2005-08-26 11:58) [1]

Статистический анализ, при условии знания языка, иначе вообще очень сложно.
Функция перевода простая, это просто цикл по строке
for I := 1 to Length(S) do
  S[I] := CvtTable[S[I]];


 
Alexander Panov ©   (2005-08-26 11:58) [2]

Узнать можно, проанализировав частоту, с которой появляются в тексте символы.
Но если нет необходимого объема для анализа - тогда никак.


 
Игорь Шевченко ©   (2005-08-26 11:58) [3]

Никак


 
Leonid Troyanovsky ©   (2005-08-26 12:27) [4]


> VID ©   (26.08.05 11:52)  

> переведет в ANSI. Но для этого нужно знать кодировку исходного
> текста. А как это 100% узнать ?


На 100% - нельзя.
Можно - с заданной вероятностью (при условии достаточности
длины текста).
Анализируются частота сочетаний символов: 2, 3 и т.д.
характерные для предполагаемого языка.
Пример можно найти на сайте Анатолия Подгорецкого,
в сборнике факов.

--
Regards, LVT.


 
имя   (2005-08-26 12:43) [5]

Удалено модератором


 
имя   (2005-08-26 12:56) [6]

Удалено модератором


 
Наиль ©   (2005-08-26 14:06) [7]

Делай как все. Предложи варианты расшифровки пользователю, а уж он разберётся.



Страницы: 1 вся ветка

Текущий архив: 2005.09.18;
Скачать: CL | DM;

Наверх




Память: 0.48 MB
Время: 0.027 c
14-1124859709
IfBeginThenEnd
2005-08-24 09:01
2005.09.18
Режим ядра


3-1123125294
Andry
2005-08-04 07:14
2005.09.18
Драйвера BDE


1-1124966064
ArtemESC
2005-08-25 14:34
2005.09.18
C++ в Delphi


9-1116444918
PsyhoBlob
2005-05-18 23:35
2005.09.18
найти вектор A->B


1-1124902261
ArtemESC
2005-08-24 20:51
2005.09.18
Активировать Button