Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2005.09.18;
Скачать: CL | DM;

Вниз

Как узнать в какой кодировке находится текст в файле.   Найти похожие ветки 

 
VID ©   (2005-08-26 11:52) [0]

Файл - *.txt.
Обычный текстовый файл, в котором текст может храниться в любой из кодировок.

Я хочу написать функцию которая текст из любой кодировки переведет в ANSI. Но для этого нужно знать кодировку исходного текста. А как это 100% узнать ?


 
Anatoly Podgoretsky ©   (2005-08-26 11:58) [1]

Статистический анализ, при условии знания языка, иначе вообще очень сложно.
Функция перевода простая, это просто цикл по строке
for I := 1 to Length(S) do
  S[I] := CvtTable[S[I]];


 
Alexander Panov ©   (2005-08-26 11:58) [2]

Узнать можно, проанализировав частоту, с которой появляются в тексте символы.
Но если нет необходимого объема для анализа - тогда никак.


 
Игорь Шевченко ©   (2005-08-26 11:58) [3]

Никак


 
Leonid Troyanovsky ©   (2005-08-26 12:27) [4]


> VID ©   (26.08.05 11:52)  

> переведет в ANSI. Но для этого нужно знать кодировку исходного
> текста. А как это 100% узнать ?


На 100% - нельзя.
Можно - с заданной вероятностью (при условии достаточности
длины текста).
Анализируются частота сочетаний символов: 2, 3 и т.д.
характерные для предполагаемого языка.
Пример можно найти на сайте Анатолия Подгорецкого,
в сборнике факов.

--
Regards, LVT.


 
имя   (2005-08-26 12:43) [5]

Удалено модератором


 
имя   (2005-08-26 12:56) [6]

Удалено модератором


 
Наиль ©   (2005-08-26 14:06) [7]

Делай как все. Предложи варианты расшифровки пользователю, а уж он разберётся.



Страницы: 1 вся ветка

Текущий архив: 2005.09.18;
Скачать: CL | DM;

Наверх




Память: 0.48 MB
Время: 0.037 c
14-1124458549
Jeer
2005-08-19 17:35
2005.09.18
Снижение пенсионного возраста


8-1115212285
Артём
2005-05-04 17:11
2005.09.18
Как в Listbox сделать нумерацб?


4-1122537737
chili
2005-07-28 12:02
2005.09.18
Изменение частоты обновления экрана ?


1-1124201283
Сашка
2005-08-16 18:08
2005.09.18
поиск по географическим картам


14-1124489428
TG
2005-08-20 02:10
2005.09.18
КОМПИЛЯТОР