Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2005.09.18;
Скачать: CL | DM;

Вниз

Как узнать в какой кодировке находится текст в файле.   Найти похожие ветки 

 
VID ©   (2005-08-26 11:52) [0]

Файл - *.txt.
Обычный текстовый файл, в котором текст может храниться в любой из кодировок.

Я хочу написать функцию которая текст из любой кодировки переведет в ANSI. Но для этого нужно знать кодировку исходного текста. А как это 100% узнать ?


 
Anatoly Podgoretsky ©   (2005-08-26 11:58) [1]

Статистический анализ, при условии знания языка, иначе вообще очень сложно.
Функция перевода простая, это просто цикл по строке
for I := 1 to Length(S) do
  S[I] := CvtTable[S[I]];


 
Alexander Panov ©   (2005-08-26 11:58) [2]

Узнать можно, проанализировав частоту, с которой появляются в тексте символы.
Но если нет необходимого объема для анализа - тогда никак.


 
Игорь Шевченко ©   (2005-08-26 11:58) [3]

Никак


 
Leonid Troyanovsky ©   (2005-08-26 12:27) [4]


> VID ©   (26.08.05 11:52)  

> переведет в ANSI. Но для этого нужно знать кодировку исходного
> текста. А как это 100% узнать ?


На 100% - нельзя.
Можно - с заданной вероятностью (при условии достаточности
длины текста).
Анализируются частота сочетаний символов: 2, 3 и т.д.
характерные для предполагаемого языка.
Пример можно найти на сайте Анатолия Подгорецкого,
в сборнике факов.

--
Regards, LVT.


 
имя   (2005-08-26 12:43) [5]

Удалено модератором


 
имя   (2005-08-26 12:56) [6]

Удалено модератором


 
Наиль ©   (2005-08-26 14:06) [7]

Делай как все. Предложи варианты расшифровки пользователю, а уж он разберётся.



Страницы: 1 вся ветка

Текущий архив: 2005.09.18;
Скачать: CL | DM;

Наверх




Память: 0.48 MB
Время: 0.062 c
4-1122246995
timon84
2005-07-25 03:16
2005.09.18
Отловить нажатие кнопки пуск


3-1123140957
-=snoop=-
2005-08-04 11:35
2005.09.18
и все же, как правильно работать с 866 страницей через ADO


5-1099825350
проходящий мимо
2004-11-07 14:02
2005.09.18
компонент на основе edit


6-1116938459
redlord
2005-05-24 16:40
2005.09.18
как засеч отключение удаленного компа


10-1102629822
turonix
2004-12-10 01:03
2005.09.18
Создание Excel файла