Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2005.09.18;
Скачать: CL | DM;

Вниз

Как узнать в какой кодировке находится текст в файле.   Найти похожие ветки 

 
VID ©   (2005-08-26 11:52) [0]

Файл - *.txt.
Обычный текстовый файл, в котором текст может храниться в любой из кодировок.

Я хочу написать функцию которая текст из любой кодировки переведет в ANSI. Но для этого нужно знать кодировку исходного текста. А как это 100% узнать ?


 
Anatoly Podgoretsky ©   (2005-08-26 11:58) [1]

Статистический анализ, при условии знания языка, иначе вообще очень сложно.
Функция перевода простая, это просто цикл по строке
for I := 1 to Length(S) do
  S[I] := CvtTable[S[I]];


 
Alexander Panov ©   (2005-08-26 11:58) [2]

Узнать можно, проанализировав частоту, с которой появляются в тексте символы.
Но если нет необходимого объема для анализа - тогда никак.


 
Игорь Шевченко ©   (2005-08-26 11:58) [3]

Никак


 
Leonid Troyanovsky ©   (2005-08-26 12:27) [4]


> VID ©   (26.08.05 11:52)  

> переведет в ANSI. Но для этого нужно знать кодировку исходного
> текста. А как это 100% узнать ?


На 100% - нельзя.
Можно - с заданной вероятностью (при условии достаточности
длины текста).
Анализируются частота сочетаний символов: 2, 3 и т.д.
характерные для предполагаемого языка.
Пример можно найти на сайте Анатолия Подгорецкого,
в сборнике факов.

--
Regards, LVT.


 
имя   (2005-08-26 12:43) [5]

Удалено модератором


 
имя   (2005-08-26 12:56) [6]

Удалено модератором


 
Наиль ©   (2005-08-26 14:06) [7]

Делай как все. Предложи варианты расшифровки пользователю, а уж он разберётся.



Страницы: 1 вся ветка

Текущий архив: 2005.09.18;
Скачать: CL | DM;

Наверх




Память: 0.45 MB
Время: 0.009 c
2-1123688945
pasha_golub
2005-08-10 19:49
2005.09.18
FreePascal


3-1122989873
Oleg_S
2005-08-02 17:37
2005.09.18
BDEADMIN виснет


2-1123689288
Klopan
2005-08-10 19:54
2005.09.18
TQuery


14-1125043833
Ega23
2005-08-26 12:10
2005.09.18
Как настроить Word, чтобы он не выпендривался?


2-1123700068
Vir
2005-08-10 22:54
2005.09.18
Hint





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский