Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Форум: "Corba";
Текущий архив: 2006.06.25;
Скачать: [xml.tar.bz2];

Вниз

IHTMLDocument2 извлечение ссылок с кирилличными символами   Найти похожие ветки 

 
VladR   (2005-06-28 13:19) [0]

Для извлечения ссылок из html - страницы я использую IHTMLDocument2 Interface. Записываю текст страницы в документ методом IHTMLDocument2.Write. Пробегая по коллекции элементов, извлекаю все ссылки. Когда ссылка содержит перекодированные кирилличные символы (Например: dmoz.org/World/Russian/%d0%9a%d0%be%d0%bc%d0%bf%d1%8c%d1%8e%d1%82%d0%b5%d1%80%...), то IHTMLDocument как-то по своему ее перекодирует, в результате чего получается что-то такое: dmoz.org/World/Russian/????????N?N?N??µN?N?/?˜??N??µN????µN?/.
Может кто то знает как с этим бороться.


 
doomguy   (2005-07-11 20:25) [1]

Знаем и боремся. Строка с вопросительными знаками в UTF-8, если я тут ошибаюсь ( не работал с IHTMLDocument2, но столкнулся с этим когда писал на Delphi веб-сервер ) , то преобразования из hex вида %20%D0.... выдадут UTF-8, а дальше уже можно пользовать WinAPI, или встроенные в Delphi обертки к этим ф-ям ( UTF8ToAnsi, например ).

Главное терпение и упорство, ну и смекалки немного ;-)



Страницы: 1 вся ветка

Форум: "Corba";
Текущий архив: 2006.06.25;
Скачать: [xml.tar.bz2];

Наверх




Память: 0.44 MB
Время: 0.009 c
2-1149684223
UniCode
2006-06-07 16:43
2006.06.25
Помогите разобраться с Captions на Unicode


3-1146241531
Galiaf
2006-04-28 20:25
2006.06.25
Переместить указатель.


15-1149059299
boriskb
2006-05-31 11:08
2006.06.25
Студенты, вас еще не напрягают?


15-1149153411
Shaman_
2006-06-01 13:16
2006.06.25
Написал утилиту. Прошу помочь в тестировании


2-1149559496
Василий
2006-06-06 06:04
2006.06.25
Прозрачность Textout





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский