Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2006.06.25;
Скачать: CL | DM;

Вниз

IHTMLDocument2 извлечение ссылок с кирилличными символами   Найти похожие ветки 

 
VladR   (2005-06-28 13:19) [0]

Для извлечения ссылок из html - страницы я использую IHTMLDocument2 Interface. Записываю текст страницы в документ методом IHTMLDocument2.Write. Пробегая по коллекции элементов, извлекаю все ссылки. Когда ссылка содержит перекодированные кирилличные символы (Например: dmoz.org/World/Russian/%d0%9a%d0%be%d0%bc%d0%bf%d1%8c%d1%8e%d1%82%d0%b5%d1%80%...), то IHTMLDocument как-то по своему ее перекодирует, в результате чего получается что-то такое: dmoz.org/World/Russian/????????N?N?N??µN?N?/?˜??N??µN????µN?/.
Может кто то знает как с этим бороться.


 
doomguy   (2005-07-11 20:25) [1]

Знаем и боремся. Строка с вопросительными знаками в UTF-8, если я тут ошибаюсь ( не работал с IHTMLDocument2, но столкнулся с этим когда писал на Delphi веб-сервер ) , то преобразования из hex вида %20%D0.... выдадут UTF-8, а дальше уже можно пользовать WinAPI, или встроенные в Delphi обертки к этим ф-ям ( UTF8ToAnsi, например ).

Главное терпение и упорство, ну и смекалки немного ;-)



Страницы: 1 вся ветка

Текущий архив: 2006.06.25;
Скачать: CL | DM;

Наверх




Память: 0.46 MB
Время: 0.069 c
3-1146564654
wirg
2006-05-02 14:10
2006.06.25
Помогите с кавычками


4-1143484952
Eraser
2006-03-27 22:42
2006.06.25
Crypto API и многопоточность


3-1146298835
John Magic
2006-04-29 12:20
2006.06.25
автоматическая нумерация строк в DBGrid


2-1149490302
novice
2006-06-05 10:51
2006.06.25
Контроль работы приложения на уд. компе


5-1133960555
ra4fcr
2005-12-07 16:02
2006.06.25
Картинка на BitBtn