Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2006.06.25;
Скачать: CL | DM;

Вниз

IHTMLDocument2 извлечение ссылок с кирилличными символами   Найти похожие ветки 

 
VladR   (2005-06-28 13:19) [0]

Для извлечения ссылок из html - страницы я использую IHTMLDocument2 Interface. Записываю текст страницы в документ методом IHTMLDocument2.Write. Пробегая по коллекции элементов, извлекаю все ссылки. Когда ссылка содержит перекодированные кирилличные символы (Например: dmoz.org/World/Russian/%d0%9a%d0%be%d0%bc%d0%bf%d1%8c%d1%8e%d1%82%d0%b5%d1%80%...), то IHTMLDocument как-то по своему ее перекодирует, в результате чего получается что-то такое: dmoz.org/World/Russian/????????N?N?N??µN?N?/?˜??N??µN????µN?/.
Может кто то знает как с этим бороться.


 
doomguy   (2005-07-11 20:25) [1]

Знаем и боремся. Строка с вопросительными знаками в UTF-8, если я тут ошибаюсь ( не работал с IHTMLDocument2, но столкнулся с этим когда писал на Delphi веб-сервер ) , то преобразования из hex вида %20%D0.... выдадут UTF-8, а дальше уже можно пользовать WinAPI, или встроенные в Delphi обертки к этим ф-ям ( UTF8ToAnsi, например ).

Главное терпение и упорство, ну и смекалки немного ;-)



Страницы: 1 вся ветка

Текущий архив: 2006.06.25;
Скачать: CL | DM;

Наверх




Память: 0.46 MB
Время: 0.169 c
9-1131388711
2Wish
2005-11-07 21:38
2006.06.25
Как ограничить FPS


3-1146563364
D@Nger
2006-05-02 13:49
2006.06.25
запрет на редактирование в колонке DBGrid


1-1147776732
konda
2006-05-16 14:52
2006.06.25
Оформление ячеек в Excel


1-1148140579
yahaha
2006-05-20 19:56
2006.06.25
Список доступных шрифтов


2-1149665351
Alex>
2006-06-07 11:29
2006.06.25
TQuery