Форум: "Corba";
Текущий архив: 2006.06.25;
Скачать: [xml.tar.bz2];
ВнизIHTMLDocument2 извлечение ссылок с кирилличными символами Найти похожие ветки
← →
VladR (2005-06-28 13:19) [0]Для извлечения ссылок из html - страницы я использую IHTMLDocument2 Interface. Записываю текст страницы в документ методом IHTMLDocument2.Write. Пробегая по коллекции элементов, извлекаю все ссылки. Когда ссылка содержит перекодированные кирилличные символы (Например: dmoz.org/World/Russian/%d0%9a%d0%be%d0%bc%d0%bf%d1%8c%d1%8e%d1%82%d0%b5%d1%80%...), то IHTMLDocument как-то по своему ее перекодирует, в результате чего получается что-то такое: dmoz.org/World/Russian/????????N?N?N??µN?N?/?˜??N??µN????µN?/.
Может кто то знает как с этим бороться.
← →
doomguy (2005-07-11 20:25) [1]Знаем и боремся. Строка с вопросительными знаками в UTF-8, если я тут ошибаюсь ( не работал с IHTMLDocument2, но столкнулся с этим когда писал на Delphi веб-сервер ) , то преобразования из hex вида %20%D0.... выдадут UTF-8, а дальше уже можно пользовать WinAPI, или встроенные в Delphi обертки к этим ф-ям ( UTF8ToAnsi, например ).
Главное терпение и упорство, ну и смекалки немного ;-)
Страницы: 1 вся ветка
Форум: "Corba";
Текущий архив: 2006.06.25;
Скачать: [xml.tar.bz2];
Память: 0.44 MB
Время: 0.01 c