Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2012.02.12;
Скачать: CL | DM;

Вниз

Паук(spider) для обработки ХТМЛ-страниц. TWebbrowser или INDY?   Найти похожие ветки 

 
Pcrepair ©   (2011-10-13 08:22) [0]

Добрый день
Что известно:
1. компонент TWebBrowser может загрузить, обработать код (JavaScript и прочее ФЛЭШ)  и отобразить страницу
2. для паука отображать страницу в общем ни к чему, кроме отдельных случаев (визуальный контроль оператором), картинки, флэш тоже не нужны, JavaScript обрабатывать нужно во многих случаях, еще нужно в автомате вставлять логины-пароли и отправлять их сервер(кнопочку нажимать). в общем все что нужно - оставить текст со ссылками (УРЛ) и сохранить табличную структуру страницы - чтоб не куча букв

Вопрос
Можно ли средствами INDY10 и RAD2010 сделать следующее (и будет ли это лучше - стабильнее, правильнее идеологически):
1. загрузить код ХТМЛ-страницы по заданному УРЛ
2. обработать JavaScrtipt и ввести результаты обработки в страницу
3. удалить все лишнее (флеш, картинки, фреймы, дивы), оставить только таблицы, текст, ссылки с привязкой к тексту (теги соответсвующие)
4. отобразить на РИЧЕДИТ? документ (для контроля результата)
5. вставлять логины-пароли и отправлять их на сервер

Если у кого есть примеры кода, дайте посмотреть. Заранее спасибо


 
Cobalt ©   (2011-10-13 10:11) [1]

А как имя веб-сервера, на который будет лазить этот паук?


 
Сергей М. ©   (2011-10-13 10:17) [2]


> Можно ли средствами INDY10


1,5 - Да.
Остальное - нет. Ибо это специфически прикладные дела, не входящие в компетенцию собственно индейского http-клиента.


 
Pcrepair ©   (2011-10-13 13:26) [3]


> А как имя веб-сервера, на который будет лазить этот паук

имя - интернет


> Остальное - нет. Ибо это специфически прикладные дела, не
> входящие в компетенцию собственно индейского http-клиента.
>

это понятно, но как скрипты выполнять не в TWebbrowser? и все остальное, это в принципе возможно, по простому. или обязательно нужно какой то движок подключать - гекко или там от хрома


 
Медвежонок Пятачок ©   (2011-10-13 13:29) [4]

интерпретировать скрипты это только половина.
потребуется еще строить дом и так далее.
в общем это будет еще один браузер, только без визуализации.


 
Сергей М. ©   (2011-10-13 13:51) [5]


> как скрипты выполнять не в TWebbrowser?


Например, средствами MSScript.ScriptControl.
Но без построенной так или иначе DOM интерпретация будет бессмысленна.


> обязательно нужно какой то движок подключать - гекко или
> там от хрома


Необязательно если у тебя хватит знаний и сил самостоятельно реализовать большую часть функциональности движка.


 
Pcrepair ©   (2011-10-13 14:07) [6]


> интерпретировать скрипты это только половина.
> потребуется еще строить дом и так далее.
> в общем это будет еще один браузер, только без визуализации.
>

вот, вот - приблизительно то что нужно
никто такого кода не видел?


 
b z   (2011-10-13 14:11) [7]

Кругом, куда не плюнь.


 
Сергей М. ©   (2011-10-13 14:38) [8]


> браузер, только без визуализации.
> приблизительно то что нужно


А как же насчет


> отдельных случаев (визуальный контроль оператором)


?

Два разных браузера у себя в программе будешь окучивать - один без, другой с визуализацией ?

Не жирно будет ?)


 
Pcrepair ©   (2011-10-13 14:49) [9]

lда нет, просто на этапе отладки нужно смотреть что там получается, а вообще опция отображения содержимого страницы не нужна


 
Anatoly Podgoretsky ©   (2011-10-13 15:32) [10]

> Сергей М.  (13.10.2011 13:51:05)  [5]

Он вообще то далее кода хочет, а для этого уже знания и ум лишнее.
Написать полноценный движок, это несколько лет. Придется реализовывать кучу
скриптовых движков и многое другое.


 
Омлет ©   (2011-10-13 15:52) [11]

Почему именно Delphi?
Вот есть, к примеру, на Java - http://htmlunit.sourceforge.net/


 
OW ©   (2011-10-13 15:55) [12]

WebBrowser1.Hide ? :)


 
БезымянныйСтудент   (2011-11-02 11:10) [13]

> Можно ли средствами INDY10 и RAD2010 сделать следующее

1, 3, 4 и 5 можно легко... С 2 могут возникнуть известные проблемы...
Мне тоже подскажите хоть какой-то JavaScrtipt-интерпритатор, если кто знает... =(


 
oldman ©   (2011-11-02 11:16) [14]


> 3. удалить все лишнее (флеш, картинки, фреймы, дивы), оставить
> только таблицы, текст, ссылки


а какой критерий "лишности"?


 
Медвежонок Пятачок ©   (2011-11-02 12:02) [15]

судя по тому, что дивы для него - это лишнее, то там вообще все лишнее, что было сверстано не сто лет назад



Страницы: 1 вся ветка

Текущий архив: 2012.02.12;
Скачать: CL | DM;

Наверх




Память: 0.5 MB
Время: 0.01 c
15-1319362763
sniknik
2011-10-23 13:39
2012.02.12
Вопрос админам по nginx с ssl...


1-1285829771
VladM
2010-09-30 10:56
2012.02.12
Замена string ресурсов в runtime


15-1319444691
Фокс Йожин
2011-10-24 12:24
2012.02.12
Странные тормоза при загрузке Windows XP


15-1319708929
Kerk
2011-10-27 13:48
2012.02.12
FireMonkey Webinar Announced


15-1319401805
Юрий
2011-10-24 00:30
2012.02.12
С днем рождения ! 24 октября 2011 понедельник