Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2012.02.12;
Скачать: CL | DM;

Вниз

Паук(spider) для обработки ХТМЛ-страниц. TWebbrowser или INDY?   Найти похожие ветки 

 
Pcrepair ©   (2011-10-13 08:22) [0]

Добрый день
Что известно:
1. компонент TWebBrowser может загрузить, обработать код (JavaScript и прочее ФЛЭШ)  и отобразить страницу
2. для паука отображать страницу в общем ни к чему, кроме отдельных случаев (визуальный контроль оператором), картинки, флэш тоже не нужны, JavaScript обрабатывать нужно во многих случаях, еще нужно в автомате вставлять логины-пароли и отправлять их сервер(кнопочку нажимать). в общем все что нужно - оставить текст со ссылками (УРЛ) и сохранить табличную структуру страницы - чтоб не куча букв

Вопрос
Можно ли средствами INDY10 и RAD2010 сделать следующее (и будет ли это лучше - стабильнее, правильнее идеологически):
1. загрузить код ХТМЛ-страницы по заданному УРЛ
2. обработать JavaScrtipt и ввести результаты обработки в страницу
3. удалить все лишнее (флеш, картинки, фреймы, дивы), оставить только таблицы, текст, ссылки с привязкой к тексту (теги соответсвующие)
4. отобразить на РИЧЕДИТ? документ (для контроля результата)
5. вставлять логины-пароли и отправлять их на сервер

Если у кого есть примеры кода, дайте посмотреть. Заранее спасибо


 
Cobalt ©   (2011-10-13 10:11) [1]

А как имя веб-сервера, на который будет лазить этот паук?


 
Сергей М. ©   (2011-10-13 10:17) [2]


> Можно ли средствами INDY10


1,5 - Да.
Остальное - нет. Ибо это специфически прикладные дела, не входящие в компетенцию собственно индейского http-клиента.


 
Pcrepair ©   (2011-10-13 13:26) [3]


> А как имя веб-сервера, на который будет лазить этот паук

имя - интернет


> Остальное - нет. Ибо это специфически прикладные дела, не
> входящие в компетенцию собственно индейского http-клиента.
>

это понятно, но как скрипты выполнять не в TWebbrowser? и все остальное, это в принципе возможно, по простому. или обязательно нужно какой то движок подключать - гекко или там от хрома


 
Медвежонок Пятачок ©   (2011-10-13 13:29) [4]

интерпретировать скрипты это только половина.
потребуется еще строить дом и так далее.
в общем это будет еще один браузер, только без визуализации.


 
Сергей М. ©   (2011-10-13 13:51) [5]


> как скрипты выполнять не в TWebbrowser?


Например, средствами MSScript.ScriptControl.
Но без построенной так или иначе DOM интерпретация будет бессмысленна.


> обязательно нужно какой то движок подключать - гекко или
> там от хрома


Необязательно если у тебя хватит знаний и сил самостоятельно реализовать большую часть функциональности движка.


 
Pcrepair ©   (2011-10-13 14:07) [6]


> интерпретировать скрипты это только половина.
> потребуется еще строить дом и так далее.
> в общем это будет еще один браузер, только без визуализации.
>

вот, вот - приблизительно то что нужно
никто такого кода не видел?


 
b z   (2011-10-13 14:11) [7]

Кругом, куда не плюнь.


 
Сергей М. ©   (2011-10-13 14:38) [8]


> браузер, только без визуализации.
> приблизительно то что нужно


А как же насчет


> отдельных случаев (визуальный контроль оператором)


?

Два разных браузера у себя в программе будешь окучивать - один без, другой с визуализацией ?

Не жирно будет ?)


 
Pcrepair ©   (2011-10-13 14:49) [9]

lда нет, просто на этапе отладки нужно смотреть что там получается, а вообще опция отображения содержимого страницы не нужна


 
Anatoly Podgoretsky ©   (2011-10-13 15:32) [10]

> Сергей М.  (13.10.2011 13:51:05)  [5]

Он вообще то далее кода хочет, а для этого уже знания и ум лишнее.
Написать полноценный движок, это несколько лет. Придется реализовывать кучу
скриптовых движков и многое другое.


 
Омлет ©   (2011-10-13 15:52) [11]

Почему именно Delphi?
Вот есть, к примеру, на Java - http://htmlunit.sourceforge.net/


 
OW ©   (2011-10-13 15:55) [12]

WebBrowser1.Hide ? :)


 
БезымянныйСтудент   (2011-11-02 11:10) [13]

> Можно ли средствами INDY10 и RAD2010 сделать следующее

1, 3, 4 и 5 можно легко... С 2 могут возникнуть известные проблемы...
Мне тоже подскажите хоть какой-то JavaScrtipt-интерпритатор, если кто знает... =(


 
oldman ©   (2011-11-02 11:16) [14]


> 3. удалить все лишнее (флеш, картинки, фреймы, дивы), оставить
> только таблицы, текст, ссылки


а какой критерий "лишности"?


 
Медвежонок Пятачок ©   (2011-11-02 12:02) [15]

судя по тому, что дивы для него - это лишнее, то там вообще все лишнее, что было сверстано не сто лет назад



Страницы: 1 вся ветка

Текущий архив: 2012.02.12;
Скачать: CL | DM;

Наверх




Память: 0.5 MB
Время: 0.011 c
3-1271684993
Lyudik
2010-04-19 17:49
2012.02.12
Значения первой и последней строк выделенного диапазона DBGridEh


6-1250528504
sniknik
2009-08-17 21:01
2012.02.12
Генерация файлов для получения сертификата (SSL)


2-1320135606
onyx2012
2011-11-01 11:20
2012.02.12
Фильтр в Express Quantum Grid


10-1177068721
Сергей М.
2007-04-20 15:32
2012.02.12
Visual FoxPro Run-Time Library (vfpXX.dll)


15-1319747403
Юрий
2011-10-28 00:30
2012.02.12
С днем рождения ! 28 октября 2011 пятница