Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Форум: "Начинающим";
Текущий архив: 2012.02.12;
Скачать: [xml.tar.bz2];

Вниз

Паук(spider) для обработки ХТМЛ-страниц. TWebbrowser или INDY?   Найти похожие ветки 

 
Pcrepair ©   (2011-10-13 08:22) [0]

Добрый день
Что известно:
1. компонент TWebBrowser может загрузить, обработать код (JavaScript и прочее ФЛЭШ)  и отобразить страницу
2. для паука отображать страницу в общем ни к чему, кроме отдельных случаев (визуальный контроль оператором), картинки, флэш тоже не нужны, JavaScript обрабатывать нужно во многих случаях, еще нужно в автомате вставлять логины-пароли и отправлять их сервер(кнопочку нажимать). в общем все что нужно - оставить текст со ссылками (УРЛ) и сохранить табличную структуру страницы - чтоб не куча букв

Вопрос
Можно ли средствами INDY10 и RAD2010 сделать следующее (и будет ли это лучше - стабильнее, правильнее идеологически):
1. загрузить код ХТМЛ-страницы по заданному УРЛ
2. обработать JavaScrtipt и ввести результаты обработки в страницу
3. удалить все лишнее (флеш, картинки, фреймы, дивы), оставить только таблицы, текст, ссылки с привязкой к тексту (теги соответсвующие)
4. отобразить на РИЧЕДИТ? документ (для контроля результата)
5. вставлять логины-пароли и отправлять их на сервер

Если у кого есть примеры кода, дайте посмотреть. Заранее спасибо


 
Cobalt ©   (2011-10-13 10:11) [1]

А как имя веб-сервера, на который будет лазить этот паук?


 
Сергей М. ©   (2011-10-13 10:17) [2]


> Можно ли средствами INDY10


1,5 - Да.
Остальное - нет. Ибо это специфически прикладные дела, не входящие в компетенцию собственно индейского http-клиента.


 
Pcrepair ©   (2011-10-13 13:26) [3]


> А как имя веб-сервера, на который будет лазить этот паук

имя - интернет


> Остальное - нет. Ибо это специфически прикладные дела, не
> входящие в компетенцию собственно индейского http-клиента.
>

это понятно, но как скрипты выполнять не в TWebbrowser? и все остальное, это в принципе возможно, по простому. или обязательно нужно какой то движок подключать - гекко или там от хрома


 
Медвежонок Пятачок ©   (2011-10-13 13:29) [4]

интерпретировать скрипты это только половина.
потребуется еще строить дом и так далее.
в общем это будет еще один браузер, только без визуализации.


 
Сергей М. ©   (2011-10-13 13:51) [5]


> как скрипты выполнять не в TWebbrowser?


Например, средствами MSScript.ScriptControl.
Но без построенной так или иначе DOM интерпретация будет бессмысленна.


> обязательно нужно какой то движок подключать - гекко или
> там от хрома


Необязательно если у тебя хватит знаний и сил самостоятельно реализовать большую часть функциональности движка.


 
Pcrepair ©   (2011-10-13 14:07) [6]


> интерпретировать скрипты это только половина.
> потребуется еще строить дом и так далее.
> в общем это будет еще один браузер, только без визуализации.
>

вот, вот - приблизительно то что нужно
никто такого кода не видел?


 
b z   (2011-10-13 14:11) [7]

Кругом, куда не плюнь.


 
Сергей М. ©   (2011-10-13 14:38) [8]


> браузер, только без визуализации.
> приблизительно то что нужно


А как же насчет


> отдельных случаев (визуальный контроль оператором)


?

Два разных браузера у себя в программе будешь окучивать - один без, другой с визуализацией ?

Не жирно будет ?)


 
Pcrepair ©   (2011-10-13 14:49) [9]

lда нет, просто на этапе отладки нужно смотреть что там получается, а вообще опция отображения содержимого страницы не нужна


 
Anatoly Podgoretsky ©   (2011-10-13 15:32) [10]

> Сергей М.  (13.10.2011 13:51:05)  [5]

Он вообще то далее кода хочет, а для этого уже знания и ум лишнее.
Написать полноценный движок, это несколько лет. Придется реализовывать кучу
скриптовых движков и многое другое.


 
Омлет ©   (2011-10-13 15:52) [11]

Почему именно Delphi?
Вот есть, к примеру, на Java - http://htmlunit.sourceforge.net/


 
OW ©   (2011-10-13 15:55) [12]

WebBrowser1.Hide ? :)


 
БезымянныйСтудент   (2011-11-02 11:10) [13]

> Можно ли средствами INDY10 и RAD2010 сделать следующее

1, 3, 4 и 5 можно легко... С 2 могут возникнуть известные проблемы...
Мне тоже подскажите хоть какой-то JavaScrtipt-интерпритатор, если кто знает... =(


 
oldman ©   (2011-11-02 11:16) [14]


> 3. удалить все лишнее (флеш, картинки, фреймы, дивы), оставить
> только таблицы, текст, ссылки


а какой критерий "лишности"?


 
Медвежонок Пятачок ©   (2011-11-02 12:02) [15]

судя по тому, что дивы для него - это лишнее, то там вообще все лишнее, что было сверстано не сто лет назад



Страницы: 1 вся ветка

Форум: "Начинающим";
Текущий архив: 2012.02.12;
Скачать: [xml.tar.bz2];

Наверх





Память: 0.48 MB
Время: 0.004 c
10-1177068721
Сергей М.
2007-04-20 15:32
2012.02.12
Visual FoxPro Run-Time Library (vfpXX.dll)


2-1319994931
ProgRAMmer Dimonych
2011-10-30 20:15
2012.02.12
recv() с таймаутом


2-1320472669
defen2204
2011-11-05 08:57
2012.02.12
представление файла в байтовом виде


15-1319683450
brother
2011-10-27 06:44
2012.02.12
что означает %5 в поле POST запроса?


15-1316061929
P
2011-09-15 08:45
2012.02.12
Windows 8 Developer Preview





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский