Форум: "Начинающим";
Текущий архив: 2012.02.12;
Скачать: [xml.tar.bz2];
ВнизПаук(spider) для обработки ХТМЛ-страниц. TWebbrowser или INDY? Найти похожие ветки
← →
Pcrepair © (2011-10-13 08:22) [0]Добрый день
Что известно:
1. компонент TWebBrowser может загрузить, обработать код (JavaScript и прочее ФЛЭШ) и отобразить страницу
2. для паука отображать страницу в общем ни к чему, кроме отдельных случаев (визуальный контроль оператором), картинки, флэш тоже не нужны, JavaScript обрабатывать нужно во многих случаях, еще нужно в автомате вставлять логины-пароли и отправлять их сервер(кнопочку нажимать). в общем все что нужно - оставить текст со ссылками (УРЛ) и сохранить табличную структуру страницы - чтоб не куча букв
Вопрос
Можно ли средствами INDY10 и RAD2010 сделать следующее (и будет ли это лучше - стабильнее, правильнее идеологически):
1. загрузить код ХТМЛ-страницы по заданному УРЛ
2. обработать JavaScrtipt и ввести результаты обработки в страницу
3. удалить все лишнее (флеш, картинки, фреймы, дивы), оставить только таблицы, текст, ссылки с привязкой к тексту (теги соответсвующие)
4. отобразить на РИЧЕДИТ? документ (для контроля результата)
5. вставлять логины-пароли и отправлять их на сервер
Если у кого есть примеры кода, дайте посмотреть. Заранее спасибо
← →
Cobalt © (2011-10-13 10:11) [1]А как имя веб-сервера, на который будет лазить этот паук?
← →
Сергей М. © (2011-10-13 10:17) [2]
> Можно ли средствами INDY10
1,5 - Да.
Остальное - нет. Ибо это специфически прикладные дела, не входящие в компетенцию собственно индейского http-клиента.
← →
Pcrepair © (2011-10-13 13:26) [3]
> А как имя веб-сервера, на который будет лазить этот паук
имя - интернет
> Остальное - нет. Ибо это специфически прикладные дела, не
> входящие в компетенцию собственно индейского http-клиента.
>
это понятно, но как скрипты выполнять не в TWebbrowser? и все остальное, это в принципе возможно, по простому. или обязательно нужно какой то движок подключать - гекко или там от хрома
← →
Медвежонок Пятачок © (2011-10-13 13:29) [4]интерпретировать скрипты это только половина.
потребуется еще строить дом и так далее.
в общем это будет еще один браузер, только без визуализации.
← →
Сергей М. © (2011-10-13 13:51) [5]
> как скрипты выполнять не в TWebbrowser?
Например, средствами MSScript.ScriptControl.
Но без построенной так или иначе DOM интерпретация будет бессмысленна.
> обязательно нужно какой то движок подключать - гекко или
> там от хрома
Необязательно если у тебя хватит знаний и сил самостоятельно реализовать большую часть функциональности движка.
← →
Pcrepair © (2011-10-13 14:07) [6]
> интерпретировать скрипты это только половина.
> потребуется еще строить дом и так далее.
> в общем это будет еще один браузер, только без визуализации.
>
вот, вот - приблизительно то что нужно
никто такого кода не видел?
← →
b z (2011-10-13 14:11) [7]Кругом, куда не плюнь.
← →
Сергей М. © (2011-10-13 14:38) [8]
> браузер, только без визуализации.
> приблизительно то что нужно
А как же насчет
> отдельных случаев (визуальный контроль оператором)
?
Два разных браузера у себя в программе будешь окучивать - один без, другой с визуализацией ?
Не жирно будет ?)
← →
Pcrepair © (2011-10-13 14:49) [9]lда нет, просто на этапе отладки нужно смотреть что там получается, а вообще опция отображения содержимого страницы не нужна
← →
Anatoly Podgoretsky © (2011-10-13 15:32) [10]> Сергей М. (13.10.2011 13:51:05) [5]
Он вообще то далее кода хочет, а для этого уже знания и ум лишнее.
Написать полноценный движок, это несколько лет. Придется реализовывать кучу
скриптовых движков и многое другое.
← →
Омлет © (2011-10-13 15:52) [11]Почему именно Delphi?
Вот есть, к примеру, на Java - http://htmlunit.sourceforge.net/
← →
OW © (2011-10-13 15:55) [12]WebBrowser1.Hide ? :)
← →
БезымянныйСтудент (2011-11-02 11:10) [13]> Можно ли средствами INDY10 и RAD2010 сделать следующее
1, 3, 4 и 5 можно легко... С 2 могут возникнуть известные проблемы...
Мне тоже подскажите хоть какой-то JavaScrtipt-интерпритатор, если кто знает... =(
← →
oldman © (2011-11-02 11:16) [14]
> 3. удалить все лишнее (флеш, картинки, фреймы, дивы), оставить
> только таблицы, текст, ссылки
а какой критерий "лишности"?
← →
Медвежонок Пятачок © (2011-11-02 12:02) [15]судя по тому, что дивы для него - это лишнее, то там вообще все лишнее, что было сверстано не сто лет назад
Страницы: 1 вся ветка
Форум: "Начинающим";
Текущий архив: 2012.02.12;
Скачать: [xml.tar.bz2];
Память: 0.48 MB
Время: 0.004 c