Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2002.08.26;
Скачать: CL | DM;

Вниз

Подскажите алгоритм.   Найти похожие ветки 

 
DenKop ©   (2002-06-13 20:17) [0]

Подскажите пожалуйста алгоритм работы программ по сбору Email адресов.

Попробовал по следующему алгоритму:
1) Закачивается страничка, заданная пользователем;
2) Написал функции по извлечению Email адресов и ссылок из строки;
3) Из HTML кода построкового читаю строки и вытаскиваю все ссылки и Email;
4) Ссылки помещаются в TStringList, для последующего перебора
4) Затем беру первый из полученных ранее URL(TStringList) и сохраняю его в файл на диск;
5) Анализирую HTML код полученного файла и опять же собираю в нём все ссылки и Email;

Цикл работает до тех пор пока пользователь не остановит его. Все найденные ссылки
хранятся в TStringList. Производится проверка на повтор, чтобы не кувыркать одни и
те же странички по несколько раз. Из списка ссылки выбираются поочерёдно.
Самый главный недостаток этого алгоритма состоит в очень низкой производительности.
Уж больно много времени уходит на сохранение файлов, в этом и заключается проблема.


 
DenKop ©   (2002-06-13 20:18) [1]

Возник попутный вопрос: Будет ли быстрее происходить процесс сканирования если
использовать функции из модуля Wininet (кажется InternetReadFile), а точнее
функций блочного чтения данных с файла хранящегося на сервере.



Страницы: 1 вся ветка

Текущий архив: 2002.08.26;
Скачать: CL | DM;

Наверх




Память: 0.47 MB
Время: 0.014 c
3-84887
malamba
2002-08-06 09:52
2002.08.26
обновить клиентов


7-85264
МИФИст
2002-06-13 21:15
2002.08.26
TreeView


8-85138
DDDeN
2002-04-21 15:13
2002.08.26
Преобразование в RGB


3-84878
striker
2002-08-05 14:27
2002.08.26
ADOQuery и MSSQL


3-84911
Andrushk
2002-08-01 10:52
2002.08.26
Как в DBGrid запретить перенос отдельных столбцов