Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2002.08.26;
Скачать: CL | DM;

Вниз

Подскажите алгоритм.   Найти похожие ветки 

 
DenKop ©   (2002-06-13 20:17) [0]

Подскажите пожалуйста алгоритм работы программ по сбору Email адресов.

Попробовал по следующему алгоритму:
1) Закачивается страничка, заданная пользователем;
2) Написал функции по извлечению Email адресов и ссылок из строки;
3) Из HTML кода построкового читаю строки и вытаскиваю все ссылки и Email;
4) Ссылки помещаются в TStringList, для последующего перебора
4) Затем беру первый из полученных ранее URL(TStringList) и сохраняю его в файл на диск;
5) Анализирую HTML код полученного файла и опять же собираю в нём все ссылки и Email;

Цикл работает до тех пор пока пользователь не остановит его. Все найденные ссылки
хранятся в TStringList. Производится проверка на повтор, чтобы не кувыркать одни и
те же странички по несколько раз. Из списка ссылки выбираются поочерёдно.
Самый главный недостаток этого алгоритма состоит в очень низкой производительности.
Уж больно много времени уходит на сохранение файлов, в этом и заключается проблема.


 
DenKop ©   (2002-06-13 20:18) [1]

Возник попутный вопрос: Будет ли быстрее происходить процесс сканирования если
использовать функции из модуля Wininet (кажется InternetReadFile), а точнее
функций блочного чтения данных с файла хранящегося на сервере.



Страницы: 1 вся ветка

Текущий архив: 2002.08.26;
Скачать: CL | DM;

Наверх




Память: 0.47 MB
Время: 0.013 c
3-84902
Vint
2002-08-06 10:35
2002.08.26
Резервное копирование


7-85275
ZavDim
2002-06-13 13:04
2002.08.26
Динамическое подключение библиотеки


1-84960
msg
2002-08-15 13:49
2002.08.26
Помогите: можно ли сделать переменное колличество полей в ActiveX


14-85238
Anna_
2002-07-30 18:09
2002.08.26
Встречи


1-84965
-=Spike=-
2002-08-15 15:27
2002.08.26
Как заставить TOpenDialog запоминать последний рабочий каталог?