Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2002.08.26;
Скачать: CL | DM;

Вниз

Подскажите алгоритм.   Найти похожие ветки 

 
DenKop ©   (2002-06-13 20:17) [0]

Подскажите пожалуйста алгоритм работы программ по сбору Email адресов.

Попробовал по следующему алгоритму:
1) Закачивается страничка, заданная пользователем;
2) Написал функции по извлечению Email адресов и ссылок из строки;
3) Из HTML кода построкового читаю строки и вытаскиваю все ссылки и Email;
4) Ссылки помещаются в TStringList, для последующего перебора
4) Затем беру первый из полученных ранее URL(TStringList) и сохраняю его в файл на диск;
5) Анализирую HTML код полученного файла и опять же собираю в нём все ссылки и Email;

Цикл работает до тех пор пока пользователь не остановит его. Все найденные ссылки
хранятся в TStringList. Производится проверка на повтор, чтобы не кувыркать одни и
те же странички по несколько раз. Из списка ссылки выбираются поочерёдно.
Самый главный недостаток этого алгоритма состоит в очень низкой производительности.
Уж больно много времени уходит на сохранение файлов, в этом и заключается проблема.


 
DenKop ©   (2002-06-13 20:18) [1]

Возник попутный вопрос: Будет ли быстрее происходить процесс сканирования если
использовать функции из модуля Wininet (кажется InternetReadFile), а точнее
функций блочного чтения данных с файла хранящегося на сервере.



Страницы: 1 вся ветка

Текущий архив: 2002.08.26;
Скачать: CL | DM;

Наверх




Память: 0.47 MB
Время: 0.01 c
1-85010
-=Spike=-
2002-08-15 18:58
2002.08.26
Программная регистрация .OCX компонентов.


14-85180
AL2002
2002-07-26 13:18
2002.08.26
Кто играл в детстве на Аари 8-бит


14-85255
Фикус
2002-08-02 12:46
2002.08.26
Игра


1-84981
DeepProg
2002-08-14 19:52
2002.08.26
Максимальный, да не тот...


1-85108
dimanew
2002-08-15 05:52
2002.08.26
Есть задача из ул.ленина сделать ул.Ленина, я использую