Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2002.08.26;
Скачать: CL | DM;

Вниз

Подскажите алгоритм.   Найти похожие ветки 

 
DenKop ©   (2002-06-13 20:17) [0]

Подскажите пожалуйста алгоритм работы программ по сбору Email адресов.

Попробовал по следующему алгоритму:
1) Закачивается страничка, заданная пользователем;
2) Написал функции по извлечению Email адресов и ссылок из строки;
3) Из HTML кода построкового читаю строки и вытаскиваю все ссылки и Email;
4) Ссылки помещаются в TStringList, для последующего перебора
4) Затем беру первый из полученных ранее URL(TStringList) и сохраняю его в файл на диск;
5) Анализирую HTML код полученного файла и опять же собираю в нём все ссылки и Email;

Цикл работает до тех пор пока пользователь не остановит его. Все найденные ссылки
хранятся в TStringList. Производится проверка на повтор, чтобы не кувыркать одни и
те же странички по несколько раз. Из списка ссылки выбираются поочерёдно.
Самый главный недостаток этого алгоритма состоит в очень низкой производительности.
Уж больно много времени уходит на сохранение файлов, в этом и заключается проблема.


 
DenKop ©   (2002-06-13 20:18) [1]

Возник попутный вопрос: Будет ли быстрее происходить процесс сканирования если
использовать функции из модуля Wininet (кажется InternetReadFile), а точнее
функций блочного чтения данных с файла хранящегося на сервере.



Страницы: 1 вся ветка

Текущий архив: 2002.08.26;
Скачать: CL | DM;

Наверх




Память: 0.47 MB
Время: 0.012 c
3-84903
Nonam
2002-08-06 14:14
2002.08.26
Characterset for


3-84930
Ola
2002-08-07 11:23
2002.08.26
Help!!!! Срочно!!!!


3-84874
BS
2002-07-30 10:09
2002.08.26
Как отобразить Ole - поле из таблицы Access на форме?


14-85172
arbiter
2002-07-26 18:24
2002.08.26
Приплыли


1-85006
Basic
2002-08-14 17:58
2002.08.26
Цвет символа в RichEdit