Форум: "Сети";
Текущий архив: 2002.08.26;
Скачать: [xml.tar.bz2];
ВнизПодскажите алгоритм. Найти похожие ветки
← →
DenKop (2002-06-13 20:17) [0]Подскажите пожалуйста алгоритм работы программ по сбору Email адресов.
Попробовал по следующему алгоритму:
1) Закачивается страничка, заданная пользователем;
2) Написал функции по извлечению Email адресов и ссылок из строки;
3) Из HTML кода построкового читаю строки и вытаскиваю все ссылки и Email;
4) Ссылки помещаются в TStringList, для последующего перебора
4) Затем беру первый из полученных ранее URL(TStringList) и сохраняю его в файл на диск;
5) Анализирую HTML код полученного файла и опять же собираю в нём все ссылки и Email;
Цикл работает до тех пор пока пользователь не остановит его. Все найденные ссылки
хранятся в TStringList. Производится проверка на повтор, чтобы не кувыркать одни и
те же странички по несколько раз. Из списка ссылки выбираются поочерёдно.
Самый главный недостаток этого алгоритма состоит в очень низкой производительности.
Уж больно много времени уходит на сохранение файлов, в этом и заключается проблема.
← →
DenKop (2002-06-13 20:18) [1]Возник попутный вопрос: Будет ли быстрее происходить процесс сканирования если
использовать функции из модуля Wininet (кажется InternetReadFile), а точнее
функций блочного чтения данных с файла хранящегося на сервере.
Страницы: 1 вся ветка
Форум: "Сети";
Текущий архив: 2002.08.26;
Скачать: [xml.tar.bz2];
Память: 0.44 MB
Время: 0.011 c