Форум: "Начинающим";
Текущий архив: 2010.08.27;
Скачать: [xml.tar.bz2];
Внизграбер емайл Найти похожие ветки
← →
tippa © (2010-05-13 09:37) [0]Добрый день. Хочу написать грабер емайл адресов на локальном диске. Как лучше организовать парсинг текущего файла?
Считывание его в строку и разбор через функции pos, del - это как-то не очень, ведь файл может содержать до тысячи емайл адресов и делать 1000 делетов(del) сильно затянет процесс.
зы: Емайлом считаю некую последовательность символов с собакой @ внутри и ограниченная символом пробела с каждой стороны.
← →
oldman © (2010-05-13 09:47) [1]Ищем пробел, запоминаем позицию а
Ищем следующий пробел, запоминаем позицию б
Если в куске текста от а до б есть собака, выкусываем емайл, записываем куда-нибудь.
а = б, ищем следующий пробел...
когда весь текст кончится, перезаписываем его из "куда-нибудь"
← →
tippa © (2010-05-13 10:17) [2]первый пробел находим через pos а второй как?
да и плясать надо от собаки, с пробелами больно много холостого хода выходит.
← →
Palladin © (2010-05-13 10:18) [3]конечные автоматы или регулярные выражения + google
← →
Игорь Шевченко © (2010-05-13 10:23) [4]Спамерам удавиться и сдохнуть.
← →
Vitalts (2010-05-13 10:24) [5]<quote>да и плясать надо от собаки</quote>
Так и пляши от собаки, а про ПОС забудь, тогда и удалять ничего не нужно будет. Последовательно проверяещ каждый символ на "эт", если оно, то смотришь и-мейл ли это (алгоритм подсказывать?).
А регэкспы больно медленные...
← →
12 © (2010-05-13 11:49) [6]
> Спамерам удавиться и сдохнуть.
+1
← →
Anatoly Podgoretsky © (2010-05-13 11:54) [7]> tippa (13.05.2010 10:17:02) [2]
А с собакой вероятно будет ошибочный код.
Да и вообще эта работа не так пахнет.
← →
tippa © (2010-05-13 12:07) [8]Да не нужны мне эти емейлы, искать нужно другое, что именно - секретная информация), а емейлы для примера. Наверно совет Vitals для моих мозгов - самое оно.
← →
Palladin © (2010-05-13 12:14) [9]ну да, перед at еще пишутся имена и пароли в url"ах
так что ничем благим пока не пахнет, а пахнет чудо-хакером
Страницы: 1 вся ветка
Форум: "Начинающим";
Текущий архив: 2010.08.27;
Скачать: [xml.tar.bz2];
Память: 0.46 MB
Время: 0.069 c