Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2010.08.27;
Скачать: CL | DM;

Вниз

грабер емайл   Найти похожие ветки 

 
tippa ©   (2010-05-13 09:37) [0]

Добрый день. Хочу написать грабер емайл адресов на локальном диске. Как лучше организовать парсинг текущего файла?
 Считывание его в строку и разбор через функции pos, del - это как-то не очень, ведь файл может содержать до тысячи емайл адресов и делать 1000 делетов(del) сильно затянет процесс.

зы: Емайлом считаю некую последовательность символов с собакой @ внутри и ограниченная символом пробела с каждой стороны.


 
oldman ©   (2010-05-13 09:47) [1]

Ищем пробел, запоминаем позицию а
Ищем следующий пробел, запоминаем позицию б
Если в куске текста от а до б есть собака, выкусываем емайл, записываем куда-нибудь.
а = б, ищем следующий пробел...

когда весь текст кончится, перезаписываем его из "куда-нибудь"


 
tippa ©   (2010-05-13 10:17) [2]

первый пробел находим через pos а второй как?
да и плясать надо от собаки, с пробелами больно много холостого хода выходит.


 
Palladin ©   (2010-05-13 10:18) [3]

конечные автоматы или регулярные выражения + google


 
Игорь Шевченко ©   (2010-05-13 10:23) [4]

Спамерам удавиться и сдохнуть.


 
Vitalts   (2010-05-13 10:24) [5]

<quote>да и плясать надо от собаки</quote>
Так и пляши от собаки, а про ПОС забудь, тогда и удалять ничего не нужно будет. Последовательно проверяещ каждый символ на "эт", если оно, то смотришь и-мейл ли это (алгоритм подсказывать?).
А регэкспы больно медленные...


 
12 ©   (2010-05-13 11:49) [6]


> Спамерам удавиться и сдохнуть.

+1


 
Anatoly Podgoretsky ©   (2010-05-13 11:54) [7]

> tippa  (13.05.2010 10:17:02)  [2]

А с собакой вероятно будет ошибочный код.
Да и вообще эта работа не так пахнет.


 
tippa ©   (2010-05-13 12:07) [8]

Да не нужны мне эти емейлы, искать нужно другое, что именно - секретная информация), а емейлы для примера. Наверно совет Vitals для моих мозгов - самое оно.


 
Palladin ©   (2010-05-13 12:14) [9]

ну да, перед at еще пишутся имена и пароли в url"ах
так что ничем благим пока не пахнет, а пахнет чудо-хакером



Страницы: 1 вся ветка

Текущий архив: 2010.08.27;
Скачать: CL | DM;

Наверх




Память: 0.48 MB
Время: 0.054 c
15-1264458604
Юрий
2010-01-26 01:30
2010.08.27
С днем рождения ! 26 января 2010 вторник


2-1272371119
abhtr
2010-04-27 16:25
2010.08.27
Нарушение кодировки при копировании из таблицы в таблицу


15-1270894944
имя
2010-04-10 14:22
2010.08.27
Мда ....


2-1268949255
allrussia
2010-03-19 00:54
2010.08.27
Технология работы процедуры


15-1275371179
Дмитрий С
2010-06-01 09:46
2010.08.27
Знатокам MS ISA server 2006. Настройка Publish Web Sites