Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2010.08.27;
Скачать: CL | DM;

Вниз

грабер емайл   Найти похожие ветки 

 
tippa ©   (2010-05-13 09:37) [0]

Добрый день. Хочу написать грабер емайл адресов на локальном диске. Как лучше организовать парсинг текущего файла?
 Считывание его в строку и разбор через функции pos, del - это как-то не очень, ведь файл может содержать до тысячи емайл адресов и делать 1000 делетов(del) сильно затянет процесс.

зы: Емайлом считаю некую последовательность символов с собакой @ внутри и ограниченная символом пробела с каждой стороны.


 
oldman ©   (2010-05-13 09:47) [1]

Ищем пробел, запоминаем позицию а
Ищем следующий пробел, запоминаем позицию б
Если в куске текста от а до б есть собака, выкусываем емайл, записываем куда-нибудь.
а = б, ищем следующий пробел...

когда весь текст кончится, перезаписываем его из "куда-нибудь"


 
tippa ©   (2010-05-13 10:17) [2]

первый пробел находим через pos а второй как?
да и плясать надо от собаки, с пробелами больно много холостого хода выходит.


 
Palladin ©   (2010-05-13 10:18) [3]

конечные автоматы или регулярные выражения + google


 
Игорь Шевченко ©   (2010-05-13 10:23) [4]

Спамерам удавиться и сдохнуть.


 
Vitalts   (2010-05-13 10:24) [5]

<quote>да и плясать надо от собаки</quote>
Так и пляши от собаки, а про ПОС забудь, тогда и удалять ничего не нужно будет. Последовательно проверяещ каждый символ на "эт", если оно, то смотришь и-мейл ли это (алгоритм подсказывать?).
А регэкспы больно медленные...


 
12 ©   (2010-05-13 11:49) [6]


> Спамерам удавиться и сдохнуть.

+1


 
Anatoly Podgoretsky ©   (2010-05-13 11:54) [7]

> tippa  (13.05.2010 10:17:02)  [2]

А с собакой вероятно будет ошибочный код.
Да и вообще эта работа не так пахнет.


 
tippa ©   (2010-05-13 12:07) [8]

Да не нужны мне эти емейлы, искать нужно другое, что именно - секретная информация), а емейлы для примера. Наверно совет Vitals для моих мозгов - самое оно.


 
Palladin ©   (2010-05-13 12:14) [9]

ну да, перед at еще пишутся имена и пароли в url"ах
так что ничем благим пока не пахнет, а пахнет чудо-хакером



Страницы: 1 вся ветка

Текущий архив: 2010.08.27;
Скачать: CL | DM;

Наверх




Память: 0.48 MB
Время: 0.199 c
4-1232589633
brother
2009-01-22 05:00
2010.08.27
Клас для получения информации о системном трее


2-1267253002
Tonick
2010-02-27 09:43
2010.08.27
DBGridEh


3-1234422525
TTLr
2009-02-12 10:08
2010.08.27
query1: cannot modify read-only dataset


15-1267787785
boriskb
2010-03-05 14:16
2010.08.27
Налог на болванки


4-1238606535
Psycho
2009-04-01 21:22
2010.08.27
Хук на WM_DROPFILES в трей