Форум: "Сети";
Текущий архив: 2007.03.04;
Скачать: [xml.tar.bz2];
ВнизПарсинг HTML Найти похожие ветки
← →
Vadim X (2006-09-30 10:41) [0]Задача:
Считать данные от поисковика по запросу
Поисковик отдает их в каком-то виде.
Вид этот меняется.
Надо парсит документ HTML и вытаскивать из него результаты.
Теперь самое интересное
Без перекомпиляции exe файла
Т.е. база алгоритма парсинга может меняться а exe нет.
Вопрос:
Как зашить аглоритм в базу.
Подскажите какие есть решения, а то чувствую. что изобретаю велосипед.
Пример(Rambler)
<title>Rambler: "парсер html" (документов: 451841)</title>
....
<!-- TOP ENDSS -->
<!-- search -->
<!-- /search -->
<ol start="1">
<li><div class="ttl">
<a onclick="R(this, "")" href="http://..." target="_blank">Парсер HTML</a></div>
<div class="text">ПарсерHTMLПеренаправление</div>
<div class=info>28.08.2006 - 18 Kb - http://.... - <a href="/lite?oe=1251&words=%EF%E0%F0%F1%E5%F0+html&hilite=782A0B85" target="_blank">
Восстановить текст</a> - <a href="/lite?oe=1251&likex=782A0B85">Найти похожие</a> - Рубрика:
<a href="http://....">Дизайн</a></div>
<div class=site><a onclick="R(this, "")" href="http://....." target="_blank">softtime.ru</a>
(<a href="/lite?sort=0&oe=1251&words=%EF%E0%F0%F1%E5%F0+html&filter=http://softtime.ru">всего 1693</a>)</div>
</li>
<li><div class="ttl"><a onclick="R(this, "")" href="http://...." target="_blank">НОП | Форум: парсер для html</a>
</div><div class="text">....*
парсердля html</div>
<div class=info>23.05.2006 - 25 Kb - http://... - <a href="/lite?oe=1251&words=%EF%E0%F0%F1%E5%F0+html&hilite=443CF09B" target="_blank">Восстановить текст</a> - <a href="/lite?oe=1251&likex=443CF09B">Найти похожие</a> - Рубрика: <a href="http://top100.rambler.ru/top100/ISPs">Провайдеры</a></div>
<div class=site><a onclick="R(this, "")" href="http://www......ru" target="_blank">www.......net.ru</a> (<a href="/lite?sort=0&oe=1251&words=%EF%E0%F0%F1%E5%F0+html&filter=http://www.provider.net.ru">всего 90</a>)</div>
</li>
<li><div class="ttl"><a onclick="R(this, "")" href="http://..." target="_blank">SiteMaker - Подскажите парсер HTML</a></div><div class="text">...и практика
парсер HTML</div>
<div class=info>29.08.2006 - 36 Kb - http://... - <a href="/lite?oe=1251&words=%EF%E0%F0%F1%E5%F0+html&hilite=06315B94" target="_blank">Восстановить текст</a> - <a href="/lite?oe=1251&likex=06315B94">Найти похожие</a> - Рубрика: <a href="http://top100.rambler.ru/top100/Technologies">Технологии</a></div>
<div class=site><a onclick="R(this, "")" href="http://...." target="_blank">sitemaker.ru</a> (<a href="/lite?sort=0&oe=1251&words=%EF%E0%F0%F1%E5%F0+html&filter=http://sitemaker.ru">всего 419</a>)</div>
</li>
.
.
.
<!-- /search -->
.
.
.
<!-- footer banner begin -->
Надеюсь поняпно объяснил.
← →
DiamondShark © (2006-09-30 11:14) [1]Как вариант -- реализовать нужный алгоритм на скриптовом языке, исполнять его на скриптовом движке, подключённом к программе.
← →
Орион © (2006-09-30 13:41) [2]а еще можно на php парсер написать и таскать с собой php =)
← →
Dmitrij_K (2006-09-30 17:14) [3]TRegExpr
http://www.regexpstudio.com/RU/
Страницы: 1 вся ветка
Форум: "Сети";
Текущий архив: 2007.03.04;
Скачать: [xml.tar.bz2];
Память: 0.46 MB
Время: 0.039 c