Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2007.03.04;
Скачать: CL | DM;

Вниз

Парсинг HTML   Найти похожие ветки 

 
Vadim X   (2006-09-30 10:41) [0]

Задача:
Считать данные от поисковика по запросу

Поисковик отдает их в каком-то виде.
Вид этот меняется.
Надо парсит документ HTML и вытаскивать из него результаты.
Теперь самое интересное
Без перекомпиляции exe файла
Т.е. база алгоритма парсинга может меняться а exe нет.

Вопрос:
Как зашить аглоритм в базу.
Подскажите какие есть решения, а то чувствую. что изобретаю велосипед.

Пример(Rambler)

<title>Rambler: "парсер html" (документов: 451841)</title>
....
<!-- TOP ENDSS -->
<!-- search -->
<!-- /search -->

<ol start="1">
<li><div class="ttl">
<a onclick="R(this, "")" href="http://..." target="_blank">Парсер HTML</a></div>
<div class="text">ПарсерHTMLПеренаправление</div>
<div class=info>28.08.2006 - 18 Kb - http://.... - <a href="/lite?oe=1251&amp;words=%EF%E0%F0%F1%E5%F0+html&amp;hilite=782A0B85" target="_blank">
   Восстановить текст</a> - <a href="/lite?oe=1251&amp;likex=782A0B85">Найти похожие</a> - Рубрика:
 <a href="http://....">Дизайн</a></div>

  <div class=site><a onclick="R(this, "")" href="http://....." target="_blank">softtime.ru</a>
 (<a href="/lite?sort=0&amp;oe=1251&amp;words=%EF%E0%F0%F1%E5%F0+html&amp;filter=http://softtime.ru">всего 1693</a>)</div>
</li>


<li><div class="ttl"><a onclick="R(this, "")" href="http://...." target="_blank">НОП | Форум: парсер для html</a>
</div><div class="text">....*
парсердля html</div>
<div class=info>23.05.2006 - 25 Kb - http://... - <a href="/lite?oe=1251&amp;words=%EF%E0%F0%F1%E5%F0+html&amp;hilite=443CF09B" target="_blank">Восстановить текст</a> - <a href="/lite?oe=1251&amp;likex=443CF09B">Найти похожие</a> - Рубрика: <a href="http://top100.rambler.ru/top100/ISPs">Провайдеры</a></div>
<div class=site><a onclick="R(this, "")" href="http://www......ru" target="_blank">www.......net.ru</a> (<a href="/lite?sort=0&amp;oe=1251&amp;words=%EF%E0%F0%F1%E5%F0+html&amp;filter=http://www.provider.net.ru">всего 90</a>)</div>

</li>
<li><div class="ttl"><a onclick="R(this, "")" href="http://..." target="_blank">SiteMaker - Подскажите парсер HTML</a></div><div class="text">...и практика
  парсер HTML</div>
 <div class=info>29.08.2006 - 36 Kb - http://... - <a href="/lite?oe=1251&amp;words=%EF%E0%F0%F1%E5%F0+html&amp;hilite=06315B94" target="_blank">Восстановить текст</a> - <a href="/lite?oe=1251&amp;likex=06315B94">Найти похожие</a> - Рубрика: <a href="http://top100.rambler.ru/top100/Technologies">Технологии</a></div>

<div class=site><a onclick="R(this, "")" href="http://...." target="_blank">sitemaker.ru</a> (<a href="/lite?sort=0&amp;oe=1251&amp;words=%EF%E0%F0%F1%E5%F0+html&amp;filter=http://sitemaker.ru">всего 419</a>)</div>
</li>
.
.
.
<!-- /search -->
.
.
.
<!-- footer banner begin -->



Надеюсь поняпно объяснил.


 
DiamondShark ©   (2006-09-30 11:14) [1]

Как вариант -- реализовать нужный алгоритм на скриптовом языке, исполнять его на скриптовом движке, подключённом к программе.


 
Орион ©   (2006-09-30 13:41) [2]

а еще можно на php парсер написать и таскать с собой php =)


 
Dmitrij_K   (2006-09-30 17:14) [3]

TRegExpr
http://www.regexpstudio.com/RU/



Страницы: 1 вся ветка

Текущий архив: 2007.03.04;
Скачать: CL | DM;

Наверх




Память: 0.47 MB
Время: 0.036 c
2-1171352745
начинающий2007
2007-02-13 10:45
2007.03.04
структура база


2-1171374503
Darvin
2007-02-13 16:48
2007.03.04
Компонент отображения данных


1-1168460773
GanibalLector
2007-01-10 23:26
2007.03.04
Дин.массив на выходе ф-ции и утечка


2-1171138018
ANTPro
2007-02-10 23:06
2007.03.04
Сменить фон в ЕditBox


15-1170447247
Суслик
2007-02-02 23:14
2007.03.04
Запись avi с экрана.