Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Форум: "Сети";
Текущий архив: 2007.03.04;
Скачать: [xml.tar.bz2];

Вниз

Парсинг HTML   Найти похожие ветки 

 
Vadim X   (2006-09-30 10:41) [0]

Задача:
Считать данные от поисковика по запросу

Поисковик отдает их в каком-то виде.
Вид этот меняется.
Надо парсит документ HTML и вытаскивать из него результаты.
Теперь самое интересное
Без перекомпиляции exe файла
Т.е. база алгоритма парсинга может меняться а exe нет.

Вопрос:
Как зашить аглоритм в базу.
Подскажите какие есть решения, а то чувствую. что изобретаю велосипед.

Пример(Rambler)

<title>Rambler: "парсер html" (документов: 451841)</title>
....
<!-- TOP ENDSS -->
<!-- search -->
<!-- /search -->

<ol start="1">
<li><div class="ttl">
<a onclick="R(this, "")" href="http://..." target="_blank">Парсер HTML</a></div>
<div class="text">ПарсерHTMLПеренаправление</div>
<div class=info>28.08.2006 - 18 Kb - http://.... - <a href="/lite?oe=1251&amp;words=%EF%E0%F0%F1%E5%F0+html&amp;hilite=782A0B85" target="_blank">
   Восстановить текст</a> - <a href="/lite?oe=1251&amp;likex=782A0B85">Найти похожие</a> - Рубрика:
 <a href="http://....">Дизайн</a></div>

  <div class=site><a onclick="R(this, "")" href="http://....." target="_blank">softtime.ru</a>
 (<a href="/lite?sort=0&amp;oe=1251&amp;words=%EF%E0%F0%F1%E5%F0+html&amp;filter=http://softtime.ru">всего 1693</a>)</div>
</li>


<li><div class="ttl"><a onclick="R(this, "")" href="http://...." target="_blank">НОП | Форум: парсер для html</a>
</div><div class="text">....*
парсердля html</div>
<div class=info>23.05.2006 - 25 Kb - http://... - <a href="/lite?oe=1251&amp;words=%EF%E0%F0%F1%E5%F0+html&amp;hilite=443CF09B" target="_blank">Восстановить текст</a> - <a href="/lite?oe=1251&amp;likex=443CF09B">Найти похожие</a> - Рубрика: <a href="http://top100.rambler.ru/top100/ISPs">Провайдеры</a></div>
<div class=site><a onclick="R(this, "")" href="http://www......ru" target="_blank">www.......net.ru</a> (<a href="/lite?sort=0&amp;oe=1251&amp;words=%EF%E0%F0%F1%E5%F0+html&amp;filter=http://www.provider.net.ru">всего 90</a>)</div>

</li>
<li><div class="ttl"><a onclick="R(this, "")" href="http://..." target="_blank">SiteMaker - Подскажите парсер HTML</a></div><div class="text">...и практика
  парсер HTML</div>
 <div class=info>29.08.2006 - 36 Kb - http://... - <a href="/lite?oe=1251&amp;words=%EF%E0%F0%F1%E5%F0+html&amp;hilite=06315B94" target="_blank">Восстановить текст</a> - <a href="/lite?oe=1251&amp;likex=06315B94">Найти похожие</a> - Рубрика: <a href="http://top100.rambler.ru/top100/Technologies">Технологии</a></div>

<div class=site><a onclick="R(this, "")" href="http://...." target="_blank">sitemaker.ru</a> (<a href="/lite?sort=0&amp;oe=1251&amp;words=%EF%E0%F0%F1%E5%F0+html&amp;filter=http://sitemaker.ru">всего 419</a>)</div>
</li>
.
.
.
<!-- /search -->
.
.
.
<!-- footer banner begin -->



Надеюсь поняпно объяснил.


 
DiamondShark ©   (2006-09-30 11:14) [1]

Как вариант -- реализовать нужный алгоритм на скриптовом языке, исполнять его на скриптовом движке, подключённом к программе.


 
Орион ©   (2006-09-30 13:41) [2]

а еще можно на php парсер написать и таскать с собой php =)


 
Dmitrij_K   (2006-09-30 17:14) [3]

TRegExpr
http://www.regexpstudio.com/RU/



Страницы: 1 вся ветка

Форум: "Сети";
Текущий архив: 2007.03.04;
Скачать: [xml.tar.bz2];

Наверх





Память: 0.46 MB
Время: 0.039 c
15-1170917756
fisherman
2007-02-08 09:55
2007.03.04
Завод купил напольные весы...


3-1165068946
Armot
2006-12-02 17:15
2007.03.04
Информационные базы докуметнов


15-1170906898
Slider007
2007-02-08 06:54
2007.03.04
С днем рождения ! 8 февраля


15-1170642121
Expell
2007-02-05 05:22
2007.03.04
Корреляция


2-1171604988
Novichok_new
2007-02-16 08:49
2007.03.04
Скачать файлы из Интернета





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский