Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2009.03.15;
Скачать: CL | DM;

Вниз

парсинг?   Найти похожие ветки 

 
html   (2009-01-26 14:11) [0]

Всем привет!
Имеется страница html(любая!).

Нужно вытащить из нее только главный текст. Главный текст - например, если на странице статья о Васе Пупкине, то нужен только текст этой статьи, все остальное отсеивается.

вот отсюда: http://www.svobodanews.ru/Transcript/2009/01/26/20090126133638527.html

нужен текст статьи "В Страсбурге открывается зимняя сессия ПАСЕ".

Это вообще реально сделать? Если да, то как?


 
Медвежонок Пятачок ©   (2009-01-26 14:17) [1]

Имеется страница html(любая!).

Нужно вытащить из нее только главный текст. Главный текст - например, если на странице статья о Васе Пупкине, то нужен только текст этой статьи, все остальное отсеивается.

Это вообще реально сделать? Если да, то как?

нереально.
в любой странице может не быть никакой статьи.
а может быть сто статей.


 
html   (2009-01-26 14:19) [2]


> Медвежонок Пятачок ©   (26.01.09 14:17) [1]

немного не так выразился(
статья есть
она одна

только странички с разных сайтов. Как мне "научить" программу, выделять только текст статьи?


 
Anatoly Podgoretsky ©   (2009-01-26 14:22) [3]

> html  (26.01.2009 14:19:02)  [2]

В такой постановке ни как, структура страницы может быть любой сложности.


 
Ega23 ©   (2009-01-26 14:25) [4]

всё Body может состоять из одного-единственного div-а. А сама страница - в динамике подгружается.


 
html   (2009-01-26 14:25) [5]


> Anatoly Podgoretsky ©   (26.01.09 14:22) [3]

Спасибо, так и сам думал, но надежда умирает известно в какую очередь...


 
html   (2009-01-26 14:26) [6]


> Ega23 ©   (26.01.09 14:25) [4]

если бы...



Страницы: 1 вся ветка

Текущий архив: 2009.03.15;
Скачать: CL | DM;

Наверх




Память: 0.47 MB
Время: 0.016 c
15-1231856375
Jeer
2009-01-13 17:19
2009.03.15
Кольцо сайтов "Научная книга" ?


15-1232126943
brrr
2009-01-16 20:29
2009.03.15
Проблема с железом (?)


2-1232614740
kyn66
2009-01-22 11:59
2009.03.15
Не копируется открытый файл DBF


2-1232454342
AnatoliyV
2009-01-20 15:25
2009.03.15
HTML в RES файл


15-1231108743
Германн
2009-01-05 01:39
2009.03.15
Запуск служб в WinXP