Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2011.08.21;
Скачать: CL | DM;

Вниз

парсить html   Найти похожие ветки 

 
картман ©   (2011-04-27 01:35) [0]

Всем привет!

 Тута недавно спрашивал, как красивше и правильнее парсить хтмл, а теперь надо хоть как-нибудь, лишь бы выпарсить, ага...
 Из ЖЖ. Странички там разные.

 Скажите что-нибудь полезно-ободряющее))


 
antonn ©   (2011-04-27 01:42) [1]

смотреть на странички и искать за что цепляться...


 
И. Павел ©   (2011-04-27 01:42) [2]

Можно использовать регекспы (скачав предварительно одноименную библиотеку). Универсальный и удобный метод.

Еще можно использовать DOM-структуру документа.
Это если нужно анализировать документ по тегам. Тогда рекомендую скачать EmbeddedWB для удобства и бОльших возможностей.


 
Германн ©   (2011-04-27 01:48) [3]


> Скажите что-нибудь полезно-ободряющее))
>

Вперёд с песнями!


 
картман ©   (2011-04-27 01:48) [4]


> antonn ©   (27.04.11 01:42) [1]


>  И. Павел ©   (27.04.11 01:42) [2]

не имею аккаунта там, но, кажись, страничку там можно соорудить любую.
 Собственно, хотел выслушать мнения, как сделать умный анализатор, чтоб он сам догадывался, где нужный текст... Разложить на деревья или другие структуры не проблема, вопрос в том, как "догадывалку" сделать.


 
картман ©   (2011-04-27 01:48) [5]


>
> Вперёд с песнями!

Спасибо!


 
жж   (2011-04-27 03:12) [6]


> И. Павел ©   (27.04.11 01:42) [2]

вы хоть думайте, что говорите
"ИТ-профессионалы" из соседней ветки
там разные шаблоны, как прикрутишь универсально регэкспы самолично дам 10к юсд


 
жж   (2011-04-27 03:16) [7]

хотя, возможно погорячился
есть ?style=mine
не знаю, все ли акки должны его поддерживать


 
clickmaker ©   (2011-04-27 10:55) [8]

> надо хоть как-нибудь, лишь бы выпарсить

regex := ">(.+?)</";


 
И. Павел ©   (2011-04-27 11:29) [9]


> жж   (27.04.11 03:12) [6]

А вы что предлагаете?

PS: посмотрел http://www.livejournal.com/ - вроде бы код как код. Неоднократно парсировал подобное.


> clickmaker ©   (27.04.11 10:55) [8]

Кажется EmbeddedWB способен как-то "очищать" текст от тегов автоматически. Удобно, если нужно просто найти какое-то слово на странице.


 
жж   (2011-04-27 12:02) [10]

http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454


 
И. Павел ©   (2011-04-27 12:14) [11]


> жж   (27.04.11 12:02) [10]
> http://stackoverflow.com/questions/1732348/regex-match-open-
> tags-except-xhtml-self-contained-tags/1732454#1732454

Я спросил: "а вы что предлагаете". Я и раньше знал, что в интернете полно "статей", написанных людьми с психическими отклонениями.


 
Anatoly Podgoretsky ©   (2011-04-27 12:58) [12]

> И. Павел  (27.04.2011 12:14:11)  [11]

Этих обкуреных и Микрософт признает, такое впечатление, что это их сайт.


 
жж   (2011-04-27 13:02) [13]


> Я спросил: "а вы что предлагаете".

я только показал, что регэкспами не получится
плюс повторяю, в ЖЖ можно ставить разные шаблоны страниц блога, платные акки могут создавать свои шаблоны
универсального метода тут не может быть


 
antonn ©   (2011-04-27 22:12) [14]

можно цепляться за ники в ответах, на них обычно урл ведет в профиль


 
картман ©   (2011-04-28 00:04) [15]


>  в профиль

а в профиле есть что-нть нужное? Надо глянуть


 
жж   (2011-04-28 03:11) [16]

у ЖЖ есть api
раньше оно обеспечивало доступ только к своему акку и френдленте
сейчас не знаю, но глянь



Страницы: 1 вся ветка

Текущий архив: 2011.08.21;
Скачать: CL | DM;

Наверх




Память: 0.5 MB
Время: 0.009 c
15-1297553230
KilkennyCat
2011-02-13 02:27
2011.08.21
просьба к тем, у кого Word 2007, 2010


2-1304955708
Leon-Z
2011-05-09 19:41
2011.08.21
Глюк в Delphi 7.


15-1303981198
MDFE
2011-04-28 12:59
2011.08.21
Розовый слоник


15-1303938718
Германн
2011-04-28 01:11
2011.08.21
Скан-коды клавиатуры


1-1262652069
MaKc32
2010-01-05 03:41
2011.08.21
Как из моей программы управлять TrayIcon другой программы?