Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Форум: "Прочее";
Текущий архив: 2011.08.21;
Скачать: [xml.tar.bz2];

Вниз

парсить html   Найти похожие ветки 

 
картман ©   (2011-04-27 01:35) [0]

Всем привет!

 Тута недавно спрашивал, как красивше и правильнее парсить хтмл, а теперь надо хоть как-нибудь, лишь бы выпарсить, ага...
 Из ЖЖ. Странички там разные.

 Скажите что-нибудь полезно-ободряющее))


 
antonn ©   (2011-04-27 01:42) [1]

смотреть на странички и искать за что цепляться...


 
И. Павел ©   (2011-04-27 01:42) [2]

Можно использовать регекспы (скачав предварительно одноименную библиотеку). Универсальный и удобный метод.

Еще можно использовать DOM-структуру документа.
Это если нужно анализировать документ по тегам. Тогда рекомендую скачать EmbeddedWB для удобства и бОльших возможностей.


 
Германн ©   (2011-04-27 01:48) [3]


> Скажите что-нибудь полезно-ободряющее))
>

Вперёд с песнями!


 
картман ©   (2011-04-27 01:48) [4]


> antonn ©   (27.04.11 01:42) [1]


>  И. Павел ©   (27.04.11 01:42) [2]

не имею аккаунта там, но, кажись, страничку там можно соорудить любую.
 Собственно, хотел выслушать мнения, как сделать умный анализатор, чтоб он сам догадывался, где нужный текст... Разложить на деревья или другие структуры не проблема, вопрос в том, как "догадывалку" сделать.


 
картман ©   (2011-04-27 01:48) [5]


>
> Вперёд с песнями!

Спасибо!


 
жж   (2011-04-27 03:12) [6]


> И. Павел ©   (27.04.11 01:42) [2]

вы хоть думайте, что говорите
"ИТ-профессионалы" из соседней ветки
там разные шаблоны, как прикрутишь универсально регэкспы самолично дам 10к юсд


 
жж   (2011-04-27 03:16) [7]

хотя, возможно погорячился
есть ?style=mine
не знаю, все ли акки должны его поддерживать


 
clickmaker ©   (2011-04-27 10:55) [8]

> надо хоть как-нибудь, лишь бы выпарсить

regex := ">(.+?)</";


 
И. Павел ©   (2011-04-27 11:29) [9]


> жж   (27.04.11 03:12) [6]

А вы что предлагаете?

PS: посмотрел http://www.livejournal.com/ - вроде бы код как код. Неоднократно парсировал подобное.


> clickmaker ©   (27.04.11 10:55) [8]

Кажется EmbeddedWB способен как-то "очищать" текст от тегов автоматически. Удобно, если нужно просто найти какое-то слово на странице.


 
жж   (2011-04-27 12:02) [10]

http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454


 
И. Павел ©   (2011-04-27 12:14) [11]


> жж   (27.04.11 12:02) [10]
> http://stackoverflow.com/questions/1732348/regex-match-open-
> tags-except-xhtml-self-contained-tags/1732454#1732454

Я спросил: "а вы что предлагаете". Я и раньше знал, что в интернете полно "статей", написанных людьми с психическими отклонениями.


 
Anatoly Podgoretsky ©   (2011-04-27 12:58) [12]

> И. Павел  (27.04.2011 12:14:11)  [11]

Этих обкуреных и Микрософт признает, такое впечатление, что это их сайт.


 
жж   (2011-04-27 13:02) [13]


> Я спросил: "а вы что предлагаете".

я только показал, что регэкспами не получится
плюс повторяю, в ЖЖ можно ставить разные шаблоны страниц блога, платные акки могут создавать свои шаблоны
универсального метода тут не может быть


 
antonn ©   (2011-04-27 22:12) [14]

можно цепляться за ники в ответах, на них обычно урл ведет в профиль


 
картман ©   (2011-04-28 00:04) [15]


>  в профиль

а в профиле есть что-нть нужное? Надо глянуть


 
жж   (2011-04-28 03:11) [16]

у ЖЖ есть api
раньше оно обеспечивало доступ только к своему акку и френдленте
сейчас не знаю, но глянь



Страницы: 1 вся ветка

Форум: "Прочее";
Текущий архив: 2011.08.21;
Скачать: [xml.tar.bz2];

Наверх





Память: 0.47 MB
Время: 0.003 c
2-1297704242
Criptonik
2011-02-14 20:24
2011.08.21
процесс копирование файлов


1-1263292251
Игорь_З
2010-01-12 13:30
2011.08.21
передача параметров из сишной dll


15-1304242479
И. Павел
2011-05-01 13:34
2011.08.21
Как отловить информацию о запускаемых программах?


15-1303911755
OW
2011-04-27 17:42
2011.08.21
миллион строк в Excel 2007. Правда?


3-1262964863
serko
2010-01-08 18:34
2011.08.21
IBDATASET.recordcount не считает кол-во...





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский