Форум: "Прочее";
Текущий архив: 2011.08.21;
Скачать: [xml.tar.bz2];
Внизпарсить html Найти похожие ветки
← →
картман © (2011-04-27 01:35) [0]Всем привет!
Тута недавно спрашивал, как красивше и правильнее парсить хтмл, а теперь надо хоть как-нибудь, лишь бы выпарсить, ага...
Из ЖЖ. Странички там разные.
Скажите что-нибудь полезно-ободряющее))
← →
antonn © (2011-04-27 01:42) [1]смотреть на странички и искать за что цепляться...
← →
И. Павел © (2011-04-27 01:42) [2]Можно использовать регекспы (скачав предварительно одноименную библиотеку). Универсальный и удобный метод.
Еще можно использовать DOM-структуру документа.
Это если нужно анализировать документ по тегам. Тогда рекомендую скачать EmbeddedWB для удобства и бОльших возможностей.
← →
Германн © (2011-04-27 01:48) [3]
> Скажите что-нибудь полезно-ободряющее))
>
Вперёд с песнями!
← →
картман © (2011-04-27 01:48) [4]
> antonn © (27.04.11 01:42) [1]
> И. Павел © (27.04.11 01:42) [2]
не имею аккаунта там, но, кажись, страничку там можно соорудить любую.
Собственно, хотел выслушать мнения, как сделать умный анализатор, чтоб он сам догадывался, где нужный текст... Разложить на деревья или другие структуры не проблема, вопрос в том, как "догадывалку" сделать.
← →
картман © (2011-04-27 01:48) [5]
>
> Вперёд с песнями!
Спасибо!
← →
жж (2011-04-27 03:12) [6]
> И. Павел © (27.04.11 01:42) [2]
вы хоть думайте, что говорите
"ИТ-профессионалы" из соседней ветки
там разные шаблоны, как прикрутишь универсально регэкспы самолично дам 10к юсд
← →
жж (2011-04-27 03:16) [7]хотя, возможно погорячился
есть ?style=mine
не знаю, все ли акки должны его поддерживать
← →
clickmaker © (2011-04-27 10:55) [8]> надо хоть как-нибудь, лишь бы выпарсить
regex := ">(.+?)</";
← →
И. Павел © (2011-04-27 11:29) [9]
> жж (27.04.11 03:12) [6]
А вы что предлагаете?
PS: посмотрел http://www.livejournal.com/ - вроде бы код как код. Неоднократно парсировал подобное.
> clickmaker © (27.04.11 10:55) [8]
Кажется EmbeddedWB способен как-то "очищать" текст от тегов автоматически. Удобно, если нужно просто найти какое-то слово на странице.
← →
жж (2011-04-27 12:02) [10]http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454
← →
И. Павел © (2011-04-27 12:14) [11]
> жж (27.04.11 12:02) [10]
> http://stackoverflow.com/questions/1732348/regex-match-open-
> tags-except-xhtml-self-contained-tags/1732454#1732454
Я спросил: "а вы что предлагаете". Я и раньше знал, что в интернете полно "статей", написанных людьми с психическими отклонениями.
← →
Anatoly Podgoretsky © (2011-04-27 12:58) [12]> И. Павел (27.04.2011 12:14:11) [11]
Этих обкуреных и Микрософт признает, такое впечатление, что это их сайт.
← →
жж (2011-04-27 13:02) [13]
> Я спросил: "а вы что предлагаете".
я только показал, что регэкспами не получится
плюс повторяю, в ЖЖ можно ставить разные шаблоны страниц блога, платные акки могут создавать свои шаблоны
универсального метода тут не может быть
← →
antonn © (2011-04-27 22:12) [14]можно цепляться за ники в ответах, на них обычно урл ведет в профиль
← →
картман © (2011-04-28 00:04) [15]
> в профиль
а в профиле есть что-нть нужное? Надо глянуть
← →
жж (2011-04-28 03:11) [16]у ЖЖ есть api
раньше оно обеспечивало доступ только к своему акку и френдленте
сейчас не знаю, но глянь
Страницы: 1 вся ветка
Форум: "Прочее";
Текущий архив: 2011.08.21;
Скачать: [xml.tar.bz2];
Память: 0.47 MB
Время: 0.004 c