Текущий архив: 2003.11.17;
Скачать: CL | DM;
ВнизПРосмотр HTML страниц Найти похожие ветки
← →
sapsi (2003-10-24 09:18) [0]Добрый день.
Каким способом в Делфи можно HTML страницы конвертировать в текстовые файлы?
← →
sapsi (2003-10-24 09:42) [1]Нужно в автоматическом режиме сохранять их в виде текстовых файлов
← →
Reindeer Moss Eater (2003-10-24 09:46) [2]Они и так уже текстовые файлы, а не двоичные.
← →
sapsi (2003-10-24 09:58) [3]нет
← →
sapsi (2003-10-24 10:01) [4]Они сохраняются в виде html страниц, а нужно в текстовом формате.
При выполнениии команды WebBrowser1.ExecWB(4, 0), вызывается стандартная команда "Сохранить как" браузера. Там можно сохранить с расширением .txt. Нужно тоже самое без вызова окошка сохранения. ТО есть задать формат сохраняемого документа программно.
Очень прошу ответить знающего человека.
← →
Reindeer Moss Eater (2003-10-24 10:06) [5]Не надо смешивать в кучу "текстовые файлы" и "текстовые файлы, которые удобно читать".
От того, что в текстовом файле встречаются конструкции типа <HEADER></HEADER> он не перестает быть текстовым.
Он не перестает быть текстовым даже имея расширения .html
← →
sapsi (2003-10-24 10:12) [6]Я вроде написал, что мне надо....
Или до сих пор непонятно?
← →
TUser (2003-10-24 10:14) [7]Надо удалить все теги и комментарии. Можно ручками - просканироваь весь документ и удалить. Можно взять любой парсер.
← →
Reindeer Moss Eater (2003-10-24 10:15) [8]Мне стало предельно понятно что тебе надо и без вопроса. Хватило темы.
Я тебе хочу сказать, что то, чего ты хочешь и то, про что спрашиваешь - разные вещи.
← →
sapsi (2003-10-24 10:15) [9]Cам браузер может сохранять в виде файлов .txt.
Возможно ли сделать это программно?
← →
sapsi (2003-10-24 10:21) [10]Я предлагаю Reindeer Moss Eater сделать следующее:
1) Открыть Браузер и выполнить команду "сохранить как"
2) Сохранить страницу в виде файла с расширением html
3) Сохранить страницу в виде файла с расширением txt
4) Сравнить полученные результаты сохранения
Затем ответить мне на следующие вопросы:
1) Зачем мне парсить файл, если механизмы браузера позовляют это сделать, нужно только воспользоваться ими.
2) Есть ли смысл вести дискуссию о том, что такое текстовой файл (в блокноте можно открыть и екзешник), если нужно просто поделиться опытом программного сохранения в виде текста без тегов (см. пункт 4), если таковой опыт имеется, конечно.
С уважением.
← →
Reindeer Moss Eater (2003-10-24 10:21) [11]Возможно ли сделать это программно?
Хороший вопрос.
Вот еще два вопроса:
Делает ли это IE?
Делает ли он это аппаратно?
← →
sapsi (2003-10-24 10:36) [12]Вобщем понятно.
Спасибо за исчерпывающие ответы
← →
Reindeer Moss Eater (2003-10-24 10:37) [13]Какие вопросы такие и ответы
"Возможно ли сделать это программно?"
"Как удалить все теги и комментарии и скрипты из HTML документа?"
← →
sapsi (2003-10-24 10:43) [14]Я считаю, что ответы носят характер издевательства.
Так как уже несколько раз объяснил, что нужно сделать:
см. sapsi (24.10.03 10:01) и sapsi (24.10.03 10:21).
Если есть желание потрепаться - есть соответсвующая конференция.
Здесь ожидается ответ специалиста, а не встречные вопросы общего плана.
А если до сих пор непонятно, то привожу два отрывка из сохраненных в разном формате страницы Рэмблера.
1)
<html><head>
<style type="text/css"><!--
A:hover {COLOR: #FF0000}
.form {font-size:14px;}
.formbut {font-size:9pt;}
.m1 {font-family:Arial Cyr,Arial,Helvetica,sans-serif;font-size:9pt;}
.trans {font-family:Arial Cyr,Arial,Helvetica,sans-serif;font-size:10px;}
.search {font-family:Arial Cyr,Arial,Helvetica,sans-serif;font-size:10pt;}
.txt {font-size:12px;}
.radios {background-color:#3366cc;}
.hdr {font-family:Arial Cyr,Arial,Helvetica,sans-serif;}
.rub1 {font-family:Arial Cyr,Arial,Helvetica,sans-serif;color:#000000;}
a.v {color:#0000cc;}
.crawlt {
background-image: url( http://images.rambler.ru/tru/crawlt.gif);
}
.crawrt {
background-image:
2) Rambler: информационно-поисковая системаСДЕЛАТЬ СТАРТОВОЙлегкий |
классический
ИСКАТЬ
в Интернетев новостяхв товарахв Top100Расширенный поиск
РАМБЛЕР: - Тор100 - Магазины - Покупки - Путешествия - Работа - Право -
Здоровье - Компьютеры - Недвижимость - Телевидение СЕРВИСЫ: - Почта -
Фото - Поиск файлов - Домены - Словари - Карты - Антивирус - Открытки
СЕГОДНЯ: - Новости - Финансы - Спорт - Погода - Руметрика - ТВ-Программы -
Гороскоп
Мне нужен вариант № 2.
Что еще непонятно?
← →
Reindeer Moss Eater (2003-10-24 10:48) [15]А если до сих пор непонятно
Для особо одаренных повторяю:
Мне предельно ясно чего ты хочешь на самом деле.
← →
sapsi (2003-10-24 10:50) [16]Тогда еще раз спасибо за помощь в решении данного вопроса.
← →
Reindeer Moss Eater (2003-10-24 10:51) [17]Какие вопросы - такая и помощь.
← →
Плохиш_ (2003-10-24 10:54) [18]>sapsi (24.10.03 10:43) [14]
> Я считаю, что ответы носят характер издевательства.
Ну это уже твои проблемы.
Если бы твои вопросы не носили характер издевательства, то ты бы уже давно нашёл в help-е для TWebBrowser метод ExecWB и разобрался бы как он работает, а так см. Reindeer Moss Eater © (24.10.03 10:37) [13]
← →
sapsi (2003-10-24 10:58) [19]2 Плохиш
Этот метод я давно нашел.
Надо внимательнее вам читать посты.
Этот метод вызывает окно сохранения.
А мне не нужно этого окна, а нужно сохранять в предопределенном формате.
Что в моих вопросах непонятно?
← →
Плохиш_ (2003-10-24 11:13) [20]>sapsi (24.10.03 10:58) [19]
Хм.. в хелпе за пр. 30 сек нашёл OLECMDEXECOPT_DONTPROMPTUSER.
Это не поможет отцу русской демократии?
← →
sapsi (2003-10-24 11:17) [21]И в каком формате сохранится после выполениея этой команды, проверь
← →
bis (2003-10-24 11:44) [22]Reindeer Moss Eater и т.п.
а не проще ли не отвечать, чем издеваться?
или желание показать себя самым-самым ?
← →
Reindeer Moss Eater (2003-10-24 11:59) [23]bis ©
1. На что я не ответил?
2. Ответь ты.
← →
Кулюкин Олег (2003-10-24 12:27) [24]
> sapsi
1. Скачайте парсер HTML (THyperParse)
2. Распарсите HTML
3. Сохраните нужные теги
4. Формулируйте вопрос правильно.
> Reindeer Moss Eater © (24.10.03 10:21) [11]
> Возможно ли сделать это программно?
> Делает ли он это аппаратно?
Меня тоже умиляют такие формулировки.
← →
sapsi (2003-10-24 13:35) [25]Кто может ответить на вопрос?
Возможно ли каким-либо программным способом получить текстовой файл в том виде, в котором его сохраняет браузер, при выборе опции сохранения с расширением .txt?
см. sapsi (24.10.03 10:43) [14] Вариант № 2
← →
Reindeer Moss Eater (2003-10-24 13:36) [26]Возможно
← →
sapsi (2003-10-24 13:37) [27]В чем заключается этот способ.
← →
Кулюкин Олег (2003-10-24 13:38) [28]
> sapsi (24.10.03 13:35) [25]
> Кто может ответить на вопрос?
См. пост 24.
← →
Reindeer Moss Eater (2003-10-24 13:38) [29]"Этот" - это какой?
Спрашиваю не из издевательских побуждений а что бы понять о каком идет речь. Ибо их много.
← →
sapsi (2003-10-24 13:44) [30]Этот-который известен вам, пока ни одного так и не увидел.
Могу написать "эти".
Что-то изменится?
Любой работающий.
← →
bis (2003-10-24 13:44) [31]континуум с хвостиком, да?
мне бы селект на выбор самого простого из пространства всех вероятно возможных
← →
bis (2003-10-24 13:45) [32]может переедем в другой форум?
← →
Reindeer Moss Eater (2003-10-24 13:47) [33]Берем "неправильный" файл.
Открываем.
Последовательно ищем символ "<" и следующий за ним ">"
Удаляем все что между ними включая сами символы. Повторяем пока тэги не исчезнут.
или
[24]
← →
Reindeer Moss Eater (2003-10-24 13:48) [34]может переедем в другой форум?
Кто мешает?
← →
Кулюкин Олег (2003-10-24 13:49) [35]
> bis © (24.10.03 13:45) [32]
> может переедем в другой форум?
Кто-то держит?
Скатертью дорога.
← →
sapsi (2003-10-24 13:50) [36]2 Reindeer Moss Eater © (24.10.03 13:47) [33]
Берем "неправильный и т.д.....
То есть опцию "сохранить как" мы использовать не можем?
Все будем посимвольно просматривать и менять?
Это эффективный способ?
← →
Кулюкин Олег (2003-10-24 13:53) [37]
> sapsi (24.10.03 13:50) [36]
> То есть опцию "сохранить как" мы использовать не можем?
А если пользователь стер IE?
Вы будете проверять его наличие перед конвертацией?
← →
Ihor Osov'yak (2003-10-24 13:53) [38]IHTMLElement.InnerText (от тега BODY)
Смотреть в сторону mshtml.pas
Если не понятно - msdn, как ввод в тему можно delphi.vitpc.com/mastering/tweb.htm
← →
Reindeer Moss Eater (2003-10-24 13:54) [39]Все будем посимвольно просматривать и менять?
Это эффективный способ?
А у браузера конечно же (думаешь ты) "волшебные" функции есть непосимвольного поиска.
← →
sapsi (2003-10-24 14:03) [40]Так зачем изобретать велосипед?
Если мы подключаемся к word, например, мы пользуемся функциями, предоставляемыми им, его стандартным интерфейсом.
Зачем же здесь отступать от правила.
Синтаксический разбор я могу сделать.
НО зачем?
Можно было бы сразу написать, что HTML не может быть сохранен как plaintext и т.п. без тегов
Страницы: 1 2 вся ветка
Текущий архив: 2003.11.17;
Скачать: CL | DM;
Память: 0.54 MB
Время: 0.009 c