Форум: "Прочее";
Текущий архив: 2007.07.29;
Скачать: [xml.tar.bz2];
ВнизНасколько вордовский документ, сохранённый в HTML является XHTML? Найти похожие ветки
← →
jack128 © (2007-06-29 14:29) [0]Собственно сабж?
У меня желания более чем скромные,
нуно чтоб для всех открывающихся тегов были соответствующие закрывающиеся и чтобы не было пересекающихся тегов а-ля
текст
Можно ли на это закладываться для Word"а 2003 ?
← →
homm © (2007-06-29 14:31) [1]http://validator.w3.org/ в помощь :)
← →
jack128 © (2007-06-29 14:40) [2]Хе, ну проверю я пару документов, а толку то ;-) Я думал может кто сталкивался с обработкой вордовских html"ей и может чтонить обнадеживающее на основании своего опыта сказать..
jack128 © (29.06.07 14:29)
чтобы не было пересекающихся тегов а-ля
текст
хе. Имелось в виду < b > < i > Текст < /b > < /i >
← →
homm © (2007-06-29 14:47) [3]> Хе, ну проверю я пару документов, а толку то ;-)
Ну ты проверь. Может сразу ошибки будут, и ответ на твой вопрос будет отрицательным.
← →
jack128 © (2007-06-29 15:08) [4]homm © (29.06.07 14:47) [3]
Ну ты проверь. Может сразу ошибки будут, и ответ на твой вопрос будет отрицательным.
Не, ну как раз пару доков я проверил, вроде всё OK. Но если даже 10% документов будут не валидны, то ой...
← →
exactly (2007-06-29 15:14) [5]jack128 © (29.06.07 15:08) [4]
может в техподдержке спросить?;)
← →
SPeller © (2007-06-29 16:32) [6]Вопрос - у вас документ целиком сохраняется или копируется частями? Если целиком, то возможно и более-менее валидный получается, но я по работе очень часто сталкиваюсь с хтмл-ем от ворда когда его копируют частями (скопировали из ворда - вставили в IE-based хтмл-редактор). И от 2003-го тоже. Так вот резльтат от таких действий - просто ГОВЁННЫЙ получается. Незакрытые теги встречаются очень часто. Конструкции вида <tag></tag> (без текста между тегами) или <tag><tag</tag></tag> обычное явление. Особенно плохо с таблицами. Что касается xhtml - то помоему офис не знает что такое <br /> вместо <br> и <img /> вместо <img>. Но такие заведомо одинарные теги можно и руками пройти и поправить. И это, собсно, основной критерий для валидности именно xhtml. Соответствие открытых тегов закрытым после ворда тоже лучше проверить. Тут, думаю, программистский ум без труда сможет найти выход )
← →
SPeller © (2007-06-29 16:37) [7]Если же вопрос именно в решении "является ли хтмл от ворда валидным xhtml" - то заведомо нет. Вот сейчас проверил - сохранил в хтмл документ с переводом строки по shift+enter, и тамоаказался тег <br>, без слеша. Да и некое подобие доктайпа гласит html40, что явно указывает на несоответствие xhtml
← →
ferr © (2007-06-29 16:45) [8]Word2007 сохраняет в открытый формат OpenXML который находится на пути к стандартизации.
← →
SPeller © (2007-06-29 16:49) [9]Если вопрос лицензирования не стоит, то можно и 2007 офис заюзать.
← →
jack128 © (2007-06-29 17:33) [10]SPeller © (29.06.07 16:32) [6]
Вопрос - у вас документ целиком сохраняется или копируется частями?
Нет, мне нужно на части разбивать документ, но я делаю так: создаю новый документ, вставляю кусок из старого и сохраняю док в хтмл.
SPeller © (29.06.07 16:32) [6]
Что касается xhtml - то помоему офис не знает что такое <br /> вместо <br> и <img /> вместо <img>.
Да, я уже наткнулся. Более того, судя по отработки моего кода - _иногда_ не закрывается тег <p>.
К слову, кто нить сечет в регулярных выражениях, такая задача есть
есть html на 12 метров в нем есть такой код:
<td> тря-ля-ля <p> траля-ля </td>
То есть есть незакрытый тег <p> нуно это место найти. Есть notepad++ который умеет искать по регулярным выражениям. Вот мне бы выражение это пулучить...
SPeller © (29.06.07 16:49) [9]
Если вопрос лицензирования не стоит, то можно и 2007 офис заюзать.
Стоит :-(
← →
McSimm © (2007-06-29 18:22) [11]
> jack128 © (29.06.07 17:33) [10]
Посмотри http://tidy.sourceforge.net/ http://sourceforge.net/projects/tidy
Библиотеки для проверки и коррекции html
← →
TUser © (2007-06-29 18:40) [12]Имхо, мелкомягким тут верить нельзя. Я бы не поверил. Они делают нечто, что будет корректно открываться их браузером, возможно какими-нибудь его будущими версиями. Сохраняй в rtf и конвертируй сам, если это возможно. Имхо, имхо, имхо.
← →
Rouse_ © (2007-06-29 19:10) [13]Открываться это будет нашим браузером самописным (задача к сожалению такая, что потребовалось цельный браузер поднимать), поэтому много условностей он пропускает и частично некоректно работает с незакрытыми тегами. Вот Женька и мучается с подготовкой документов, которые изначально в Word-овском формате поступают к нам.
← →
TUser © (2007-07-01 08:25) [14]97-й ворд сохранял вовсе не такой хатмель, как 2000 и последующие. Так что и тут возможны грабли, - отладить все на ХР-2007, а через год-другой переделывать. rtf вроде, стандартизован, а из него в свой хатмель можно перегнать. Имхо, надежнее, если свой какой-то браузер.
← →
Vendict © (2007-07-01 11:38) [15]TUser © (29.06.07 18:40) [12]
Имхо, мелкомягким тут верить нельзя. Я бы не поверил. Они делают нечто, что будет корректно открываться их браузером, возможно какими-нибудь его будущими версиями. Сохраняй в rtf и конвертируй сам, если это возможно. Имхо, имхо, имхо.
а если попробывать сохранить посредством OO в его формате (*.odt), а потом открыть любым зип-разархиватором, то мы увидим совершенно валидный xml. или я путаю понятия ...
Страницы: 1 вся ветка
Форум: "Прочее";
Текущий архив: 2007.07.29;
Скачать: [xml.tar.bz2];
Память: 0.49 MB
Время: 0.047 c