Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Форум: "Прочее";
Текущий архив: 2007.07.29;
Скачать: [xml.tar.bz2];

Вниз

Насколько вордовский документ, сохранённый в HTML является XHTML?   Найти похожие ветки 

 
jack128 ©   (2007-06-29 14:29) [0]

Собственно сабж?
У меня желания более чем скромные,
нуно чтоб для всех открывающихся тегов были соответствующие закрывающиеся и чтобы не было пересекающихся тегов а-ля
текст
Можно ли на это закладываться для Word"а 2003  ?


 
homm ©   (2007-06-29 14:31) [1]

http://validator.w3.org/ в помощь :)


 
jack128 ©   (2007-06-29 14:40) [2]

Хе, ну проверю я пару документов, а толку то ;-) Я думал может кто сталкивался с обработкой вордовских html"ей и может чтонить обнадеживающее на основании своего опыта сказать..

jack128 ©   (29.06.07 14:29)
чтобы не было пересекающихся тегов а-ля
текст


хе. Имелось в виду < b > < i > Текст < /b > < /i >


 
homm ©   (2007-06-29 14:47) [3]

> Хе, ну проверю я пару документов, а толку то ;-)

Ну ты проверь. Может сразу ошибки будут, и ответ на твой вопрос будет отрицательным.


 
jack128 ©   (2007-06-29 15:08) [4]

homm ©   (29.06.07 14:47) [3]
Ну ты проверь. Может сразу ошибки будут, и ответ на твой вопрос будет отрицательным.

Не, ну как раз пару доков я проверил, вроде всё OK.  Но если даже 10% документов будут не валидны, то ой...


 
exactly   (2007-06-29 15:14) [5]

jack128 ©   (29.06.07 15:08) [4]
может в техподдержке спросить?;)


 
SPeller ©   (2007-06-29 16:32) [6]

Вопрос - у вас документ целиком сохраняется или копируется частями? Если целиком, то возможно и более-менее валидный получается, но я по работе очень часто сталкиваюсь с хтмл-ем от ворда когда его копируют частями (скопировали из ворда - вставили в IE-based хтмл-редактор). И от 2003-го тоже. Так вот резльтат от таких действий - просто ГОВЁННЫЙ получается. Незакрытые теги встречаются очень часто. Конструкции вида <tag></tag> (без текста между тегами) или <tag><tag</tag></tag> обычное явление. Особенно плохо с таблицами. Что касается xhtml - то помоему офис не знает что такое <br /> вместо <br> и <img /> вместо <img>. Но такие заведомо одинарные теги можно и руками пройти и поправить. И это, собсно, основной критерий для валидности именно xhtml. Соответствие открытых тегов закрытым после ворда тоже лучше проверить. Тут, думаю, программистский ум без труда сможет найти выход )


 
SPeller ©   (2007-06-29 16:37) [7]

Если же вопрос именно в решении "является ли хтмл от ворда валидным xhtml" - то заведомо нет. Вот сейчас проверил - сохранил в хтмл документ с переводом строки по shift+enter, и тамоаказался тег <br>, без слеша. Да и некое подобие доктайпа гласит html40, что явно указывает на несоответствие xhtml


 
ferr ©   (2007-06-29 16:45) [8]

Word2007 сохраняет в открытый формат OpenXML который находится на пути к стандартизации.


 
SPeller ©   (2007-06-29 16:49) [9]

Если вопрос лицензирования не стоит, то можно и 2007 офис заюзать.


 
jack128 ©   (2007-06-29 17:33) [10]

SPeller ©   (29.06.07 16:32) [6]
Вопрос - у вас документ целиком сохраняется или копируется частями?

Нет, мне нужно на части разбивать документ, но я делаю так: создаю новый документ, вставляю кусок из старого и сохраняю док в хтмл.

SPeller ©   (29.06.07 16:32) [6]
Что касается xhtml - то помоему офис не знает что такое <br /> вместо <br> и <img /> вместо <img>.

Да, я уже наткнулся. Более того, судя по отработки моего кода - _иногда_ не закрывается тег <p>.  

К слову, кто нить сечет в регулярных выражениях, такая задача есть
есть html на 12 метров  в нем есть такой код:
<td> тря-ля-ля <p> траля-ля </td>  
То есть есть незакрытый тег <p>  нуно это место найти.  Есть notepad++ который умеет искать по регулярным выражениям. Вот мне бы выражение это пулучить...

SPeller ©   (29.06.07 16:49) [9]
Если вопрос лицензирования не стоит, то можно и 2007 офис заюзать.

Стоит :-(


 
McSimm ©   (2007-06-29 18:22) [11]


> jack128 ©   (29.06.07 17:33) [10]

Посмотри http://tidy.sourceforge.net/ http://sourceforge.net/projects/tidy

Библиотеки для проверки и коррекции html


 
TUser ©   (2007-06-29 18:40) [12]

Имхо, мелкомягким тут верить нельзя. Я бы не поверил. Они делают нечто, что будет корректно открываться их браузером, возможно какими-нибудь его будущими версиями. Сохраняй в rtf и конвертируй сам, если это возможно. Имхо, имхо, имхо.


 
Rouse_ ©   (2007-06-29 19:10) [13]

Открываться это будет нашим браузером самописным (задача к сожалению такая, что потребовалось цельный браузер поднимать), поэтому много условностей он пропускает и частично некоректно работает с незакрытыми тегами. Вот Женька и мучается с подготовкой документов, которые изначально в Word-овском формате поступают к нам.


 
TUser ©   (2007-07-01 08:25) [14]

97-й ворд сохранял вовсе не такой хатмель, как 2000 и последующие. Так что и тут возможны грабли, - отладить все на ХР-2007, а через год-другой переделывать. rtf вроде, стандартизован, а из него в свой хатмель можно перегнать. Имхо, надежнее, если свой какой-то браузер.


 
Vendict ©   (2007-07-01 11:38) [15]

TUser ©   (29.06.07 18:40) [12]
Имхо, мелкомягким тут верить нельзя. Я бы не поверил. Они делают нечто, что будет корректно открываться их браузером, возможно какими-нибудь его будущими версиями. Сохраняй в rtf и конвертируй сам, если это возможно. Имхо, имхо, имхо.


а если попробывать сохранить посредством OO в его формате (*.odt), а потом открыть любым зип-разархиватором, то мы увидим совершенно валидный xml. или я путаю понятия ...



Страницы: 1 вся ветка

Форум: "Прочее";
Текущий архив: 2007.07.29;
Скачать: [xml.tar.bz2];

Наверх





Память: 0.49 MB
Время: 0.038 c
3-1177344935
Juice
2007-04-23 20:15
2007.07.29
Результат ХП как рез. поле запроса


15-1183317832
c0deRR
2007-07-01 23:23
2007.07.29
Каким RSS ридером вы пользуетесь? Почему? Что [не]нравится?


1-1175271189
Углук
2007-03-30 20:13
2007.07.29
Как окрасить TChartSeries?


15-1182293502
Riply
2007-06-20 02:51
2007.07.29
Самое "часто-встречающиеся" имя в интернете ?


2-1183463152
WASM
2007-07-03 15:45
2007.07.29
Как определить нажатые клавиши





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский