Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2007.07.29;
Скачать: CL | DM;

Вниз

Насколько вордовский документ, сохранённый в HTML является XHTML?   Найти похожие ветки 

 
jack128 ©   (2007-06-29 14:29) [0]

Собственно сабж?
У меня желания более чем скромные,
нуно чтоб для всех открывающихся тегов были соответствующие закрывающиеся и чтобы не было пересекающихся тегов а-ля
текст
Можно ли на это закладываться для Word"а 2003  ?


 
homm ©   (2007-06-29 14:31) [1]

http://validator.w3.org/ в помощь :)


 
jack128 ©   (2007-06-29 14:40) [2]

Хе, ну проверю я пару документов, а толку то ;-) Я думал может кто сталкивался с обработкой вордовских html"ей и может чтонить обнадеживающее на основании своего опыта сказать..

jack128 ©   (29.06.07 14:29)
чтобы не было пересекающихся тегов а-ля
текст


хе. Имелось в виду < b > < i > Текст < /b > < /i >


 
homm ©   (2007-06-29 14:47) [3]

> Хе, ну проверю я пару документов, а толку то ;-)

Ну ты проверь. Может сразу ошибки будут, и ответ на твой вопрос будет отрицательным.


 
jack128 ©   (2007-06-29 15:08) [4]

homm ©   (29.06.07 14:47) [3]
Ну ты проверь. Может сразу ошибки будут, и ответ на твой вопрос будет отрицательным.

Не, ну как раз пару доков я проверил, вроде всё OK.  Но если даже 10% документов будут не валидны, то ой...


 
exactly   (2007-06-29 15:14) [5]

jack128 ©   (29.06.07 15:08) [4]
может в техподдержке спросить?;)


 
SPeller ©   (2007-06-29 16:32) [6]

Вопрос - у вас документ целиком сохраняется или копируется частями? Если целиком, то возможно и более-менее валидный получается, но я по работе очень часто сталкиваюсь с хтмл-ем от ворда когда его копируют частями (скопировали из ворда - вставили в IE-based хтмл-редактор). И от 2003-го тоже. Так вот резльтат от таких действий - просто ГОВЁННЫЙ получается. Незакрытые теги встречаются очень часто. Конструкции вида <tag></tag> (без текста между тегами) или <tag><tag</tag></tag> обычное явление. Особенно плохо с таблицами. Что касается xhtml - то помоему офис не знает что такое <br /> вместо <br> и <img /> вместо <img>. Но такие заведомо одинарные теги можно и руками пройти и поправить. И это, собсно, основной критерий для валидности именно xhtml. Соответствие открытых тегов закрытым после ворда тоже лучше проверить. Тут, думаю, программистский ум без труда сможет найти выход )


 
SPeller ©   (2007-06-29 16:37) [7]

Если же вопрос именно в решении "является ли хтмл от ворда валидным xhtml" - то заведомо нет. Вот сейчас проверил - сохранил в хтмл документ с переводом строки по shift+enter, и тамоаказался тег <br>, без слеша. Да и некое подобие доктайпа гласит html40, что явно указывает на несоответствие xhtml


 
ferr ©   (2007-06-29 16:45) [8]

Word2007 сохраняет в открытый формат OpenXML который находится на пути к стандартизации.


 
SPeller ©   (2007-06-29 16:49) [9]

Если вопрос лицензирования не стоит, то можно и 2007 офис заюзать.


 
jack128 ©   (2007-06-29 17:33) [10]

SPeller ©   (29.06.07 16:32) [6]
Вопрос - у вас документ целиком сохраняется или копируется частями?

Нет, мне нужно на части разбивать документ, но я делаю так: создаю новый документ, вставляю кусок из старого и сохраняю док в хтмл.

SPeller ©   (29.06.07 16:32) [6]
Что касается xhtml - то помоему офис не знает что такое <br /> вместо <br> и <img /> вместо <img>.

Да, я уже наткнулся. Более того, судя по отработки моего кода - _иногда_ не закрывается тег <p>.  

К слову, кто нить сечет в регулярных выражениях, такая задача есть
есть html на 12 метров  в нем есть такой код:
<td> тря-ля-ля <p> траля-ля </td>  
То есть есть незакрытый тег <p>  нуно это место найти.  Есть notepad++ который умеет искать по регулярным выражениям. Вот мне бы выражение это пулучить...

SPeller ©   (29.06.07 16:49) [9]
Если вопрос лицензирования не стоит, то можно и 2007 офис заюзать.

Стоит :-(


 
McSimm ©   (2007-06-29 18:22) [11]


> jack128 ©   (29.06.07 17:33) [10]

Посмотри http://tidy.sourceforge.net/ http://sourceforge.net/projects/tidy

Библиотеки для проверки и коррекции html


 
TUser ©   (2007-06-29 18:40) [12]

Имхо, мелкомягким тут верить нельзя. Я бы не поверил. Они делают нечто, что будет корректно открываться их браузером, возможно какими-нибудь его будущими версиями. Сохраняй в rtf и конвертируй сам, если это возможно. Имхо, имхо, имхо.


 
Rouse_ ©   (2007-06-29 19:10) [13]

Открываться это будет нашим браузером самописным (задача к сожалению такая, что потребовалось цельный браузер поднимать), поэтому много условностей он пропускает и частично некоректно работает с незакрытыми тегами. Вот Женька и мучается с подготовкой документов, которые изначально в Word-овском формате поступают к нам.


 
TUser ©   (2007-07-01 08:25) [14]

97-й ворд сохранял вовсе не такой хатмель, как 2000 и последующие. Так что и тут возможны грабли, - отладить все на ХР-2007, а через год-другой переделывать. rtf вроде, стандартизован, а из него в свой хатмель можно перегнать. Имхо, надежнее, если свой какой-то браузер.


 
Vendict ©   (2007-07-01 11:38) [15]

TUser ©   (29.06.07 18:40) [12]
Имхо, мелкомягким тут верить нельзя. Я бы не поверил. Они делают нечто, что будет корректно открываться их браузером, возможно какими-нибудь его будущими версиями. Сохраняй в rtf и конвертируй сам, если это возможно. Имхо, имхо, имхо.


а если попробывать сохранить посредством OO в его формате (*.odt), а потом открыть любым зип-разархиватором, то мы увидим совершенно валидный xml. или я путаю понятия ...



Страницы: 1 вся ветка

Текущий архив: 2007.07.29;
Скачать: CL | DM;

Наверх




Память: 0.51 MB
Время: 0.028 c
15-1183554223
DillerXX
2007-07-04 17:03
2007.07.29
Посоветуйте пожалуйста книгу ...


2-1183425203
Dreamse
2007-07-03 05:13
2007.07.29
Как найти все созданные формы ? Перечислить.


3-1177356298
Jeeb
2007-04-23 23:24
2007.07.29
Большая база Access


11-1166123770
Trible
2006-12-14 22:16
2007.07.29
CustomData


2-1183698279
Vasyl
2007-07-06 09:04
2007.07.29
Удаления из програмы