Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Форум: "Потрепаться";
Текущий архив: 2004.07.04;
Скачать: [xml.tar.bz2];

Вниз

Архивы форумов   Найти похожие ветки 

 
McSimm ©   (2004-06-01 17:43) [0]

Начинаю выкладывать архивы форумов с марта.
http://www.delphimaster.ru/forum/digest/?M=D

Архивы представляют собой tar.bz2 файлы. Распаковка может производится WinRar или утилитами tar и bunzip2.exe

Содержимое архива представляет собой набор xml файлов и xsl шаблонов.

Просматривать можно с помощью IE6 и, вероятно, Mozilla (не проверено).

При желании можно разбирать XML самостоятельно для любых преобразований.

Просьба сообщать мне обо всех ошибках.


 
Игорь Шевченко ©   (2004-06-01 17:45) [1]

А еще на всякий случай ссылку на утилиты.


 
pasha_golub ©   (2004-06-01 17:46) [2]

Алелуйа!

Прошу прощения за оффтоп, а будет ли возможность поиска в архивах? Ну например, чтобы я не качал все, а нашел интересную мне ветку сразу.


 
McSimm ©   (2004-06-01 17:53) [3]

Утилиты tar.exe и bunzip2.exe выложил рядом с архивами


> а будет ли возможность поиска в архивах?

Полноценный поиск - точно нет.
Можно сделать возможность определения архива по ссылке на ветку.

Т.к. архивы будут формироваться, вероятно, раз в неделю, можно сделать также просмотр (R/O) веток, которые еще не попали в очередной архив


 
nikkie ©   (2004-06-01 17:58) [4]

в общем, архивы в таком виде уже гораздо лучше :))
смущает только, что случится с этим xml, если в тексте сообщения начнут встречаться открывающие-закрывающие теги msg, txt и т.п.

McSimm, а можешь описать логику формирования архива?
туда попадают те и только те посты, которые были сделаны в заданный период? может быть так, что в первом сообщении в xml-файле
<msg dt="04.03.04 16:01" i="0">
параметр i не равен 0?


 
McSimm ©   (2004-06-01 18:07) [5]


> если в тексте сообщения начнут встречаться открывающие-закрывающие
> теги msg, txt и т.п.

Они будут заменяны на <msg> и т.п.
Есть другая проблема с тэгами. Я пока не смог ее победить. Поэтому некоторые ветки могут теоретически не открыться, просьба сообщать обо всех обнаруженных проблемах.


> а можешь описать логику формирования архива?

Ветки, которые выталкваются из границ форумов помещаются в "корзину". Раз в период по этой корзине будут формироваться XML файлы. Ветки, в которых есть вопрос и нет ни одного сообщения в архив не попадают.


> может быть так, что в первом сообщении в xml-файле
> <msg dt="04.03.04 16:01" i="0">
> параметр i не равен 0?


Нет, не может. Это счетчик в цикле :)


 
McSimm ©   (2004-06-01 18:09) [6]


> Они будут заменяны на <msg> и т.п.


Они будут заменены на &_lt;msg&_gt; и т.п.


 
nikkie ©   (2004-06-01 18:15) [7]

>&_lt;msg&_gt;
это хорошо :)

тем не менее, и т.п. идут угловыми скобками, и незакрытый вовремя таг может испортить xml-документ. в смысле, что он не будет более well-formed.

>Есть другая проблема с тэгами. Я пока не смог ее победить.
может сразу скажешь, чтобы знать, к чему быть готовым? ;)


 
nikkie ©   (2004-06-01 18:16) [8]

@#$%^
тем не менее, < b > и т.п. идут ...


 
VEG ©   (2004-06-01 18:17) [9]

>McSimm
Вот, я дождался того, чего хотел! Наконец-то используются достойные форматы архивов!


 
VEG ©   (2004-06-01 18:39) [10]

В качестве поиска можно использовать стандартную виндовую искалку. Вводишь имя нужной ветки в поле "Искать текст", и получаешь ее...


 
VEG ©   (2004-06-01 18:48) [11]

bunzip2.exe не работает, ему не хватает компонента cygwin1.dll. Что за он?
---------------------------
bunzip2.exe - Unable To Locate Component
---------------------------
This application has failed to start because cygwin1.dll was not found. Re-installing the application may fix this problem.
---------------------------
OK  
---------------------------


 
pasha_golub ©   (2004-06-01 18:52) [12]

VEG ©   (01.06.04 18:39) [10]
Это у себя на машине, когда все уже скачал. :-)


 
VEG ©   (2004-06-01 19:20) [13]

>McSimm
 Все просто идеально. Только одна неудобность - номера конференций лучше бы начинались с сопутствуещего нуля (01, 02, ..., 10). Так, ИМХО, будет удобнее, и красивее.


 
miwa ©   (2004-06-01 19:39) [14]

Ну, если с нуля, тогда наверное 00000001, 00000002 и т.п. :о))


 
VEG ©   (2004-06-01 20:04) [15]

>>miwa
 В разумных рамках;) У нас нет такого количесва конференций...
>>McSimm
 forum-28.03.04\kol.xml в кратком тексте каждого вопроса, что под темой, пустота... Здесь же forum-28.03.04/10-1058022284.xml выдает:
The XML page cannot be displayed
Cannot view XML input using XSL style sheet. Please correct the error and then click the Refresh button, or try again later.
End tag "lgn" does not match the start tag "code". Error processing resource "file:///F:/My Downloads/_dmforum/forum-28.03.04/10-1058022284.xml". Line 5, Position 604
+ фрагмент кода XML

 И так огромное количество веток в секции KOL. Обидно за ветки. Надеюсь, у вас есть вохможность исправить эту проблему?


 
miwa ©   (2004-06-01 20:08) [16]


> У нас нет такого количесва конференций

Будут :о))
Ладно, два разряда сброшу. Но больше не просите :о))


 
Rouse_ ©   (2004-06-01 20:22) [17]

> McSimm ©  
Попробуй всеже переложить тот код который я тебе дал на Perl, идея то примитивна в реализации, но действует безотказно, примерно схожий подход применятся в интерпретаторах...


 
McSimm ©   (2004-06-01 20:40) [18]

Это совсем другая проблема. Может кто помнит - я глобально менял форум, в этот период произошла неудачная трансформация стрых данных в новые. Большое количество веток оказалось немного испорченными.
В других конференциях этот период отразился в других архивах.

Эти проблемы я только вручную смогу подправить.


 
ИМХО ©   (2004-06-01 20:50) [19]

ИМХО, дайджесты за 2002 и 2003 годы можно сносить. Кто хотел - уже скачал...


 
VEG ©   (2004-06-01 21:45) [20]

>>ИМХО
 Пока нельзя. Я качаю. По ДиалАп это очень долго и дорого:(
>>McSimm
 Вам не в тягость старые дайджесты перевести в tar.bz2 или в tar.gz . Долго по ДиалАпке зипы качать:( Не один я такой несчастный;)


 
McSimm ©   (2004-06-01 22:01) [21]

Старые удалять не буду. Пока не решил что с ними делать.
Или преобразовать к такому же виду, или просто перепаковать.


 
VEG ©   (2004-06-01 22:12) [22]

>McSimm
 Можете привести к новому виду - это лучший вариант. Вот вопрос, а вы точные id веток всех знаете, или будете по дате восстанавливать? И еще. Альтернативы по сжатию рассматриваются? По каким причинам был выбран именно tar.bz2?


 
GuAV ©   (2004-06-01 23:22) [23]


> Просьба сообщать мне обо всех ошибках.

forum-09.05.04.tar\0-1082565969.xml
forum-09.05.04.tar\0-1082963644.xml

> bunzip2.exe не работает, ему не хватает компонента cygwin1.dll.
> Что за он?

А winrar работает :)


 
miwa ©   (2004-06-02 01:52) [24]


>  [20] VEG ©   (01.06.04 21:45)
>  Пока нельзя. Я качаю. По ДиалАп это очень долго и дорого:(
> в tar.gz . Долго по ДиалАпке зипы качать:( Не один я такой
> несчастный;)

Хех. Я полгода (с перерывами, конечно) качал :о(.


 
Layner ©   (2004-06-02 08:36) [25]

А что zip"ов прежних уже не будет? На кой этот xml? Страницы html были удобнее, у меня они вестались, и по ним был удобный поиск - после 2 клика, вот тебе и страница. А тут ещё что то колдавать надо... И как сейчас быть, есть архивы за 2 года в zip, и пошли новые в tar...


 
Layner ©   (2004-06-02 14:21) [26]

-


 
Jeer ©   (2004-06-02 14:28) [27]

Layner ©   (02.06.04 08:36) [25]

Адним словом - "недодумано"


 
nikkie ©   (2004-06-02 15:15) [28]

почему же недодумано?
по моему отлично - для просмотра html все так же просто.
теперь файлы имеют правильные имена, а содержимое довольно просто разобрать. раньше архивы были просто свалкой, разобрать которую программно было невозможно.
а tar.gz или zip - WinRAR-у по фиг.


 
Jeer ©   (2004-06-02 16:08) [29]

Да хотя бы именование файлов стоило бы сделать из расчета YYYMMDD


 
Rouse_ ©   (2004-06-02 16:32) [30]

Главный плюс - обратите внимание на кол-во файлов в архиве и его объем, а теперь сравните с последним архивом дайджестов.


 
McSimm ©   (2004-06-02 19:18) [31]


> bunzip2.exe не работает,

Выложил


> VEG ©   (01.06.04 20:04) [15]
> The XML page cannot be displayed
...
> Надеюсь, у вас есть вохможность исправить эту проблему?

Проверил и исправил, насколько возможно, все файлы во всех архивах.
Если что-то пропустил, сообщайте.


> Альтернативы по сжатию рассматриваются? По каким причинам
> был выбран именно tar.bz2?

Исходя из того, что есть это лучший вариант.


> А что zip"ов прежних уже не будет? На кой этот xml? Страницы
> html были удобнее,

Использование XML позволяет существенно сократить объемы данных.
При том, что можно информацию просматривать существующими средствами, также облегчается программная обработка.


> у меня они вестались, и по ним был удобный поиск

Я не думаю, что сверстать XML+XSL сложно. Должно быть много разнообразных утилит для этого.


> Адним словом

Сделал.


 
Anatoly Podgoretsky ©   (2004-06-02 20:18) [32]

McSimm ©   (02.06.04 19:18) [31]
А какие были другие варианты?


 
GuAV ©   (2004-06-02 20:54) [33]


> Исходя из того, что есть это лучший вариант.

По какому критерию? может это по-ламерски но:
винрар перепаковал архив за 15 секунд результат: 1 133 310 байт = > 1 063 509 байт


 
Cobalt ©   (2004-06-02 23:50) [34]

2 GuAV ©
Видимо, Винрара не было в вариантах :)


 
VEG ©   (2004-06-03 01:13) [35]

>>GuAV
 RAR - это коммерческий формат. Автоматически исключается.
>>Jeer
 Это совершенно не нужно. Например, для программ, которые будут работать с архивами.


 
GuAV ©   (2004-06-03 01:27) [36]


> RAR - это коммерческий формат. Автоматически исключается.

Ну и что с того распаковать-то и бесплатно можно - unrar.exe, unrar.dll.
из некомерческих я знаю только tar.gz, zip и теперь ещё tar.bz2


 
VEG ©   (2004-06-03 01:42) [37]

>>GuAV
 Нда. Мал у тебя кругозор. На данный момент высочайшей степенью сжатия обладают ONE и PPMII (дожималка ONE) архиваторы. RAR3 уже относится к PPMII архиватрорам. Очень интересен PPMII архиватор CTX - по степени сжатия опережает RAR3...
 Я полагаю, архивы формируются автоматически. Поэтому RAR3 отпадает, ведь на сервере стоит FreeBSD.


 
Layner ©   (2004-06-03 11:38) [38]

Кстати, WINRAR 3.0 кажет ошибку в некоторых файлах - сбойный архив, причем входишь через внутренний архив сначала TAR видишь, потом BZIP2, а 3.20 видит сразу BZIP2, что очень удобно.


 
VEG ©   (2004-06-04 19:38) [39]

>>McSimm
Жду, когда вы старые дайджесты переконвертируете. Очень жду. Даже закачку остановил, чтобы лишнее не качать;) Или вы передумали сие деяние делать? Тогда очень жаль...


 
VEG ©   (2004-06-05 19:19) [40]

>>McSimm
Еще один небольшой совет, для удобства. Измените формат имени файла на такого типа: 001-dmforum-XX.XX.XXXX.tar.bz2, т.е. добавьте индекс и метку dm - delphimaster. Так папочки с архивами будут хоть по-порядку расположены. Искать нужную проще, другие плюсы. а изменений в скрипт - минимум. И не забудьте - номера конференций лучше бы начинались с сопутствуещего нуля (01, 02, ..., 10).



Страницы: 1 2 вся ветка

Форум: "Потрепаться";
Текущий архив: 2004.07.04;
Скачать: [xml.tar.bz2];

Наверх





Память: 0.55 MB
Время: 0.035 c
14-1086714684
Evgeniy_K
2004-06-08 21:11
2004.07.04
SysUtils


3-1086622471
}|{yk
2004-06-07 19:34
2004.07.04
Никто не знает как результаты выводимые dbms_output


1-1087399722
snake1977
2004-06-16 19:28
2004.07.04
Поиск по документам Word


1-1087523902
Артем К.
2004-06-18 05:58
2004.07.04
Есть ли в Delphi функция, которая число 10000 преобразует к виду


14-1087224535
Piter
2004-06-14 18:48
2004.07.04
Jedi VCL





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский