Форум: "Потрепаться";
Текущий архив: 2004.06.27;
Скачать: [xml.tar.bz2];
ВнизДокументы в электронном виде, или как сохранить книгу. Найти похожие ветки
← →
iZEN © (2004-06-06 20:48) [0]Сегодня провёл ряд экспериментов и для себя я решил: буду хранить отсканированные документы (только для чтения) в электронном виде в формате PNG!
Плюсы решения.
1) Свободный формат растровой графики в Internet;
2) Сохраняющее сжатие, основанное на популярном LZW-сжатии (абсолютно нет артефактов сжатия);
3) Можно выбрать глубину цветности от B&W до 2^24bit и даже 2^48bit (truecolor); степень сжатия тоже можно выбрать (IrfanView позволил max 9);
4) Документ не теряет форматирование;
5) Быстрое преобразование из твёрдой копии в электронную и обратно; не нужно тратить время на распознавание и правку.
Минусы.
Больший объём файла по сравнению с распознанным "среднестатистическим" документом.
Цели.
1) Получить приемлемую для чтения печатную копию отсканированной страницы, на которой имеются схемы и рисунки;
2) Найти оптимум качество/размер файла при использовании сканера HP SJ2400 и принтера HP LJ1150.
Результат.
Субъективные впечатления от принтерной копии разворота книжки (полный разворот близок к ф.A4), где есть текст, код программы, схема, мелкие подписи к рисунку.
(Первая цифра - число бит на цвет; вторая цифра - разрешение при сканировании, dpi; третья цифра - размер файла, округлено в большую сторону до 5k):
1 x 75 x 20k - текст практически неразборчив;
1 x 100 x 35k - текст с артефактами, тяжело читать;
1 x 150 x 65k - читать можно, но коды программ лучше не смотреть;
1 x 200 x 100k - нормально, но глаза дороже;
1 x 300 x 200k - пойдёт;
256 x 75 x 170k - серая мешанина, буквы лишь угадываются;
256 x 100 x 300k - можно испортить глаза;
256 x 150 x 670k - более/менее, явно не хватает контрастности;
256 x 200 x 1150k - нормально, контрастности всё ещё не хватает;
256 x 300 x 2680k - хорошо.
Вывод.
Итак, для себя я сделал выбор в пользу 256 x 150dpi, при условии калибровки контрастности на сканере и увеличении разрешающей способности принтера (600x600dpi->1200x1200dpi). И, самое главное, книжка должна быть небольшая, а то 150Мб на 500 стр. - это уже весело.
Хотелось бы услышать сторонние мнения.
← →
wl (2004-06-06 21:44) [1]распознанные доки в .док, фотки в .джипег...
← →
iZEN © (2004-06-06 22:08) [2]/**wl (06.06.04 21:44) [1]
распознанные доки в .док, фотки в .джипег...
*/
Время на распознавание и правку? Фотки.джипег после печати какие?
;)
← →
ИМХО © (2004-06-06 22:11) [3]ИМХО, тогда уж лучше хранить документы в многостраничных tiff-ах. Различные виды компрессии и все такое.
← →
Ske4er (2004-06-06 22:14) [4]PDF?
← →
Ske4er (2004-06-06 22:18) [5]Насколько я помню, разница между PNG и GIF, в том что первый позволяет 65k тысяч цветов и многоступенчатую прозрачность (альфа-канналы). Если конечный выбор 256 цветов и для документов вы не собираетесь использовать прозрачность (в чем я, в принципе, уверен), то зачем использовать его PNG? Ведь можно с легкостью обойтись GIF, что, кстати, обеспечит поддержку старых машин и софта...
← →
GuAV © (2004-06-06 22:25) [6]а может юзать формат DjVu ?
← →
RealRascal © (2004-06-06 22:25) [7]post script
← →
Ske4er (2004-06-06 22:26) [8]Сорри, стормозил... 256 это оказывается бит на цвет имелось ввиду...
← →
iZEN © (2004-06-06 22:30) [9]У PNG лучше сжатие, чем у GIF - факт.
← →
iZEN © (2004-06-06 22:32) [10]PDF и DjVu отпали из-за проприетарности формата.
Для них нужны просмотрщики, весящие много и не на всех платформах работающие (правильно).
← →
RealRascal © (2004-06-06 22:41) [11]вот джпег катинки размазывает, а тифф нет. для текстов тифф больше подходит. а png как?
← →
сканер (2004-06-06 22:41) [12]HTML and (JPG or GIF or PNG) and Delphi :)
Получится небольшой вес :)
А проще всего ABBY Fine Reader с сохранением форматирования и с преобразованием в формат DOC. В этом случае и редактировать можно, и переформатировать без всякой канители.
← →
GuAV © (2004-06-06 22:46) [13]
> Для них нужны просмотрщики, весящие много и не на всех платформах
> работающие (правильно).
По моему ламерскому мнению идеология PDF - всеплатформенность и одинаковый вид документа на разных платформах...
> а png как?
PNG - замена GIF - текст не мажет
> тифф
тифф может быть и JPEG
← →
ИМХО © (2004-06-06 22:48) [14]Хранить документы в PNG - это, мягко говоря, мазохизм.
← →
Ske4er (2004-06-06 23:03) [15]-PDF дейтвительно межплатфрмен, поэтому и популярен.
- "PNG можно использовать просто для оптимизации размеров файлов. Если в формате PNG изображение занимает меньше места, рационально использовать именно PNG. Разница между PNG и GIF по размеру может быть очень существенной, однако, как правило, не отличается больше, чем на 10-20 процентов в ту или иную сторону." Если речь идет о тексте (большие участки белого и черного) то GIF дает бОльшую степень сжатия, т.к. у PNG выше глубина цвета в CLUT. А прото, что Gif "размазывает" текст, так погу посоветовать купить себе новый сканер... ;)
← →
iZEN © (2004-06-06 23:04) [16]PNG: ~150Мб на 500стр. текста и схем, полутоновое качество, 150dpi. Можно читать с экрана и быстро и с приемлемым качеством распечатывать на принтере.
Естественно, главное достижение текстовых форматов - ПОИСК - недоступен.
DjVu: ~15Мб на 500стр. текста и схем, поиск есть.
← →
GuAV © (2004-06-06 23:13) [17]
> А прото, что Gif "размазывает" текст, так погу посоветовать
> купить себе новый сканер... ;)
так я и говорю ни PNG ни GIF не мажет :)
> Хранить документы в PNG - это, мягко говоря, мазохизм.
А если не распознавая.
> Естественно, главное достижение текстовых форматов - ПОИСК
> - недоступен.
Есть и другое Ctrl+C Ctrl+V :)
← →
DiamondShark © (2004-06-06 23:19) [18]
> и с преобразованием в формат DOC
Проприетарный формат. :(
Тогда уж RTF или HTML.
← →
iZEN © (2004-06-06 23:32) [19]Попробовал в TIFF перевести.
Документ более/менее нормально выглядит на распечатке, отсканированным при
256 x 200dpi (размер 127k).
Нормально читается при сканировании
256 x 300dpi (размер 223k).
← →
GuAV © (2004-06-06 23:34) [20]
> > и с преобразованием в формат DOC
> Проприетарный формат. :(
И лажовый :( если не надо редактировать - то ну его нафиг.
← →
Gero © (2004-06-06 23:55) [21]HTML рулит.
Мой любимый формат :)
Правда распознавать придется.
Страницы: 1 вся ветка
Форум: "Потрепаться";
Текущий архив: 2004.06.27;
Скачать: [xml.tar.bz2];
Память: 0.5 MB
Время: 0.03 c