Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2004.06.27;
Скачать: CL | DM;

Вниз

Документы в электронном виде, или как сохранить книгу.   Найти похожие ветки 

 
iZEN ©   (2004-06-06 20:48) [0]

Сегодня провёл ряд экспериментов и для себя я решил: буду хранить отсканированные документы (только для чтения) в электронном виде в формате PNG!  

Плюсы решения.
1) Свободный формат растровой графики в Internet;
2) Сохраняющее сжатие, основанное на популярном LZW-сжатии (абсолютно нет артефактов сжатия);
3) Можно выбрать глубину цветности от B&W до 2^24bit и даже 2^48bit (truecolor); степень сжатия тоже можно выбрать (IrfanView позволил max 9);
4) Документ не теряет форматирование;
5) Быстрое преобразование из твёрдой копии в электронную и обратно; не нужно тратить время на распознавание и правку.

Минусы.
Больший объём файла по сравнению с распознанным "среднестатистическим" документом.

Цели.
1) Получить приемлемую для чтения печатную копию отсканированной страницы, на которой имеются схемы и рисунки;
2) Найти оптимум качество/размер файла при использовании сканера HP SJ2400 и принтера HP LJ1150.

Результат.
Субъективные впечатления от принтерной копии разворота книжки (полный разворот близок к ф.A4), где есть текст, код программы, схема, мелкие подписи к рисунку.

(Первая цифра - число бит на цвет; вторая цифра - разрешение при сканировании, dpi; третья цифра - размер файла, округлено в большую сторону до 5k):

1 x 75 x 20k - текст практически неразборчив;
1 x 100 x 35k - текст с артефактами, тяжело читать;
1 x 150 x 65k - читать можно, но коды программ лучше не смотреть;
1 x 200 x 100k - нормально, но глаза дороже;
1 x 300 x 200k - пойдёт;

256 x 75 x 170k - серая мешанина, буквы лишь угадываются;
256 x 100 x 300k - можно испортить глаза;
256 x 150 x 670k - более/менее, явно не хватает контрастности;
256 x 200 x 1150k - нормально, контрастности всё ещё не хватает;
256 x 300 x 2680k - хорошо.

Вывод.
Итак, для себя я сделал выбор в пользу 256 x 150dpi, при условии калибровки контрастности на сканере и увеличении разрешающей способности принтера (600x600dpi->1200x1200dpi). И, самое главное, книжка должна быть небольшая, а то 150Мб на 500 стр. - это уже весело.

Хотелось бы услышать сторонние мнения.


 
wl   (2004-06-06 21:44) [1]

распознанные доки в .док, фотки в .джипег...


 
iZEN ©   (2004-06-06 22:08) [2]

/**wl   (06.06.04 21:44) [1]
распознанные доки в .док, фотки в .джипег...
*/
Время на распознавание и правку? Фотки.джипег после печати какие?
;)


 
ИМХО ©   (2004-06-06 22:11) [3]

ИМХО, тогда уж лучше хранить документы в многостраничных tiff-ах. Различные виды компрессии и все такое.


 
Ske4er   (2004-06-06 22:14) [4]

PDF?


 
Ske4er   (2004-06-06 22:18) [5]

Насколько я помню, разница между PNG и GIF, в том что первый позволяет 65k тысяч цветов и многоступенчатую прозрачность (альфа-канналы). Если конечный выбор 256 цветов и для документов вы не собираетесь использовать прозрачность (в чем я, в принципе, уверен), то зачем использовать его PNG? Ведь можно с легкостью обойтись GIF, что, кстати, обеспечит поддержку старых машин и софта...


 
GuAV ©   (2004-06-06 22:25) [6]

а может юзать формат DjVu ?


 
RealRascal ©   (2004-06-06 22:25) [7]

post script


 
Ske4er   (2004-06-06 22:26) [8]

Сорри, стормозил... 256 это оказывается бит на цвет имелось ввиду...


 
iZEN ©   (2004-06-06 22:30) [9]

У PNG лучше сжатие, чем у GIF - факт.


 
iZEN ©   (2004-06-06 22:32) [10]

PDF и DjVu отпали из-за проприетарности формата.
Для них нужны просмотрщики, весящие много и не на всех платформах работающие (правильно).


 
RealRascal ©   (2004-06-06 22:41) [11]

вот джпег катинки размазывает, а тифф нет. для текстов тифф больше подходит. а png как?


 
сканер   (2004-06-06 22:41) [12]

HTML and (JPG or GIF or PNG) and Delphi :)
Получится небольшой вес :)
  А проще всего ABBY Fine Reader с сохранением форматирования и с преобразованием в формат DOC. В этом случае и редактировать можно, и переформатировать без всякой канители.


 
GuAV ©   (2004-06-06 22:46) [13]


> PDF


> Для них нужны просмотрщики, весящие много и не на всех платформах
> работающие (правильно).

По моему ламерскому мнению идеология PDF - всеплатформенность и одинаковый вид документа на разных платформах...


> а png как?

PNG - замена GIF - текст не мажет

> тифф

тифф может быть и JPEG


 
ИМХО ©   (2004-06-06 22:48) [14]

Хранить документы в PNG - это, мягко говоря, мазохизм.


 
Ske4er   (2004-06-06 23:03) [15]

-PDF дейтвительно межплатфрмен, поэтому и популярен.

- "PNG можно использовать просто для оптимизации размеров файлов. Если в формате PNG изображение занимает меньше места, рационально использовать именно PNG. Разница между PNG и GIF по размеру может быть очень существенной, однако, как правило, не отличается больше, чем на 10-20 процентов в ту или иную сторону." Если речь идет о тексте (большие участки белого и черного) то GIF дает бОльшую степень сжатия, т.к. у PNG выше глубина цвета в CLUT. А прото, что Gif "размазывает" текст, так погу посоветовать купить себе новый сканер... ;)


 
iZEN ©   (2004-06-06 23:04) [16]

PNG: ~150Мб на 500стр. текста и схем, полутоновое качество, 150dpi. Можно читать с экрана и быстро и с приемлемым качеством распечатывать на принтере.

Естественно, главное достижение текстовых форматов - ПОИСК - недоступен.

DjVu: ~15Мб на 500стр. текста и схем, поиск есть.


 
GuAV ©   (2004-06-06 23:13) [17]


>  А прото, что Gif "размазывает" текст, так погу посоветовать
> купить себе новый сканер... ;)

так я и говорю ни PNG ни GIF не мажет :)


> Хранить документы в PNG - это, мягко говоря, мазохизм.

А если не распознавая.

> Естественно, главное достижение текстовых форматов - ПОИСК
> - недоступен.

Есть и другое Ctrl+C Ctrl+V :)


 
DiamondShark ©   (2004-06-06 23:19) [18]


> и с преобразованием в формат DOC

Проприетарный формат. :(

Тогда уж RTF или HTML.


 
iZEN ©   (2004-06-06 23:32) [19]

Попробовал в TIFF перевести.
Документ более/менее нормально выглядит на распечатке, отсканированным при
256 x 200dpi (размер 127k).

Нормально читается при сканировании
256 x 300dpi (размер 223k).


 
GuAV ©   (2004-06-06 23:34) [20]


> > и с преобразованием в формат DOC
> Проприетарный формат. :(

И лажовый :( если не надо редактировать - то ну его нафиг.


 
Gero ©   (2004-06-06 23:55) [21]

HTML рулит.
Мой любимый формат :)
Правда распознавать придется.



Страницы: 1 вся ветка

Текущий архив: 2004.06.27;
Скачать: CL | DM;

Наверх




Память: 0.52 MB
Время: 0.049 c
14-1086606117
Agent[007]
2004-06-07 15:01
2004.06.27
WEB


1-1087023477
Dmitriy Volkov
2004-06-12 10:57
2004.06.27
прозрачность


1-1087248956
CyberSpy
2004-06-15 01:35
2004.06.27
RxLIB


1-1086850034
Konstantin
2004-06-10 10:47
2004.06.27
Помогите пожалуйста с Excel, - <invalid variant operation>


14-1086758753
Timon
2004-06-09 09:25
2004.06.27
Навороченный TStringGrid где взять?