Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2004.07.11;
Скачать: CL | DM;

Вниз

Текстовые файлы   Найти похожие ветки 

 
Luarvic   (2004-06-28 14:51) [0]

Как определить текстовый файл иль не текстовый (естествинно програмным образом!)?


 
Тимохов ©   (2004-06-28 14:53) [1]

100% никак


 
PVOzerski ©   (2004-06-28 14:55) [2]

Статистикой представленности в нем "текстовых" и "нетекстовых" символов. Для DOS/WIN - еще и сопряженность #10 и #13. См. также [1].


 
Тимохов ©   (2004-06-28 14:56) [3]

о, привет, кстати я тебя вспомнил, только тогда ты русский был.

определить можно, только в определенной долей вероятности.
можно сказать, что этот файл не текстовый (кстати, определение текстового файла на бочку :))). Сложнее сказать, что этот файл текстовый.

Делать надо на основе вхождения допустимых символов. Присутствия переводов строк и т.д.


 
Луарвик   (2004-06-28 15:09) [4]

Здарова, Тимохов! Я заметил, что в нетекстовых файлах встречаються символы с ord(?)=0. Мож еще на подоби такого способы есть?


 
panov ©   (2004-06-28 15:15) [5]

100%-е определение текстового файла:

Текстовый файл - файл, который содержит только буквы, цифры, знаки препинания, а также разделители строк.


 
Тимохов ©   (2004-06-28 15:17) [6]


> panov ©   (28.06.04 15:15) [5]

а случайно так, что быть не может?
теоретиески то может имхо....


> Луарвик   (28.06.04 15:09) [4]


> Мож еще на подоби такого способы есть?

Давайте подитожим - какой способ вам уже известен.


 
panov ©   (2004-06-28 15:18) [7]

>Тимохов ©   (28.06.04 15:17) [6]

Случайно?

Хоть случайно, хоть специально - файл текстовым будет называться.-)


 
Тимохов ©   (2004-06-28 15:21) [8]


> файл текстовым будет называться.-)

думаю, все зависит от определения текстового файла 8)


 
PVOzerski ©   (2004-06-28 15:24) [9]

2panov ©:
Предположим, мне понадобилось в текстовом файле использовать знак доллара, № или квадратного корня. И как, файл перестал быть текстовым? А если таблицы из псевдографики?


 
Луарвик   (2004-06-28 15:35) [10]

Единственный метод - это проверка файла по символу. С помощью ord: если возвращает "0" значит файл 100% не текстовый! Это все .exe, .dll и т.п. Архивы часто считаються текстовыми!


 
Луарвик   (2004-06-28 15:35) [11]

Точнее 50 на 50 не текстовый :)


 
Тимохов ©   (2004-06-28 15:36) [12]


> Архивы часто считаються текстовыми!

вами считаются?


 
PVOzerski ©   (2004-06-28 15:39) [13]

[10] - это здОрово, но что считать, если #0 там нет? :^)


 
Луарвик   (2004-06-28 15:42) [14]

>вами считаются?
Говорю, что они не имеют нулевых символов! Вернее не все.
>[10] - это здОрово, но что считать, если #0 там нет? :^)
А вот за этим знанием я и зашел на этот замечательный форум.


 
panov ©   (2004-06-28 15:43) [15]

>PVOzerski ©   (28.06.04 15:24) [9]

2panov ©:
Предположим, мне понадобилось в текстовом файле использовать знак доллара, № или квадратного корня. И как, файл перестал быть текстовым? А если таблицы из псевдографики?


Это уже не текстовые файлы. Это уже документы


 
Anatoly Podgoretsky ©   (2004-06-28 15:44) [16]

Считать ли Юникод файлы текстовыми


 
panov ©   (2004-06-28 15:45) [17]

>Луарвик   (28.06.04 15:42) [14]

Тебе нужно точно определиться, какие файлы будешь считать текстовыми. Только тогда не возникнет сложностей в определении программно типа файла.


 
panov ©   (2004-06-28 15:46) [18]

>Anatoly Podgoretsky ©   (28.06.04 15:44) [16]

конечно, если они подходят под под определение panov ©   (28.06.04 15:15) [5]


 
Тимохов ©   (2004-06-28 15:47) [19]


> Луарвик   (28.06.04 15:42) [14]

определитесь все-таки с тем, что такое текстовый файл.
У вас есть определенная задача - может от нее пойти?
Расскажите, многое станет яснее.


 
Луарвик   (2004-06-28 15:49) [20]

>Считать ли Юникод файлы текстовыми
Этот вопрос все очень усложняет. В принцепе работа идет, или должна идти с html, а много их в Юникоде?


 
panov ©   (2004-06-28 15:50) [21]

>PVOzerski ©   (28.06.04 15:24) [9]
Кстати, можно немного расширить определение.

Текстовым файлом называется файл, которые может содержать только печатаемые символы (буквы, цифры и знаки препинания, а также пробел и знак табуляции), сгруппированнные в строки переменной длины, разделяемые принятым в данной операционной системе разделителем строк.


 
Anatoly Podgoretsky ©   (2004-06-28 15:52) [22]

panov ©   (28.06.04 15:43) [15]
Отлично, именно подходят под твое определение, но только не оставляет надежды для тех кто расчитывал на код 0

Луарвик   (28.06.04 15:49) [20]
html по определению текстовый


 
Луарвик   (2004-06-28 15:52) [23]

Я ищю в веб странице гипер ссылки. Там есть немного больше знаков чем сказал panov...


 
Луарвик   (2004-06-28 15:55) [24]

Ну ладно, в принцепе все ясно. Но вдруг кто-то возмет ехе и поменяет в нем формат на .htm? Это ж будет не хорошо. Прога моя не поймет что это!


 
Sandman25 ©   (2004-06-28 15:56) [25]

>Прога моя не поймет что это!

Прога должна будет ругнуться. И все.


 
Тимохов ©   (2004-06-28 15:56) [26]

Братцы!!!
Он паука пишет, наши адреса собирать!

Смерть спамерам!


 
Луарвик   (2004-06-28 16:03) [27]

Какого там паука? Прсто пакет для работы с текстом НА ЛОКАЛЬНОЙ МАШИНЕ. Поиск, замена, сортировка результатов и т.д
За последствия своей программы разробочик не несет ответственности...


 
Тимохов ©   (2004-06-28 16:05) [28]


> Луарвик   (28.06.04 16:03) [27]

не отмоешься :))))

В чем собственно проблема:
1. Вы должны файл парсить, т.е. разбирать.
2. Когда парсите, то делаете это по определенным законам - если следующий входной символ не удовлетворяет законам, то ошибка.
3. На фига вообще знать какой файл, текстовы или нет. Пишите парсер html и дело в шляпе.


 
Johnmen ©   (2004-06-28 16:06) [29]

>panov ©

А файл текстовый, если последний байт 26 ?


 
Луарвик   (2004-06-28 16:08) [30]

Ок, токо узнаю че такое "парсер". Тут где-нить есть статьи?
З.Ы. Давай уж или на "ты" или на "вы"? Первое предпочтительней.


 
Anatoly Podgoretsky ©   (2004-06-28 16:13) [31]

Тимохов ©   (28.06.04 16:05) [28]
В этом случае у него будет даже расщиренное применение, сможет выдирать почтовые адреса и из двоичных файлов.


 
panov ©   (2004-06-28 16:13) [32]

>Johnmen ©   (28.06.04 16:06) [29]
А что, еще остались программы, которые его добавляют?-)

Если неформально подходить, то я бы такой файл текстовым считал.
Просто для себя расширил бы определение текстового файла.


 
Тимохов ©   (2004-06-28 16:15) [33]


> Луарвик   (28.06.04 16:08) [30]

да без проблем.

ты читать умеешь? значит ты уже имеешь встроенный парсер - в текстсте выделить слова, знаки припенания и т.д.

если ты поинмаешь еще и html, то ты имеешь встроенный в тебя пасер html.

Задача научить комп уметь понимать html. Вот, например browser это делать уже умеет.

Поищи в сети парсера есть - сам никогда html я не парсил.


 
Тимохов ©   (2004-06-28 16:15) [34]


> Anatoly Podgoretsky ©   (28.06.04 16:13) [31]

это смотря как парсер напишет :))


 
Anatoly Podgoretsky ©   (2004-06-28 16:17) [35]

Сам не сможет, пусть к вирусам обращается, они это делают лихо.


 
Луарвик   (2004-06-28 16:19) [36]

Ну хорошо. Пасибо всем.


 
Johnmen ©   (2004-06-28 16:20) [37]

>panov ©   (28.06.04 16:13) [32]

:)
Можно и дальше расширять.
Текстовый ли файл, в кот. встречаются 0A0D, OA, OD, 0A0A, 0D0D ?
Где конец расширения ?


 
Тимохов ©   (2004-06-28 16:21) [38]


> Сам не сможет

кто же его знает, не прошло и полгода как человек хоть стал нормально на критику вопросов реагировать. не пойдет еще полгода так и хакером станет и все сможет

:)))


 
panov ©   (2004-06-28 16:21) [39]

>Johnmen ©   (28.06.04 16:20) [37]

Нет, такое не подходит под определение текстового файла-)


 
Луарвик   (2004-06-28 16:22) [40]

Я промолчу :|



Страницы: 1 2 вся ветка

Текущий архив: 2004.07.11;
Скачать: CL | DM;

Наверх




Память: 0.56 MB
Время: 0.049 c
3-1086959724
TUser
2004-06-11 17:15
2004.07.11
Что это за файлы?


1-1088513145
tamagavk
2004-06-29 16:45
2004.07.11
Проблема с StatusBar


1-1087842373
Mishenka
2004-06-21 22:26
2004.07.11
Как сделать в MainMenu чтобы кнопка Help была всегда справа?


14-1087578236
Art_Z
2004-06-18 21:03
2004.07.11
Пираты


14-1087994457
гурам
2004-06-23 16:40
2004.07.11
инсталятор