Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2004.07.11;
Скачать: CL | DM;

Вниз

Текстовые файлы   Найти похожие ветки 

 
Luarvic   (2004-06-28 14:51) [0]

Как определить текстовый файл иль не текстовый (естествинно програмным образом!)?


 
Тимохов ©   (2004-06-28 14:53) [1]

100% никак


 
PVOzerski ©   (2004-06-28 14:55) [2]

Статистикой представленности в нем "текстовых" и "нетекстовых" символов. Для DOS/WIN - еще и сопряженность #10 и #13. См. также [1].


 
Тимохов ©   (2004-06-28 14:56) [3]

о, привет, кстати я тебя вспомнил, только тогда ты русский был.

определить можно, только в определенной долей вероятности.
можно сказать, что этот файл не текстовый (кстати, определение текстового файла на бочку :))). Сложнее сказать, что этот файл текстовый.

Делать надо на основе вхождения допустимых символов. Присутствия переводов строк и т.д.


 
Луарвик   (2004-06-28 15:09) [4]

Здарова, Тимохов! Я заметил, что в нетекстовых файлах встречаються символы с ord(?)=0. Мож еще на подоби такого способы есть?


 
panov ©   (2004-06-28 15:15) [5]

100%-е определение текстового файла:

Текстовый файл - файл, который содержит только буквы, цифры, знаки препинания, а также разделители строк.


 
Тимохов ©   (2004-06-28 15:17) [6]


> panov ©   (28.06.04 15:15) [5]

а случайно так, что быть не может?
теоретиески то может имхо....


> Луарвик   (28.06.04 15:09) [4]


> Мож еще на подоби такого способы есть?

Давайте подитожим - какой способ вам уже известен.


 
panov ©   (2004-06-28 15:18) [7]

>Тимохов ©   (28.06.04 15:17) [6]

Случайно?

Хоть случайно, хоть специально - файл текстовым будет называться.-)


 
Тимохов ©   (2004-06-28 15:21) [8]


> файл текстовым будет называться.-)

думаю, все зависит от определения текстового файла 8)


 
PVOzerski ©   (2004-06-28 15:24) [9]

2panov ©:
Предположим, мне понадобилось в текстовом файле использовать знак доллара, № или квадратного корня. И как, файл перестал быть текстовым? А если таблицы из псевдографики?


 
Луарвик   (2004-06-28 15:35) [10]

Единственный метод - это проверка файла по символу. С помощью ord: если возвращает "0" значит файл 100% не текстовый! Это все .exe, .dll и т.п. Архивы часто считаються текстовыми!


 
Луарвик   (2004-06-28 15:35) [11]

Точнее 50 на 50 не текстовый :)


 
Тимохов ©   (2004-06-28 15:36) [12]


> Архивы часто считаються текстовыми!

вами считаются?


 
PVOzerski ©   (2004-06-28 15:39) [13]

[10] - это здОрово, но что считать, если #0 там нет? :^)


 
Луарвик   (2004-06-28 15:42) [14]

>вами считаются?
Говорю, что они не имеют нулевых символов! Вернее не все.
>[10] - это здОрово, но что считать, если #0 там нет? :^)
А вот за этим знанием я и зашел на этот замечательный форум.


 
panov ©   (2004-06-28 15:43) [15]

>PVOzerski ©   (28.06.04 15:24) [9]

2panov ©:
Предположим, мне понадобилось в текстовом файле использовать знак доллара, № или квадратного корня. И как, файл перестал быть текстовым? А если таблицы из псевдографики?


Это уже не текстовые файлы. Это уже документы


 
Anatoly Podgoretsky ©   (2004-06-28 15:44) [16]

Считать ли Юникод файлы текстовыми


 
panov ©   (2004-06-28 15:45) [17]

>Луарвик   (28.06.04 15:42) [14]

Тебе нужно точно определиться, какие файлы будешь считать текстовыми. Только тогда не возникнет сложностей в определении программно типа файла.


 
panov ©   (2004-06-28 15:46) [18]

>Anatoly Podgoretsky ©   (28.06.04 15:44) [16]

конечно, если они подходят под под определение panov ©   (28.06.04 15:15) [5]


 
Тимохов ©   (2004-06-28 15:47) [19]


> Луарвик   (28.06.04 15:42) [14]

определитесь все-таки с тем, что такое текстовый файл.
У вас есть определенная задача - может от нее пойти?
Расскажите, многое станет яснее.


 
Луарвик   (2004-06-28 15:49) [20]

>Считать ли Юникод файлы текстовыми
Этот вопрос все очень усложняет. В принцепе работа идет, или должна идти с html, а много их в Юникоде?


 
panov ©   (2004-06-28 15:50) [21]

>PVOzerski ©   (28.06.04 15:24) [9]
Кстати, можно немного расширить определение.

Текстовым файлом называется файл, которые может содержать только печатаемые символы (буквы, цифры и знаки препинания, а также пробел и знак табуляции), сгруппированнные в строки переменной длины, разделяемые принятым в данной операционной системе разделителем строк.


 
Anatoly Podgoretsky ©   (2004-06-28 15:52) [22]

panov ©   (28.06.04 15:43) [15]
Отлично, именно подходят под твое определение, но только не оставляет надежды для тех кто расчитывал на код 0

Луарвик   (28.06.04 15:49) [20]
html по определению текстовый


 
Луарвик   (2004-06-28 15:52) [23]

Я ищю в веб странице гипер ссылки. Там есть немного больше знаков чем сказал panov...


 
Луарвик   (2004-06-28 15:55) [24]

Ну ладно, в принцепе все ясно. Но вдруг кто-то возмет ехе и поменяет в нем формат на .htm? Это ж будет не хорошо. Прога моя не поймет что это!


 
Sandman25 ©   (2004-06-28 15:56) [25]

>Прога моя не поймет что это!

Прога должна будет ругнуться. И все.


 
Тимохов ©   (2004-06-28 15:56) [26]

Братцы!!!
Он паука пишет, наши адреса собирать!

Смерть спамерам!


 
Луарвик   (2004-06-28 16:03) [27]

Какого там паука? Прсто пакет для работы с текстом НА ЛОКАЛЬНОЙ МАШИНЕ. Поиск, замена, сортировка результатов и т.д
За последствия своей программы разробочик не несет ответственности...


 
Тимохов ©   (2004-06-28 16:05) [28]


> Луарвик   (28.06.04 16:03) [27]

не отмоешься :))))

В чем собственно проблема:
1. Вы должны файл парсить, т.е. разбирать.
2. Когда парсите, то делаете это по определенным законам - если следующий входной символ не удовлетворяет законам, то ошибка.
3. На фига вообще знать какой файл, текстовы или нет. Пишите парсер html и дело в шляпе.


 
Johnmen ©   (2004-06-28 16:06) [29]

>panov ©

А файл текстовый, если последний байт 26 ?


 
Луарвик   (2004-06-28 16:08) [30]

Ок, токо узнаю че такое "парсер". Тут где-нить есть статьи?
З.Ы. Давай уж или на "ты" или на "вы"? Первое предпочтительней.


 
Anatoly Podgoretsky ©   (2004-06-28 16:13) [31]

Тимохов ©   (28.06.04 16:05) [28]
В этом случае у него будет даже расщиренное применение, сможет выдирать почтовые адреса и из двоичных файлов.


 
panov ©   (2004-06-28 16:13) [32]

>Johnmen ©   (28.06.04 16:06) [29]
А что, еще остались программы, которые его добавляют?-)

Если неформально подходить, то я бы такой файл текстовым считал.
Просто для себя расширил бы определение текстового файла.


 
Тимохов ©   (2004-06-28 16:15) [33]


> Луарвик   (28.06.04 16:08) [30]

да без проблем.

ты читать умеешь? значит ты уже имеешь встроенный парсер - в текстсте выделить слова, знаки припенания и т.д.

если ты поинмаешь еще и html, то ты имеешь встроенный в тебя пасер html.

Задача научить комп уметь понимать html. Вот, например browser это делать уже умеет.

Поищи в сети парсера есть - сам никогда html я не парсил.


 
Тимохов ©   (2004-06-28 16:15) [34]


> Anatoly Podgoretsky ©   (28.06.04 16:13) [31]

это смотря как парсер напишет :))


 
Anatoly Podgoretsky ©   (2004-06-28 16:17) [35]

Сам не сможет, пусть к вирусам обращается, они это делают лихо.


 
Луарвик   (2004-06-28 16:19) [36]

Ну хорошо. Пасибо всем.


 
Johnmen ©   (2004-06-28 16:20) [37]

>panov ©   (28.06.04 16:13) [32]

:)
Можно и дальше расширять.
Текстовый ли файл, в кот. встречаются 0A0D, OA, OD, 0A0A, 0D0D ?
Где конец расширения ?


 
Тимохов ©   (2004-06-28 16:21) [38]


> Сам не сможет

кто же его знает, не прошло и полгода как человек хоть стал нормально на критику вопросов реагировать. не пойдет еще полгода так и хакером станет и все сможет

:)))


 
panov ©   (2004-06-28 16:21) [39]

>Johnmen ©   (28.06.04 16:20) [37]

Нет, такое не подходит под определение текстового файла-)


 
Луарвик   (2004-06-28 16:22) [40]

Я промолчу :|


 
Anatoly Podgoretsky ©   (2004-06-28 16:23) [41]

Тимохов ©   (28.06.04 16:21) [38]
Тьфу на , то есть через левое плечо


 
Johnmen ©   (2004-06-28 16:24) [42]

>panov ©   (28.06.04 16:21) [39]

Да вот я и хотел узнать определение. "Официальное".
Где его можно прочитать ?


 
Тимохов ©   (2004-06-28 16:25) [43]


> Anatoly Podgoretsky ©   (28.06.04 16:23) [41]

плюй не плюй, а именно из таких и берутся хакеры-вредители :)))

ЗЫ. Автор, без обид, доволен быть должен - прогресс за полгода явно заметен.


 
Луарвик   (2004-06-28 16:26) [44]

>то же его знает, не прошло и полгода...
Хотя, кстати слов "иди читай хелп, халявщик" и прочих я здесь не видел...


 
Тимохов ©   (2004-06-28 16:27) [45]


> Луарвик   (28.06.04 16:26) [44]

не видел, т.к. не думаю, что многие знают (я не знаю :))) строго определения текстового файла. Потому и ответ не очевиден.


 
Sandman25 ©   (2004-06-28 16:30) [46]

>не видел, т.к. не думаю, что многие знают (я не знаю :))) строго определения текстового файла. Потому и ответ не очевиден.

вот, вот. Напоминает споры о материи из "Потрепаться" - все знают, что такое материя, а дать определение не могут.


 
Digitman ©   (2004-06-28 16:52) [47]


> Luarvic   (28.06.04 14:51)  
> Как определить текстовый файл иль не текстовый


для общего случая ответ ты получил в [1] - НИКАК

лишь конкретный парсер  (в твоем случае - html-парсер) может сказать, удовлетворяет ли формат конкретных вх.данных конкретной спецификации



Страницы: 1 2 вся ветка

Текущий архив: 2004.07.11;
Скачать: CL | DM;

Наверх




Память: 0.58 MB
Время: 0.047 c
14-1087981321
ИМХО
2004-06-23 13:02
2004.07.11
Почему муравьи такие сильные?


1-1088594179
half_litre
2004-06-30 15:16
2004.07.11
Не срабатывает OnClose. Правильно ли это ?


1-1088075871
Evg_fat
2004-06-24 15:17
2004.07.11
Переместить курсор


1-1087986043
sergeryM
2004-06-23 14:20
2004.07.11
Глюк в Label


1-1087912779
Buster
2004-06-22 17:59
2004.07.11
При изменении кода программа перестает запускаться из под Делфи