Форум: "Основная";
Текущий архив: 2004.07.11;
Скачать: [xml.tar.bz2];
ВнизТекстовые файлы Найти похожие ветки
← →
Luarvic (2004-06-28 14:51) [0]Как определить текстовый файл иль не текстовый (естествинно програмным образом!)?
← →
Тимохов © (2004-06-28 14:53) [1]100% никак
← →
PVOzerski © (2004-06-28 14:55) [2]Статистикой представленности в нем "текстовых" и "нетекстовых" символов. Для DOS/WIN - еще и сопряженность #10 и #13. См. также [1].
← →
Тимохов © (2004-06-28 14:56) [3]о, привет, кстати я тебя вспомнил, только тогда ты русский был.
определить можно, только в определенной долей вероятности.
можно сказать, что этот файл не текстовый (кстати, определение текстового файла на бочку :))). Сложнее сказать, что этот файл текстовый.
Делать надо на основе вхождения допустимых символов. Присутствия переводов строк и т.д.
← →
Луарвик (2004-06-28 15:09) [4]Здарова, Тимохов! Я заметил, что в нетекстовых файлах встречаються символы с ord(?)=0. Мож еще на подоби такого способы есть?
← →
panov © (2004-06-28 15:15) [5]100%-е определение текстового файла:
Текстовый файл - файл, который содержит только буквы, цифры, знаки препинания, а также разделители строк.
← →
Тимохов © (2004-06-28 15:17) [6]
> panov © (28.06.04 15:15) [5]
а случайно так, что быть не может?
теоретиески то может имхо....
> Луарвик (28.06.04 15:09) [4]
> Мож еще на подоби такого способы есть?
Давайте подитожим - какой способ вам уже известен.
← →
panov © (2004-06-28 15:18) [7]>Тимохов © (28.06.04 15:17) [6]
Случайно?
Хоть случайно, хоть специально - файл текстовым будет называться.-)
← →
Тимохов © (2004-06-28 15:21) [8]
> файл текстовым будет называться.-)
думаю, все зависит от определения текстового файла 8)
← →
PVOzerski © (2004-06-28 15:24) [9]2panov ©:
Предположим, мне понадобилось в текстовом файле использовать знак доллара, № или квадратного корня. И как, файл перестал быть текстовым? А если таблицы из псевдографики?
← →
Луарвик (2004-06-28 15:35) [10]Единственный метод - это проверка файла по символу. С помощью ord: если возвращает "0" значит файл 100% не текстовый! Это все .exe, .dll и т.п. Архивы часто считаються текстовыми!
← →
Луарвик (2004-06-28 15:35) [11]Точнее 50 на 50 не текстовый :)
← →
Тимохов © (2004-06-28 15:36) [12]
> Архивы часто считаються текстовыми!
вами считаются?
← →
PVOzerski © (2004-06-28 15:39) [13][10] - это здОрово, но что считать, если #0 там нет? :^)
← →
Луарвик (2004-06-28 15:42) [14]>вами считаются?
Говорю, что они не имеют нулевых символов! Вернее не все.
>[10] - это здОрово, но что считать, если #0 там нет? :^)
А вот за этим знанием я и зашел на этот замечательный форум.
← →
panov © (2004-06-28 15:43) [15]>PVOzerski © (28.06.04 15:24) [9]
2panov ©:
Предположим, мне понадобилось в текстовом файле использовать знак доллара, № или квадратного корня. И как, файл перестал быть текстовым? А если таблицы из псевдографики?
Это уже не текстовые файлы. Это уже документы
← →
Anatoly Podgoretsky © (2004-06-28 15:44) [16]Считать ли Юникод файлы текстовыми
← →
panov © (2004-06-28 15:45) [17]>Луарвик (28.06.04 15:42) [14]
Тебе нужно точно определиться, какие файлы будешь считать текстовыми. Только тогда не возникнет сложностей в определении программно типа файла.
← →
panov © (2004-06-28 15:46) [18]>Anatoly Podgoretsky © (28.06.04 15:44) [16]
конечно, если они подходят под под определение panov © (28.06.04 15:15) [5]
← →
Тимохов © (2004-06-28 15:47) [19]
> Луарвик (28.06.04 15:42) [14]
определитесь все-таки с тем, что такое текстовый файл.
У вас есть определенная задача - может от нее пойти?
Расскажите, многое станет яснее.
← →
Луарвик (2004-06-28 15:49) [20]>Считать ли Юникод файлы текстовыми
Этот вопрос все очень усложняет. В принцепе работа идет, или должна идти с html, а много их в Юникоде?
← →
panov © (2004-06-28 15:50) [21]>PVOzerski © (28.06.04 15:24) [9]
Кстати, можно немного расширить определение.
Текстовым файлом называется файл, которые может содержать только печатаемые символы (буквы, цифры и знаки препинания, а также пробел и знак табуляции), сгруппированнные в строки переменной длины, разделяемые принятым в данной операционной системе разделителем строк.
← →
Anatoly Podgoretsky © (2004-06-28 15:52) [22]panov © (28.06.04 15:43) [15]
Отлично, именно подходят под твое определение, но только не оставляет надежды для тех кто расчитывал на код 0
Луарвик (28.06.04 15:49) [20]
html по определению текстовый
← →
Луарвик (2004-06-28 15:52) [23]Я ищю в веб странице гипер ссылки. Там есть немного больше знаков чем сказал panov...
← →
Луарвик (2004-06-28 15:55) [24]Ну ладно, в принцепе все ясно. Но вдруг кто-то возмет ехе и поменяет в нем формат на .htm? Это ж будет не хорошо. Прога моя не поймет что это!
← →
Sandman25 © (2004-06-28 15:56) [25]>Прога моя не поймет что это!
Прога должна будет ругнуться. И все.
← →
Тимохов © (2004-06-28 15:56) [26]Братцы!!!
Он паука пишет, наши адреса собирать!
Смерть спамерам!
← →
Луарвик (2004-06-28 16:03) [27]Какого там паука? Прсто пакет для работы с текстом НА ЛОКАЛЬНОЙ МАШИНЕ. Поиск, замена, сортировка результатов и т.д
За последствия своей программы разробочик не несет ответственности...
← →
Тимохов © (2004-06-28 16:05) [28]
> Луарвик (28.06.04 16:03) [27]
не отмоешься :))))
В чем собственно проблема:
1. Вы должны файл парсить, т.е. разбирать.
2. Когда парсите, то делаете это по определенным законам - если следующий входной символ не удовлетворяет законам, то ошибка.
3. На фига вообще знать какой файл, текстовы или нет. Пишите парсер html и дело в шляпе.
← →
Johnmen © (2004-06-28 16:06) [29]>panov ©
А файл текстовый, если последний байт 26 ?
← →
Луарвик (2004-06-28 16:08) [30]Ок, токо узнаю че такое "парсер". Тут где-нить есть статьи?
З.Ы. Давай уж или на "ты" или на "вы"? Первое предпочтительней.
← →
Anatoly Podgoretsky © (2004-06-28 16:13) [31]Тимохов © (28.06.04 16:05) [28]
В этом случае у него будет даже расщиренное применение, сможет выдирать почтовые адреса и из двоичных файлов.
← →
panov © (2004-06-28 16:13) [32]>Johnmen © (28.06.04 16:06) [29]
А что, еще остались программы, которые его добавляют?-)
Если неформально подходить, то я бы такой файл текстовым считал.
Просто для себя расширил бы определение текстового файла.
← →
Тимохов © (2004-06-28 16:15) [33]
> Луарвик (28.06.04 16:08) [30]
да без проблем.
ты читать умеешь? значит ты уже имеешь встроенный парсер - в текстсте выделить слова, знаки припенания и т.д.
если ты поинмаешь еще и html, то ты имеешь встроенный в тебя пасер html.
Задача научить комп уметь понимать html. Вот, например browser это делать уже умеет.
Поищи в сети парсера есть - сам никогда html я не парсил.
← →
Тимохов © (2004-06-28 16:15) [34]
> Anatoly Podgoretsky © (28.06.04 16:13) [31]
это смотря как парсер напишет :))
← →
Anatoly Podgoretsky © (2004-06-28 16:17) [35]Сам не сможет, пусть к вирусам обращается, они это делают лихо.
← →
Луарвик (2004-06-28 16:19) [36]Ну хорошо. Пасибо всем.
← →
Johnmen © (2004-06-28 16:20) [37]>panov © (28.06.04 16:13) [32]
:)
Можно и дальше расширять.
Текстовый ли файл, в кот. встречаются 0A0D, OA, OD, 0A0A, 0D0D ?
Где конец расширения ?
← →
Тимохов © (2004-06-28 16:21) [38]
> Сам не сможет
кто же его знает, не прошло и полгода как человек хоть стал нормально на критику вопросов реагировать. не пойдет еще полгода так и хакером станет и все сможет
:)))
← →
panov © (2004-06-28 16:21) [39]>Johnmen © (28.06.04 16:20) [37]
Нет, такое не подходит под определение текстового файла-)
← →
Луарвик (2004-06-28 16:22) [40]Я промолчу :|
Страницы: 1 2 вся ветка
Форум: "Основная";
Текущий архив: 2004.07.11;
Скачать: [xml.tar.bz2];
Память: 0.53 MB
Время: 0.036 c