Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Форум: "Основная";
Текущий архив: 2004.07.11;
Скачать: [xml.tar.bz2];

Вниз

Текстовые файлы   Найти похожие ветки 

 
Luarvic   (2004-06-28 14:51) [0]

Как определить текстовый файл иль не текстовый (естествинно програмным образом!)?


 
Тимохов ©   (2004-06-28 14:53) [1]

100% никак


 
PVOzerski ©   (2004-06-28 14:55) [2]

Статистикой представленности в нем "текстовых" и "нетекстовых" символов. Для DOS/WIN - еще и сопряженность #10 и #13. См. также [1].


 
Тимохов ©   (2004-06-28 14:56) [3]

о, привет, кстати я тебя вспомнил, только тогда ты русский был.

определить можно, только в определенной долей вероятности.
можно сказать, что этот файл не текстовый (кстати, определение текстового файла на бочку :))). Сложнее сказать, что этот файл текстовый.

Делать надо на основе вхождения допустимых символов. Присутствия переводов строк и т.д.


 
Луарвик   (2004-06-28 15:09) [4]

Здарова, Тимохов! Я заметил, что в нетекстовых файлах встречаються символы с ord(?)=0. Мож еще на подоби такого способы есть?


 
panov ©   (2004-06-28 15:15) [5]

100%-е определение текстового файла:

Текстовый файл - файл, который содержит только буквы, цифры, знаки препинания, а также разделители строк.


 
Тимохов ©   (2004-06-28 15:17) [6]


> panov ©   (28.06.04 15:15) [5]

а случайно так, что быть не может?
теоретиески то может имхо....


> Луарвик   (28.06.04 15:09) [4]


> Мож еще на подоби такого способы есть?

Давайте подитожим - какой способ вам уже известен.


 
panov ©   (2004-06-28 15:18) [7]

>Тимохов ©   (28.06.04 15:17) [6]

Случайно?

Хоть случайно, хоть специально - файл текстовым будет называться.-)


 
Тимохов ©   (2004-06-28 15:21) [8]


> файл текстовым будет называться.-)

думаю, все зависит от определения текстового файла 8)


 
PVOzerski ©   (2004-06-28 15:24) [9]

2panov ©:
Предположим, мне понадобилось в текстовом файле использовать знак доллара, № или квадратного корня. И как, файл перестал быть текстовым? А если таблицы из псевдографики?


 
Луарвик   (2004-06-28 15:35) [10]

Единственный метод - это проверка файла по символу. С помощью ord: если возвращает "0" значит файл 100% не текстовый! Это все .exe, .dll и т.п. Архивы часто считаються текстовыми!


 
Луарвик   (2004-06-28 15:35) [11]

Точнее 50 на 50 не текстовый :)


 
Тимохов ©   (2004-06-28 15:36) [12]


> Архивы часто считаються текстовыми!

вами считаются?


 
PVOzerski ©   (2004-06-28 15:39) [13]

[10] - это здОрово, но что считать, если #0 там нет? :^)


 
Луарвик   (2004-06-28 15:42) [14]

>вами считаются?
Говорю, что они не имеют нулевых символов! Вернее не все.
>[10] - это здОрово, но что считать, если #0 там нет? :^)
А вот за этим знанием я и зашел на этот замечательный форум.


 
panov ©   (2004-06-28 15:43) [15]

>PVOzerski ©   (28.06.04 15:24) [9]

2panov ©:
Предположим, мне понадобилось в текстовом файле использовать знак доллара, № или квадратного корня. И как, файл перестал быть текстовым? А если таблицы из псевдографики?


Это уже не текстовые файлы. Это уже документы


 
Anatoly Podgoretsky ©   (2004-06-28 15:44) [16]

Считать ли Юникод файлы текстовыми


 
panov ©   (2004-06-28 15:45) [17]

>Луарвик   (28.06.04 15:42) [14]

Тебе нужно точно определиться, какие файлы будешь считать текстовыми. Только тогда не возникнет сложностей в определении программно типа файла.


 
panov ©   (2004-06-28 15:46) [18]

>Anatoly Podgoretsky ©   (28.06.04 15:44) [16]

конечно, если они подходят под под определение panov ©   (28.06.04 15:15) [5]


 
Тимохов ©   (2004-06-28 15:47) [19]


> Луарвик   (28.06.04 15:42) [14]

определитесь все-таки с тем, что такое текстовый файл.
У вас есть определенная задача - может от нее пойти?
Расскажите, многое станет яснее.


 
Луарвик   (2004-06-28 15:49) [20]

>Считать ли Юникод файлы текстовыми
Этот вопрос все очень усложняет. В принцепе работа идет, или должна идти с html, а много их в Юникоде?


 
panov ©   (2004-06-28 15:50) [21]

>PVOzerski ©   (28.06.04 15:24) [9]
Кстати, можно немного расширить определение.

Текстовым файлом называется файл, которые может содержать только печатаемые символы (буквы, цифры и знаки препинания, а также пробел и знак табуляции), сгруппированнные в строки переменной длины, разделяемые принятым в данной операционной системе разделителем строк.


 
Anatoly Podgoretsky ©   (2004-06-28 15:52) [22]

panov ©   (28.06.04 15:43) [15]
Отлично, именно подходят под твое определение, но только не оставляет надежды для тех кто расчитывал на код 0

Луарвик   (28.06.04 15:49) [20]
html по определению текстовый


 
Луарвик   (2004-06-28 15:52) [23]

Я ищю в веб странице гипер ссылки. Там есть немного больше знаков чем сказал panov...


 
Луарвик   (2004-06-28 15:55) [24]

Ну ладно, в принцепе все ясно. Но вдруг кто-то возмет ехе и поменяет в нем формат на .htm? Это ж будет не хорошо. Прога моя не поймет что это!


 
Sandman25 ©   (2004-06-28 15:56) [25]

>Прога моя не поймет что это!

Прога должна будет ругнуться. И все.


 
Тимохов ©   (2004-06-28 15:56) [26]

Братцы!!!
Он паука пишет, наши адреса собирать!

Смерть спамерам!


 
Луарвик   (2004-06-28 16:03) [27]

Какого там паука? Прсто пакет для работы с текстом НА ЛОКАЛЬНОЙ МАШИНЕ. Поиск, замена, сортировка результатов и т.д
За последствия своей программы разробочик не несет ответственности...


 
Тимохов ©   (2004-06-28 16:05) [28]


> Луарвик   (28.06.04 16:03) [27]

не отмоешься :))))

В чем собственно проблема:
1. Вы должны файл парсить, т.е. разбирать.
2. Когда парсите, то делаете это по определенным законам - если следующий входной символ не удовлетворяет законам, то ошибка.
3. На фига вообще знать какой файл, текстовы или нет. Пишите парсер html и дело в шляпе.


 
Johnmen ©   (2004-06-28 16:06) [29]

>panov ©

А файл текстовый, если последний байт 26 ?


 
Луарвик   (2004-06-28 16:08) [30]

Ок, токо узнаю че такое "парсер". Тут где-нить есть статьи?
З.Ы. Давай уж или на "ты" или на "вы"? Первое предпочтительней.


 
Anatoly Podgoretsky ©   (2004-06-28 16:13) [31]

Тимохов ©   (28.06.04 16:05) [28]
В этом случае у него будет даже расщиренное применение, сможет выдирать почтовые адреса и из двоичных файлов.


 
panov ©   (2004-06-28 16:13) [32]

>Johnmen ©   (28.06.04 16:06) [29]
А что, еще остались программы, которые его добавляют?-)

Если неформально подходить, то я бы такой файл текстовым считал.
Просто для себя расширил бы определение текстового файла.


 
Тимохов ©   (2004-06-28 16:15) [33]


> Луарвик   (28.06.04 16:08) [30]

да без проблем.

ты читать умеешь? значит ты уже имеешь встроенный парсер - в текстсте выделить слова, знаки припенания и т.д.

если ты поинмаешь еще и html, то ты имеешь встроенный в тебя пасер html.

Задача научить комп уметь понимать html. Вот, например browser это делать уже умеет.

Поищи в сети парсера есть - сам никогда html я не парсил.


 
Тимохов ©   (2004-06-28 16:15) [34]


> Anatoly Podgoretsky ©   (28.06.04 16:13) [31]

это смотря как парсер напишет :))


 
Anatoly Podgoretsky ©   (2004-06-28 16:17) [35]

Сам не сможет, пусть к вирусам обращается, они это делают лихо.


 
Луарвик   (2004-06-28 16:19) [36]

Ну хорошо. Пасибо всем.


 
Johnmen ©   (2004-06-28 16:20) [37]

>panov ©   (28.06.04 16:13) [32]

:)
Можно и дальше расширять.
Текстовый ли файл, в кот. встречаются 0A0D, OA, OD, 0A0A, 0D0D ?
Где конец расширения ?


 
Тимохов ©   (2004-06-28 16:21) [38]


> Сам не сможет

кто же его знает, не прошло и полгода как человек хоть стал нормально на критику вопросов реагировать. не пойдет еще полгода так и хакером станет и все сможет

:)))


 
panov ©   (2004-06-28 16:21) [39]

>Johnmen ©   (28.06.04 16:20) [37]

Нет, такое не подходит под определение текстового файла-)


 
Луарвик   (2004-06-28 16:22) [40]

Я промолчу :|


 
Anatoly Podgoretsky ©   (2004-06-28 16:23) [41]

Тимохов ©   (28.06.04 16:21) [38]
Тьфу на , то есть через левое плечо


 
Johnmen ©   (2004-06-28 16:24) [42]

>panov ©   (28.06.04 16:21) [39]

Да вот я и хотел узнать определение. "Официальное".
Где его можно прочитать ?


 
Тимохов ©   (2004-06-28 16:25) [43]


> Anatoly Podgoretsky ©   (28.06.04 16:23) [41]

плюй не плюй, а именно из таких и берутся хакеры-вредители :)))

ЗЫ. Автор, без обид, доволен быть должен - прогресс за полгода явно заметен.


 
Луарвик   (2004-06-28 16:26) [44]

>то же его знает, не прошло и полгода...
Хотя, кстати слов "иди читай хелп, халявщик" и прочих я здесь не видел...


 
Тимохов ©   (2004-06-28 16:27) [45]


> Луарвик   (28.06.04 16:26) [44]

не видел, т.к. не думаю, что многие знают (я не знаю :))) строго определения текстового файла. Потому и ответ не очевиден.


 
Sandman25 ©   (2004-06-28 16:30) [46]

>не видел, т.к. не думаю, что многие знают (я не знаю :))) строго определения текстового файла. Потому и ответ не очевиден.

вот, вот. Напоминает споры о материи из "Потрепаться" - все знают, что такое материя, а дать определение не могут.


 
Digitman ©   (2004-06-28 16:52) [47]


> Luarvic   (28.06.04 14:51)  
> Как определить текстовый файл иль не текстовый


для общего случая ответ ты получил в [1] - НИКАК

лишь конкретный парсер  (в твоем случае - html-парсер) может сказать, удовлетворяет ли формат конкретных вх.данных конкретной спецификации



Страницы: 1 2 вся ветка

Форум: "Основная";
Текущий архив: 2004.07.11;
Скачать: [xml.tar.bz2];

Наверх




Память: 0.56 MB
Время: 0.029 c
14-1087579847
VID
2004-06-18 21:30
2004.07.11
Я начал читать спам :(


14-1087542691
WondeRu
2004-06-18 11:11
2004.07.11
Какая Книга Вам Помогла Стать Тем Кто Вы Сейчас?


4-1085929941
Jel
2004-05-30 19:12
2004.07.11
LoadLibraryEx и FreeLibrary


1-1087972744
Relaxxx
2004-06-23 10:39
2004.07.11
Как напечатать текст на бумаге в определенных координатах?


14-1087905831
3d_Vorpos
2004-06-22 16:03
2004.07.11
Как спроецировать точку на экран?





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский