Форум: "Прочее";
Текущий архив: 2010.01.03;
Скачать: [xml.tar.bz2];
ВнизИщу утилиту для поиска дубликатов. Нужен совет Найти похожие ветки
← →
Sergey Masloff (2009-11-02 19:28) [0]Задача следующая: есть сетевой диск. На нем терабайт файлов MS Office. По приблизительной оценке 30% из них дубликаты. Нужно найти их и оставить по 1 копии все удаляемые заменить ярлыками (ну или линками) так как каждый пользователь работает со своей структурой каталогов и перемещать логически файл нельзя.
Наверняка есть утилиты готовые. Самому писать лень но если за пару дней не найду видимо стану писать;-))
Есть на примете софт?
← →
Игорь Шевченко © (2009-11-02 19:36) [1]Есть - моя :)
← →
Игорь Шевченко © (2009-11-02 19:36) [2]Если линки сам доделаешь :)
← →
Sergey Masloff (2009-11-02 20:08) [3]Доделаю. Подробности письмом ;-)
← →
AlexDan © (2009-11-02 21:09) [4]хочу себе написать примерно такую же для фотографий..
← →
Дмитрий Белькевич (2009-11-02 21:56) [5]
> хочу себе написать примерно такую же для фотографий..
Тысячи их...
← →
Игорь Шевченко © (2009-11-02 22:18) [6]Дмитрий Белькевич (02.11.09 21:56) [5]
Для музыки часом нету ?
← →
korneley © (2009-11-02 22:21) [7]
> Дмитрий Белькевич (02.11.09 21:56) [5]
>Тысячи их...
Но не все с перламутровыми пуговицами :) Посему, поиск продолжается. Тут же вопрос: "Что проще - найти или сделать?" Извечная дилема, однако... И хорошо, когда под рукой (в конференции) окажется Игорь. И плохо тому, у кого не окажется возможности связаться с ним в нужный момент. (с) практически Мотыль :))
← →
Германн © (2009-11-02 22:45) [8]
> И плохо тому, у кого не окажется возможности связаться с
> ним в нужный момент.
И тому кто свяжется с ним тоже не поздоровится :)
← →
DVM © (2009-11-02 22:48) [9]
> Игорь Шевченко © (02.11.09 22:18) [6]
>
> Для музыки часом нету ?
>
>
Для музыки самая лучшая MediaMonkey на делфи кстати писанная. Лучше я не встречал.
← →
Игорь Шевченко © (2009-11-02 23:04) [10]DVM © (02.11.09 22:48) [9]
Знаю, пользуюсь (не с твоей ли легкой руки?), но немного не то - она одинаковые не ищет...:)
← →
Омлет © (2009-11-02 23:16) [11]Хочу программу, которая найдет и удалит ненужную мне музыку, а то для фильмов уже места нет
← →
Inovet © (2009-11-02 23:26) [12]> [11] Омлет © (02.11.09 23:16)
> Хочу программу, которая найдет и удалит ненужную мне музыку,
> а то для фильмов уже места нет
И посмотрит их (фильмы).:))
← →
korneley © (2009-11-02 23:30) [13]
> Омлет © (02.11.09 23:16) [11]
> Хочу программу, которая найдет и удалит ненужную мне музыку,
> а то для фильмов уже места нет
Шедеврально!!! Найдёт и удалит - не вопрос. Вопрос: " Как понять, какая музыка мне не нужна?" Сегодня. Завтра. А, нет, ту, которая вчера верните. Короче: форматировать всё и всех делов. Надёжней будет. Бо, и музЫка не востребовавна ;)
← →
DVM © (2009-11-02 23:30) [14]
> Омлет © (02.11.09 23:16) [11]
> Хочу программу, которая найдет и удалит ненужную мне музыку
format
← →
Дмитрий Белькевич (2009-11-02 23:32) [15]
> Для музыки часом нету ?
Винамп, как минимум, умеет распознавать неизвестные mp3. Криво, правда, угадывает процентов 20-30. Наверняка еще сервисы есть. Ну а дальше - по названиям...
← →
DVM © (2009-11-02 23:34) [16]
> Наверняка еще сервисы есть
MusicBrainz Picard
← →
Дмитрий Белькевич (2009-11-02 23:36) [17]>Как понять, какая музыка мне не нужна?
Фильтровать по авторам??? Для начала...
← →
korneley © (2009-11-02 23:37) [18]Быц... не востребовавна = не востребованна
← →
Игорь Шевченко © (2009-11-02 23:38) [19]Дмитрий Белькевич (02.11.09 23:32) [15]
> Винамп, как минимум, умеет распознавать неизвестные mp3.
> Криво, правда, угадывает процентов 20-30
Что-то у меня совсем ничего не угадывает. Пишет TRACK01, TRACK02, ...
Оно ж по тэгам распознает, насколько я понимаю, а не по содержанию.
Содержание и от битрейта зависит, и от оригинала...
← →
Омлет © (2009-11-02 23:40) [20]> [14] DVM © (02.11.09 23:30)
> format
Чем бы кончил нигилист Базаров, если бы уважал родителей?
← →
DVM © (2009-11-02 23:56) [21]
> Игорь Шевченко © (02.11.09 23:38) [19]
> Оно ж по тэгам распознает, насколько я понимаю, а не по
> содержанию.
> Содержание и от битрейта зависит, и от оригинала...
А хрен его знает по чему оно распознает, похоже не только по тегам. По содержанию хорошо распознает Tunatic но она не поддерживает пакетного распознавания и сама теги не прописывает.
← →
korneley © (2009-11-03 00:19) [22]
> DVM © (02.11.09 23:56) [21]
> А (запикано) его знает по чему оно распознает,
Дело-то не в опознании. Как определить полезность? потому, что задело "удалить _ненужную_мне_музыку" Я не знаю, у кого сколько музыки, кто слушает рэйв, а кто джаз. Но задача поставленная так, (имхо), не имеет решения.
← →
cwl © (2009-11-03 00:24) [23]> Дмитрий Белькевич (02.11.09 23:32) [15]
tunatic
> korneley © (03.11.09 00:19) [22]
человек пошутил :>
> Игорь Шевченко © (02.11.09 23:38) [19]
думаю, анализ сложнее: спектр. композиция, пусть и в разном битрейте, имеет одну и ту же структуру. щто меня больше интересует: tunatic распознает даже выдранный из середины песни кусок (в 20 секунд укладывается) - вот как он его находит? %>
← →
korneley © (2009-11-03 00:34) [24]
> > korneley © (03.11.09 00:19) [22]человек пошутил :>
Ну хорошо, что так, пойду спаь спокойно. Но, просыпаясь: "А ну, как нет?"
← →
korneley © (2009-11-03 00:37) [25]Ненавижу мелкие клавиатуры. Вот и слово "спать" одной буквы лишилось...
← →
Inovet © (2009-11-03 00:39) [26]> [22] korneley © (03.11.09 00:19)
> Дело-то не в опознании. Как определить полезность? потому,
> что задело "удалить _ненужную_мне_музыку" Я не знаю, у
> кого сколько музыки, кто слушает рэйв, а кто джаз. Но задача
> поставленная так, (имхо), не имеет решения.
Да там смайлик просто забыт, имхо.
Вообще даже по частоте прослушивания или там по последнему доступу к файлу определить не получится, можно раз в несколько лет что-то слушать при том это будет нужным и любимым. А какие тут могут быть формальные критерии? Рейтинги проставлять, как в хитпарадах? Так тоже фигня может выйти - иногда что-то и не очень любимое в кайф.
← →
Омлет © (2009-11-03 00:44) [27]> [24] korneley © (03.11.09 00:34)
Всё может быть. Я как-то думал над алгоритмом, который распознавал бы красоту.
Вот показать ему несколько песен, которые мне нравятся, которые я часто слушаю, и чтобы он нашел такие же красивые, а остальные удалил.
Сейчас слушаю песню Bebe - Siempre me quedar - блеск! Хотел бы я программу, которая найдет такие же красивые треки и скачает мне их с интернета :)
← →
Inovet © (2009-11-03 00:44) [28]> [26] Inovet © (03.11.09 00:39)
> Рейтинги проставлять, как в хитпарадах? Так тоже фигня может
> выйти - иногда что-то и не очень любимое в кайф.
Да и не стану я их проставлять, не знаю как кто.
← →
Дмитрий Белькевич (2009-11-03 00:53) [29]>Оно ж по тэгам распознает, насколько я понимаю, а не по содержанию.
Не только. Хотя замечено, что тэги в алгоритме учавствуют.
>Я не знаю, у кого сколько музыки, кто слушает рэйв, а кто джаз
Видите, а говорите - нет решения. Как минимум - фильтры по авторам/жанру. Неидеально, конечно, но как первое приближение...
← →
Inovet © (2009-11-03 00:54) [30]> [27] Омлет © (03.11.09 00:44)
> Хотел бы я программу, которая найдет такие же красивые треки
Боюсь она только у тебя в голове с защитой от копирования. Кстати скачал и слушаю этот трак в данный момент.:)
← →
Омлет © (2009-11-03 00:56) [31]Нужен ИИ, которому можно привить свой вкус :)
← →
Игорь Шевченко © (2009-11-03 01:11) [32]
> tunatic распознает даже выдранный из середины песни кусок
> (в 20 секунд укладывается) - вот как он его находит?
Шаман!
Rolling Stones - Miss you опознал
Notting Hillbillies - Your own sweet way опознал,
Ray Charles - Hit The Road Jack опознал
Godley & Creme - Freeze Frame опознал
Can - Mighty girl опознал
Bubblegum Crisis - Mr. Dandy опознал
Camel - Pressure Points опознал, даже приписал [Live]
Can - Safe опознал
Nick Cave and Bad Seeds - Thirsty Dog опознал
Earth & Fire - Storm and Thunder опознал,
а Earth & Fire - Atlantis не сумел.
BTO - Don"t Get Yourself In Trouble не сумел.
Eloy не знает совсем
У него небось на сервере народ сидит и угадывает мелодии :))
← →
Игорь Шевченко © (2009-11-03 01:36) [33]продолжим:
Frank Zappa - Sexual Harrassement In The WorkPlace опознал
Frank Zappa - Conehead - не смог
Frank Zappa - Sofa#1 опознал
Frank Zappa - Sofa#2 - не смог, странно, обе софы с одного альбома
Genesis - Am I very wrong распознал
Golden Earring - She Flies On Strange Wings распознал
Golden Earring - Yellow and Blue не смог
Hollies - Long Cool Woman (In a Black Dress) распознал
Hollies - After The Fox не смог
King Crimson распознает через песню
Забавно смотреть клип на YouTube и смотреть, как определяется.
← →
Игорь Шевченко © (2009-11-03 01:44) [34]Почитал, откуда он шаманит - народ сам его базу наполняет программой Tunanlyzer.
Почти как FreeDB наполнялась по компактам.
Полезная вещь.
← →
cwl © (2009-11-03 01:59) [35]> Игорь Шевченко © (03.11.09 01:44) [34]
да, наполняет (tunalyzer, кажись, только для маков - щто за дела) :>
"как определяет" все равно не понятно %>
← →
Дмитрий Белькевич (2009-11-03 02:05) [36]>Нужен ИИ, которому можно привить свой вкус :)
Это да, было бы неплохо...
>У него небось на сервере народ сидит и угадывает мелодии :))
Угу, миллиард китайцев :)
← →
Inovet © (2009-11-03 02:12) [37]> [34] Игорь Шевченко © (03.11.09 01:44)
> Почитал, откуда он шаманит - народ сам его базу наполняет
> программой Tunanlyzer.
> Почти как FreeDB наполнялась по компактам.
> Полезная вещь.
Вот только хотел это предположить - у некоторых запрашивающих могут быть теги и большинство скорее верные. Или как в том джине угадывающем персонаж, что вроде Копир ветку со ссылкой создавал. Ещё может какой-то отпечаток делаеться навроде хэш только нечёткий, не знаю как. При приблизительном сходстве уже более детальное сравнение.
← →
Игорь Шевченко © (2009-11-03 02:14) [38]cwl © (03.11.09 01:59) [35]
> кажись, только для маков
Уже увидел. Пожалел :)
> "как определяет" все равно не понятно
Пишут, что учитывает мелодию и тембр, суммы небось какие-нибудь контрольные, раз про tunalyzer написано, что трафик небольшой
← →
Германн © (2009-11-03 02:33) [39]
> korneley © (03.11.09 00:37) [25]
Пока молчу. :)
← →
Игорь Шевченко © (2009-11-03 02:51) [40]Причем, интересно, некоторые песни угадывает с 7-10 секунд, например Van der Graaf Generator - Pilgrims угадал быстро, а над Tangerine Dream - Tiergaten (Berlin) или Toto - White Sister думал секунд 30, над Yes - Shock To The System думал аж 40 секунд
Ну и демократов совсем не знает, похоже, знает английскую, американскую и немецкую музыку.
Зато знает наших, Зинчука - Аве Мария опознал, Иван Купала - Кострома опознал. Много нашего народу на Маках сидит :)
← →
Германн © (2009-11-03 03:00) [41]
> Игорь Шевченко © (03.11.09 02:51) [40]
А девятую революцию?
← →
Eraser © (2009-11-03 03:14) [42]> [40] Игорь Шевченко © (03.11.09 02:51)
> Много нашего народу на Маках сидит :)
к спору о необходимости версий софта под Mac ;-)
← →
Anatoly Podgoretsky © (2009-11-03 10:25) [43]> Омлет (02.11.2009 23:16:11) [11]
Лучше фильмы удалять, эффективнее.
← →
Smile (2009-11-03 11:36) [44]> Anatoly Podgoretsky © (03.11.09 10:25) [43]
> Лучше фильмы удалять, эффективнее.
А еще лучше (и проще) набрать в Google:
File Duplicated или Find Duplicated
← →
Virgo_Style © (2009-11-03 14:41) [45]
> хочу себе написать примерно такую же для фотографий..
ImgSearch
> Для музыки часом нету ?
Similarity
← →
TUser © (2009-11-03 20:54) [46]
> Ну и демократов совсем не знает
безобразие!
← →
Smile (2009-11-04 13:14) [47]На мой взгляд, эта утилита Duplicate File Finder из Ace Utilities лучшая для этих целей
Скачать можно отсюда
http://www.acelogix.com/
← →
Piter © (2009-11-04 15:47) [48]Sergey Masloff (02.11.09 19:28)
На нем терабайт файлов MS Office. По приблизительной оценке 30% из них дубликаты
а затея имеет экономическую целесообразность, задача в том, чтобы освободить место на дисках?
Дубликатов получается порядка 300 GB, это сейчас пару тысяч рублей, меньше зарплаты программиста типа тебя за один день.
← →
Sergey Masloff (2009-11-04 18:23) [49]Piter
Дело в том что это не на бытовом HDD хранится а на EMC DMX-3, 300 Гб на нем стоит как зарплата меня примерно за год ;-))
← →
Piter © (2009-11-04 19:19) [50]300 GB стоят под миллион и более? Бред, конечно...
Никогда не понимал эти "корпоративные" технологии, которые стоят в сотни раз дороже бытовых. При таких диких соотношениях всякое безупречное качество, скорость и прочее можно просто задавить количеством... Правильно в этом смысле гугл делает, молодцы.
Ну это я так пофлудить...
← →
Sergey Masloff (2009-11-04 20:02) [51]Piter © (04.11.09 19:19) [50]
Я может чуть-чуть преувеличил. 80 тыс зеленых терабайт стоит. У гугла несколько другие требования к данным ;-)
← →
Piter © (2009-11-04 20:22) [52]Sergey Masloff (04.11.09 20:02) [51]
80 тыс зеленых терабайт стоит. У гугла несколько другие требования к данным
а какие еще могут быть требования?
Есть три вещи - объем данных, скорость работы с ними (ветвистое понятие) и надежность хранения.
За эти деньги, имхо, на бытовых разработках можно тупо количеством обеспечить бОльший объем, бОльшую скорость, бОльшую надежность.
← →
Наиль © (2009-11-05 12:04) [53]
> Вообще даже по частоте прослушивания или там по последнему
> доступу к файлу определить не получится, можно раз в несколько
> лет что-то слушать при том это будет нужным и любимым. А
> какие тут могут быть формальные критерии? Рейтинги проставлять,
> как в хитпарадах? Так тоже фигня может выйти - иногда что-
> то и не очень любимое в кайф.
Мой проигрыватель Winamp.
В нём включены глобальные хоткеи.
В плейлист загоняю всю музыку.
Если что-то очень нравится, шлёпаю по Ctrl+Alt+5 (рейтинг - 5 звёзд).
А если не нравится, то Ctrl+PgDn (перейти к следующей песне).
Если бы винамп мог бы отмечать тех, кого я трижды таким образом забанил, то я легко мог бы избавиться от всего музыкального мусора.
По хоткеям шлёпаю, сам того не замечая, не отвлекаясь от работы.
Страницы: 1 2 вся ветка
Форум: "Прочее";
Текущий архив: 2010.01.03;
Скачать: [xml.tar.bz2];
Память: 0.59 MB
Время: 0.005 c