Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2010.01.03;
Скачать: CL | DM;

Вниз

Ищу утилиту для поиска дубликатов. Нужен совет   Найти похожие ветки 

 
Sergey Masloff   (2009-11-02 19:28) [0]

Задача следующая: есть сетевой диск. На нем терабайт файлов MS Office. По приблизительной оценке 30% из них дубликаты. Нужно найти их и оставить по 1 копии все удаляемые заменить ярлыками (ну или линками) так как каждый пользователь работает со своей структурой каталогов и перемещать логически файл нельзя.
 Наверняка есть утилиты готовые. Самому писать лень но если за пару дней не найду видимо стану писать;-))
 Есть на примете софт?


 
Игорь Шевченко ©   (2009-11-02 19:36) [1]

Есть - моя :)


 
Игорь Шевченко ©   (2009-11-02 19:36) [2]

Если линки сам доделаешь :)


 
Sergey Masloff   (2009-11-02 20:08) [3]

Доделаю. Подробности письмом ;-)


 
AlexDan ©   (2009-11-02 21:09) [4]

хочу себе написать примерно такую же для фотографий..


 
Дмитрий Белькевич   (2009-11-02 21:56) [5]


> хочу себе написать примерно такую же для фотографий..


Тысячи их...


 
Игорь Шевченко ©   (2009-11-02 22:18) [6]

Дмитрий Белькевич   (02.11.09 21:56) [5]

Для музыки часом нету ?


 
korneley ©   (2009-11-02 22:21) [7]


> Дмитрий Белькевич   (02.11.09 21:56) [5]
>Тысячи их...

Но не все с перламутровыми пуговицами :) Посему, поиск продолжается. Тут же вопрос: "Что проще - найти или сделать?" Извечная дилема, однако... И хорошо, когда под рукой (в конференции) окажется Игорь. И плохо тому, у кого не окажется возможности связаться с ним в нужный момент. (с) практически Мотыль :))


 
Германн ©   (2009-11-02 22:45) [8]


> И плохо тому, у кого не окажется возможности связаться с
> ним в нужный момент.

И тому кто свяжется с ним тоже не поздоровится :)


 
DVM ©   (2009-11-02 22:48) [9]


> Игорь Шевченко ©   (02.11.09 22:18) [6]
>
> Для музыки часом нету ?
>
>

Для музыки самая лучшая MediaMonkey на делфи кстати писанная. Лучше я не встречал.


 
Игорь Шевченко ©   (2009-11-02 23:04) [10]

DVM ©   (02.11.09 22:48) [9]

Знаю, пользуюсь (не с твоей ли легкой руки?), но немного не то - она одинаковые не ищет...:)


 
Омлет ©   (2009-11-02 23:16) [11]

Хочу программу, которая найдет и удалит ненужную мне музыку, а то для фильмов уже места нет


 
Inovet ©   (2009-11-02 23:26) [12]

> [11] Омлет ©   (02.11.09 23:16)
> Хочу программу, которая найдет и удалит ненужную мне музыку,
> а то для фильмов уже места нет

И посмотрит их (фильмы).:))


 
korneley ©   (2009-11-02 23:30) [13]


> Омлет ©   (02.11.09 23:16) [11]
> Хочу программу, которая найдет и удалит ненужную мне музыку,
>  а то для фильмов уже места нет

Шедеврально!!! Найдёт и удалит - не вопрос. Вопрос: " Как понять, какая музыка мне не нужна?" Сегодня. Завтра. А, нет, ту, которая вчера верните. Короче: форматировать всё и всех делов. Надёжней будет. Бо, и музЫка не востребовавна ;)


 
DVM ©   (2009-11-02 23:30) [14]


> Омлет ©   (02.11.09 23:16) [11]
> Хочу программу, которая найдет и удалит ненужную мне музыку

format


 
Дмитрий Белькевич   (2009-11-02 23:32) [15]


> Для музыки часом нету ?


Винамп, как минимум, умеет распознавать неизвестные mp3. Криво, правда, угадывает процентов 20-30. Наверняка еще сервисы есть. Ну а дальше - по названиям...


 
DVM ©   (2009-11-02 23:34) [16]


> Наверняка еще сервисы есть

MusicBrainz Picard


 
Дмитрий Белькевич   (2009-11-02 23:36) [17]

>Как понять, какая музыка мне не нужна?

Фильтровать по авторам??? Для начала...


 
korneley ©   (2009-11-02 23:37) [18]

Быц... не востребовавна = не востребованна


 
Игорь Шевченко ©   (2009-11-02 23:38) [19]

Дмитрий Белькевич   (02.11.09 23:32) [15]


> Винамп, как минимум, умеет распознавать неизвестные mp3.
>  Криво, правда, угадывает процентов 20-30


Что-то у меня совсем ничего не угадывает. Пишет TRACK01, TRACK02, ...
Оно ж по тэгам распознает, насколько я понимаю, а не по содержанию.
Содержание и от битрейта зависит, и от оригинала...


 
Омлет ©   (2009-11-02 23:40) [20]

> [14] DVM ©   (02.11.09 23:30)
> format

Чем бы кончил нигилист Базаров, если бы уважал родителей?


 
DVM ©   (2009-11-02 23:56) [21]


> Игорь Шевченко ©   (02.11.09 23:38) [19]


> Оно ж по тэгам распознает, насколько я понимаю, а не по
> содержанию.
> Содержание и от битрейта зависит, и от оригинала...

А хрен его знает по чему оно распознает, похоже не только  по тегам. По содержанию хорошо распознает Tunatic но она не поддерживает пакетного распознавания и сама теги не прописывает.


 
korneley ©   (2009-11-03 00:19) [22]


> DVM ©   (02.11.09 23:56) [21]
> А (запикано) его знает по чему оно распознает,

Дело-то не в опознании. Как определить полезность? потому, что задело "удалить _ненужную_мне_музыку" Я не знаю, у кого сколько музыки, кто слушает рэйв, а кто джаз. Но задача поставленная так, (имхо), не имеет решения.


 
cwl ©   (2009-11-03 00:24) [23]

> Дмитрий Белькевич   (02.11.09 23:32) [15]
tunatic


> korneley ©   (03.11.09 00:19) [22]
человек пошутил :>

> Игорь Шевченко ©   (02.11.09 23:38) [19]
думаю, анализ сложнее: спектр. композиция, пусть и в разном битрейте, имеет одну и ту же структуру. щто меня больше интересует: tunatic распознает даже выдранный из середины песни кусок (в 20 секунд укладывается) - вот как он его находит? %>


 
korneley ©   (2009-11-03 00:34) [24]


> > korneley ©   (03.11.09 00:19) [22]человек пошутил :>

Ну хорошо, что так, пойду спаь спокойно. Но, просыпаясь: "А ну, как нет?"


 
korneley ©   (2009-11-03 00:37) [25]

Ненавижу мелкие клавиатуры. Вот и слово "спать" одной буквы лишилось...


 
Inovet ©   (2009-11-03 00:39) [26]

> [22] korneley ©   (03.11.09 00:19)
> Дело-то не в опознании. Как определить полезность? потому,
> что задело "удалить _ненужную_мне_музыку" Я не знаю, у
> кого сколько музыки, кто слушает рэйв, а кто джаз. Но задача
> поставленная так, (имхо), не имеет решения.

Да там смайлик просто забыт, имхо.

Вообще даже по частоте прослушивания или там по последнему доступу к файлу определить не получится, можно раз в несколько лет что-то слушать при том это будет нужным и любимым. А какие тут могут быть формальные критерии? Рейтинги проставлять, как в хитпарадах? Так тоже фигня может выйти - иногда что-то и не очень любимое в кайф.


 
Омлет ©   (2009-11-03 00:44) [27]

> [24] korneley ©   (03.11.09 00:34)

Всё может быть. Я как-то думал над алгоритмом, который распознавал бы красоту.
Вот показать ему несколько песен, которые мне нравятся, которые я часто слушаю, и чтобы он нашел такие же красивые, а остальные удалил.
Сейчас слушаю песню Bebe - Siempre me quedar - блеск! Хотел бы я программу, которая найдет такие же красивые треки и скачает мне их с интернета :)


 
Inovet ©   (2009-11-03 00:44) [28]

> [26] Inovet ©   (03.11.09 00:39)
> Рейтинги проставлять, как в хитпарадах? Так тоже фигня может
> выйти - иногда что-то и не очень любимое в кайф.

Да и не стану я их проставлять, не знаю как кто.


 
Дмитрий Белькевич   (2009-11-03 00:53) [29]

>Оно ж по тэгам распознает, насколько я понимаю, а не по содержанию.

Не только. Хотя замечено, что тэги в алгоритме учавствуют.

>Я не знаю, у кого сколько музыки, кто слушает рэйв, а кто джаз

Видите, а говорите - нет решения. Как минимум - фильтры по авторам/жанру. Неидеально, конечно, но как первое приближение...


 
Inovet ©   (2009-11-03 00:54) [30]

> [27] Омлет ©   (03.11.09 00:44)
> Хотел бы я программу, которая найдет такие же красивые треки

Боюсь она только у тебя в голове с защитой от копирования. Кстати скачал и слушаю этот трак в данный момент.:)


 
Омлет ©   (2009-11-03 00:56) [31]

Нужен ИИ, которому можно привить свой вкус :)


 
Игорь Шевченко ©   (2009-11-03 01:11) [32]


> tunatic распознает даже выдранный из середины песни кусок
> (в 20 секунд укладывается) - вот как он его находит?


Шаман!

Rolling Stones - Miss you опознал
Notting Hillbillies - Your own sweet way опознал,
Ray Charles - Hit The Road Jack опознал
Godley & Creme - Freeze Frame опознал
Can - Mighty girl опознал
Bubblegum Crisis - Mr. Dandy опознал
Camel - Pressure Points опознал, даже приписал [Live]
Can - Safe опознал
Nick Cave and Bad Seeds - Thirsty Dog опознал
Earth & Fire - Storm and Thunder опознал,
а Earth & Fire - Atlantis не сумел.
BTO - Don"t Get Yourself In Trouble не сумел.
Eloy не знает совсем

У него небось на сервере народ сидит и угадывает мелодии :))


 
Игорь Шевченко ©   (2009-11-03 01:36) [33]

продолжим:

Frank Zappa - Sexual Harrassement In The WorkPlace опознал
Frank Zappa - Conehead - не смог
Frank Zappa - Sofa#1 опознал
Frank Zappa - Sofa#2 - не смог, странно, обе софы с одного альбома
Genesis - Am I very wrong распознал
Golden Earring - She Flies On Strange Wings распознал
Golden Earring - Yellow and Blue не смог
Hollies - Long Cool Woman (In a Black Dress) распознал
Hollies - After The Fox не смог

King Crimson распознает через песню

Забавно смотреть клип на YouTube и смотреть, как определяется.


 
Игорь Шевченко ©   (2009-11-03 01:44) [34]

Почитал, откуда он шаманит - народ сам его базу наполняет программой Tunanlyzer.
Почти как FreeDB наполнялась по компактам.
Полезная вещь.


 
cwl ©   (2009-11-03 01:59) [35]

> Игорь Шевченко ©   (03.11.09 01:44) [34]
да, наполняет (tunalyzer, кажись, только для маков - щто за дела) :>
"как определяет" все равно не понятно %>


 
Дмитрий Белькевич   (2009-11-03 02:05) [36]

>Нужен ИИ, которому можно привить свой вкус :)

Это да, было бы неплохо...

>У него небось на сервере народ сидит и угадывает мелодии :))

Угу, миллиард китайцев :)


 
Inovet ©   (2009-11-03 02:12) [37]

> [34] Игорь Шевченко ©   (03.11.09 01:44)
> Почитал, откуда он шаманит - народ сам его базу наполняет
> программой Tunanlyzer.
> Почти как FreeDB наполнялась по компактам.
> Полезная вещь.

Вот только хотел это предположить - у некоторых запрашивающих могут быть теги и большинство скорее верные. Или как в том джине угадывающем персонаж, что вроде Копир ветку со ссылкой создавал. Ещё может какой-то отпечаток делаеться навроде хэш только нечёткий, не знаю как. При приблизительном сходстве уже более детальное сравнение.


 
Игорь Шевченко ©   (2009-11-03 02:14) [38]

cwl ©   (03.11.09 01:59) [35]


> кажись, только для маков


Уже увидел. Пожалел :)


> "как определяет" все равно не понятно


Пишут, что учитывает мелодию и тембр, суммы небось какие-нибудь контрольные, раз про tunalyzer написано, что трафик небольшой


 
Германн ©   (2009-11-03 02:33) [39]


> korneley ©   (03.11.09 00:37) [25]

Пока молчу. :)


 
Игорь Шевченко ©   (2009-11-03 02:51) [40]

Причем, интересно, некоторые песни угадывает с 7-10 секунд, например Van der Graaf Generator - Pilgrims угадал быстро, а над Tangerine Dream - Tiergaten (Berlin) или Toto - White Sister думал секунд 30, над Yes - Shock To The System думал аж 40 секунд

Ну и демократов совсем не знает, похоже, знает английскую, американскую и немецкую музыку.

Зато знает наших, Зинчука - Аве Мария опознал, Иван Купала - Кострома опознал. Много нашего народу на Маках сидит :)


 
Германн ©   (2009-11-03 03:00) [41]


> Игорь Шевченко ©   (03.11.09 02:51) [40]

А девятую революцию?


 
Eraser ©   (2009-11-03 03:14) [42]

> [40] Игорь Шевченко ©   (03.11.09 02:51)


> Много нашего народу на Маках сидит :)

к спору о необходимости версий софта под Mac ;-)


 
Anatoly Podgoretsky ©   (2009-11-03 10:25) [43]

> Омлет  (02.11.2009 23:16:11)  [11]

Лучше фильмы удалять, эффективнее.


 
Smile   (2009-11-03 11:36) [44]

> Anatoly Podgoretsky ©   (03.11.09 10:25) [43]

> Лучше фильмы удалять, эффективнее.


А еще лучше (и проще) набрать в Google:
File Duplicated или Find Duplicated


 
Virgo_Style ©   (2009-11-03 14:41) [45]


> хочу себе написать примерно такую же для фотографий..


ImgSearch


> Для музыки часом нету ?


Similarity


 
TUser ©   (2009-11-03 20:54) [46]


> Ну и демократов совсем не знает

безобразие!


 
Smile   (2009-11-04 13:14) [47]

На мой взгляд, эта утилита Duplicate File Finder из Ace Utilities лучшая для этих целей

Скачать можно отсюда
http://www.acelogix.com/


 
Piter ©   (2009-11-04 15:47) [48]

Sergey Masloff   (02.11.09 19:28)
На нем терабайт файлов MS Office. По приблизительной оценке 30% из них дубликаты


а затея имеет экономическую целесообразность, задача в том, чтобы освободить место на дисках?

Дубликатов получается порядка 300 GB, это сейчас пару тысяч рублей, меньше зарплаты программиста типа тебя за один день.


 
Sergey Masloff   (2009-11-04 18:23) [49]

Piter
Дело в том что это не на бытовом HDD хранится а на EMC DMX-3, 300 Гб на нем стоит как зарплата меня примерно за год ;-))


 
Piter ©   (2009-11-04 19:19) [50]

300 GB стоят под миллион и более? Бред, конечно...

Никогда не понимал эти "корпоративные" технологии, которые стоят в сотни раз дороже бытовых. При таких диких соотношениях всякое безупречное качество, скорость и прочее можно просто задавить количеством... Правильно в этом смысле гугл делает, молодцы.
Ну это я так пофлудить...


 
Sergey Masloff   (2009-11-04 20:02) [51]

Piter ©   (04.11.09 19:19) [50]
Я может чуть-чуть преувеличил. 80 тыс зеленых терабайт стоит. У гугла несколько другие требования к данным ;-)


 
Piter ©   (2009-11-04 20:22) [52]

Sergey Masloff   (04.11.09 20:02) [51]
80 тыс зеленых терабайт стоит. У гугла несколько другие требования к данным


а какие еще могут быть требования?

Есть три вещи - объем данных, скорость работы с ними (ветвистое понятие) и надежность хранения.

За эти деньги, имхо, на бытовых разработках можно тупо количеством обеспечить бОльший объем, бОльшую скорость, бОльшую надежность.


 
Наиль ©   (2009-11-05 12:04) [53]


> Вообще даже по частоте прослушивания или там по последнему
> доступу к файлу определить не получится, можно раз в несколько
> лет что-то слушать при том это будет нужным и любимым. А
> какие тут могут быть формальные критерии? Рейтинги проставлять,
>  как в хитпарадах? Так тоже фигня может выйти - иногда что-
> то и не очень любимое в кайф.

Мой проигрыватель Winamp.
В нём включены глобальные хоткеи.
В плейлист загоняю всю музыку.
Если что-то очень нравится, шлёпаю по Ctrl+Alt+5 (рейтинг - 5 звёзд).
А если не нравится, то Ctrl+PgDn (перейти к следующей песне).
Если бы винамп мог бы отмечать тех, кого я трижды таким образом забанил, то я легко мог бы избавиться от всего музыкального мусора.
По хоткеям шлёпаю, сам того не замечая, не отвлекаясь от работы.



Страницы: 1 2 вся ветка

Текущий архив: 2010.01.03;
Скачать: CL | DM;

Наверх




Память: 0.61 MB
Время: 0.016 c
15-1257163293
БарЛог
2009-11-02 15:01
2010.01.03
Опыт использования движков сайтов


2-1258016441
Иван
2009-11-12 12:00
2010.01.03
Как экспортировать ListView в Excel?


15-1257102645
Рыжий Вася
2009-11-01 22:10
2010.01.03
сайт с www и без них


15-1257172006
Loky1984
2009-11-02 17:26
2010.01.03
Не запускается Delphi6


1-1231953992
Тыщ
2009-01-14 20:26
2010.01.03
Как использовать строковые константы в asm..end?