Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Форум: "Прочее";
Текущий архив: 2013.03.22;
Скачать: [xml.tar.bz2];

Вниз

кластеризация   Найти похожие ветки 

 
картман ©   (2012-06-26 16:02) [0]

Всем доброго времени суток.
Задача: имеется 100 тысяч текстов. Нужно разбить на кластеры. Есть ли алгоритмы, позволяющие узнать, на сколько кластеров имеет смысл разбивать?


 
ProgRAMmer Dimonych ©   (2012-06-26 16:06) [1]

> [0] картман ©   (26.06.12 16:02)
> Всем доброго времени суток.
> Задача: имеется 100 тысяч текстов. Нужно разбить на кластеры.
> Есть ли алгоритмы, позволяющие узнать, на сколько кластеров
> имеет смысл разбивать?

Максимин?


 
ProgRAMmer Dimonych ©   (2012-06-26 16:08) [2]

В смысле то, что называют "алгоритм максимина". Главное - удачно придумать способ представления свойств текста в виде координат пространства признаков.


 
картман ©   (2012-06-26 16:17) [3]


> ProgRAMmer Dimonych ©  

спасибо, гляну


 
xayam ©   (2012-06-27 06:50) [4]

http://statosphere.ru/blog/137-hierar-cluster.html

"

Для определения количества кластеров ... нужно выбрать пороговое расстояние - то есть такое расстояние, при превышении которого объединяться будут уже слишком далекие с точки зрения исследователя объекты. После выбора порогового расстояния проводится перпендикуляр через точку, соответствующую выбранному расстоянию, и подсчитывается количество его пересечений с «ветвями» дендрограммы. Количество пересечений и будет определять количество классов, а объекты, оказавшиеся на «отсеченной» ветке – состав классов. Например, при пороговом расстоянии 200 выделяется 3 класса, при пороговом расстоянии 100 – 5 классов, при пороговом расстоянии 70 – 6 классов (рисунок 11).

"


 
картман ©   (2012-06-27 12:31) [5]


> xayam ©   (27.06.12 06:50) [4]

шикарно! Спасибо


 
TUser ©   (2012-06-28 08:25) [6]

Для начала надо задачу поставить. Расколастеризовать - это не постановка задачи. Сколько имеет смысл - это тоже не задача.

Надо понять, для чего тебе эти тексты. Зачем тебе их разбивать на кстастеры. Тогда, глядишь, будет ясно, сколько надо кластеров, или хотя бы как определить это число.

А какие-то там алгоритмы за тебя задачу ставить не будут. Не для того они.



Страницы: 1 вся ветка

Форум: "Прочее";
Текущий архив: 2013.03.22;
Скачать: [xml.tar.bz2];

Наверх





Память: 0.46 MB
Время: 0.068 c
15-1333440113
MonoLife
2012-04-03 12:01
2013.03.22
Aser Aspire one & Asus WL-500g Premium v.2


15-1333057317
Германн
2012-03-30 01:41
2013.03.22
Взаимодействие 64-х битного приложения с 32-х битной библиотекой


3-1280406421
Alekcey
2010-07-29 16:27
2013.03.22
raised exception ... in module IDODBC32.DLL


8-1230645984
Б
2008-12-30 17:06
2013.03.22
Где найти DirectX SDK для Delphi?


2-1345986998
Wadimka
2012-08-26 17:16
2013.03.22
Кто-нибудь работал с компонентом SecureBridg?





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский