Análise de cluster — Glossário Aria Research

Definição estendida

Análise de cluster é a família de métodos não-supervisionados que agrupa observações em conjuntos (clusters) com base em similaridade — sem rótulos pré-definidos, ao contrário de classificação supervisionada. Três famílias dominam: k-means (MacQueen, 1967) particiona $n$ observações em $k$ clusters minimizando soma de distâncias quadráticas ao centroide; agrupamento hierárquico (aglomerativo: junta clusters próximos iterativamente; divisivo: separa iterativamente) produz dendrograma; DBSCAN (Ester et al., 1996) usa densidade local para identificar clusters de forma arbitrária e detectar outliers. Decisões metodológicas críticas: medida de distância (euclidiana, manhattan, cosseno), normalização das variáveis (essencial para distâncias euclidianas), número de clusters $k$ (elbow plot, gap statistic, silhouette). Rousseeuw (1987) propôs o coeficiente de silhouette, métrica padrão de qualidade do agrupamento (varia de $-1$ a $1$ ; valores próximos de $1$ indicam observação bem-ajustada ao seu cluster). Métodos modernos incluem clustering espectral, Gaussian mixture models, e clustering hierárquico em embeddings (BERTopic etc.).

Quando se aplica

Análise de cluster aplica-se em pesquisa exploratória onde o objetivo é descobrir estrutura latente sem rótulos: segmentação de pacientes em estudos epidemiológicos, perfis de consumidores em marketing, identificação de grupos de comportamento em educação, agrupamento de documentos em NLP, classificação não-supervisionada em genômica. É útil em redução de dimensionalidade conceitual: cluster substitui múltiplas variáveis correlacionadas por categoria interpretável. Em ML, clustering é etapa frequente em engenharia de features e em geração de pseudo-rótulos para semi-supervised learning.

Quando NÃO se aplica

Não se aplica quando rótulos existem ou podem ser obtidos com custo razoável — classificação supervisionada é mais informativa. Não se aplica como prova de existência de grupos: algoritmos de clustering sempre produzem clusters, mesmo em dados aleatórios; existência genuína de estrutura precisa ser validada por estabilidade entre amostras (bootstrap clustering) e por interpretabilidade. Não se aplica em variáveis categóricas com k-means baseado em distância euclidiana — usar k-modes, k-prototypes ou Gower distance. Não se aplica em datasets com escalas heterogêneas sem normalização: variável com magnitude maior domina distância. Em alta dimensionalidade ( $p > n$ ), distâncias se concentram (curse of dimensionality) e clustering padrão pode falhar — redução prévia (PCA, embeddings) é necessária.

Aplicações por área

— Genômica: clustering hierárquico em expressão gênica para identificar subtipos de doença; transcriptomics. — Marketing: k-means para segmentação de clientes; perfis de comportamento em CRM. — NLP: clustering de embeddings para agrupar documentos semanticamente; BERTopic em modelagem de tópicos moderna. — Educação: identificação de perfis de aprendizagem; análise de padrões em learning analytics.

Armadilhas comuns

A primeira armadilha é tratar resultado de clustering como prova de estrutura real — k-means com $k = 3$ sempre produz 3 grupos, mesmo em dados sem estrutura genuína. Validação por estabilidade (bootstrap, gap statistic) e silhouette é essencial. A segunda é não normalizar variáveis: idade em anos (0–100) e renda em milhares (0–500.000) na mesma análise euclidiana = renda domina inteiramente. A terceira é confundir interpretação de centroide com tipologia: centroide é média; nenhum sujeito real precisa estar próximo dele. A quarta é escolher $k$ pelo elbow plot sem confirmar com gap statistic ou silhouette: elbow é heurístico e frequentemente ambíguo. A quinta é over-interpretar diferenças entre clusters: comparações pós-hoc entre clusters em variáveis usadas no próprio agrupamento são circulares — diferença é construída, não descoberta.