Definição estendida
Análise de cluster é a família de métodos não-supervisionados que agrupa observações em conjuntos (clusters) com base em similaridade — sem rótulos pré-definidos, ao contrário de classificação supervisionada. Três famílias dominam: k-means (MacQueen, 1967) particiona observações em clusters minimizando soma de distâncias quadráticas ao centroide; agrupamento hierárquico (aglomerativo: junta clusters próximos iterativamente; divisivo: separa iterativamente) produz dendrograma; DBSCAN (Ester et al., 1996) usa densidade local para identificar clusters de forma arbitrária e detectar outliers. Decisões metodológicas críticas: medida de distância (euclidiana, manhattan, cosseno), normalização das variáveis (essencial para distâncias euclidianas), número de clusters (elbow plot, gap statistic, silhouette). Rousseeuw (1987) propôs o coeficiente de silhouette, métrica padrão de qualidade do agrupamento (varia de a ; valores próximos de indicam observação bem-ajustada ao seu cluster). Métodos modernos incluem clustering espectral, Gaussian mixture models, e clustering hierárquico em embeddings (BERTopic etc.).
Quando se aplica
Análise de cluster aplica-se em pesquisa exploratória onde o objetivo é descobrir estrutura latente sem rótulos: segmentação de pacientes em estudos epidemiológicos, perfis de consumidores em marketing, identificação de grupos de comportamento em educação, agrupamento de documentos em NLP, classificação não-supervisionada em genômica. É útil em redução de dimensionalidade conceitual: cluster substitui múltiplas variáveis correlacionadas por categoria interpretável. Em ML, clustering é etapa frequente em engenharia de features e em geração de pseudo-rótulos para semi-supervised learning.
Quando NÃO se aplica
Não se aplica quando rótulos existem ou podem ser obtidos com custo razoável — classificação supervisionada é mais informativa. Não se aplica como prova de existência de grupos: algoritmos de clustering sempre produzem clusters, mesmo em dados aleatórios; existência genuína de estrutura precisa ser validada por estabilidade entre amostras (bootstrap clustering) e por interpretabilidade. Não se aplica em variáveis categóricas com k-means baseado em distância euclidiana — usar k-modes, k-prototypes ou Gower distance. Não se aplica em datasets com escalas heterogêneas sem normalização: variável com magnitude maior domina distância. Em alta dimensionalidade (), distâncias se concentram (curse of dimensionality) e clustering padrão pode falhar — redução prévia (PCA, embeddings) é necessária.
Aplicações por área
— Genômica: clustering hierárquico em expressão gênica para identificar subtipos de doença; transcriptomics. — Marketing: k-means para segmentação de clientes; perfis de comportamento em CRM. — NLP: clustering de embeddings para agrupar documentos semanticamente; BERTopic em modelagem de tópicos moderna. — Educação: identificação de perfis de aprendizagem; análise de padrões em learning analytics.
Armadilhas comuns
A primeira armadilha é tratar resultado de clustering como prova de estrutura real — k-means com sempre produz 3 grupos, mesmo em dados sem estrutura genuína. Validação por estabilidade (bootstrap, gap statistic) e silhouette é essencial. A segunda é não normalizar variáveis: idade em anos (0–100) e renda em milhares (0–500.000) na mesma análise euclidiana = renda domina inteiramente. A terceira é confundir interpretação de centroide com tipologia: centroide é média; nenhum sujeito real precisa estar próximo dele. A quarta é escolher pelo elbow plot sem confirmar com gap statistic ou silhouette: elbow é heurístico e frequentemente ambíguo. A quinta é over-interpretar diferenças entre clusters: comparações pós-hoc entre clusters em variáveis usadas no próprio agrupamento são circulares — diferença é construída, não descoberta.