Métricas de classificação — Glossário Aria Research

Definição estendida

Métricas de classificação são a família de medidas usadas para avaliar modelos de classificação supervisionada. Quatro são centrais no caso binário, derivadas da matriz de confusão (TP, FP, TN, FN — verdadeiros/falsos positivos/negativos):

\text{Precision} = \frac{TP}{TP+FP}, \quad \text{Recall} = \frac{TP}{TP+FN}, \quad \text{F1} = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}

Accuracy é a proporção total de classificações corretas, $(TP+TN)/(TP+TN+FP+FN)$ , mas enganosa em datasets desbalanceados. Precision mede confiabilidade de positivos previstos. Recall (também chamado sensibilidade ou TPR) mede cobertura de positivos reais. F1 é a média harmônica entre os dois, equilibrando o trade-off. AUC-ROC integra performance em todos os limiares de decisão. Powers (2011) ofereceu o tratamento matemático canônico, derivando informedness, markedness e correlação de Matthews como métricas adicionais; Sokolova e Lapalme (2009) sistematizaram comparação entre métricas em tarefas multi-classe. Generalização para multi-classe usa macro-average (média sem ponderar por suporte) ou weighted-average (ponderada por frequência das classes).

Quando se aplica

Métricas de classificação aplicam-se em qualquer problema supervisionado com desfecho categórico, da fase de prototipagem à avaliação final. Escolha da métrica deve refletir o custo relativo de falsos positivos vs. falsos negativos no domínio: em diagnóstico médico de doença grave, recall alto é crítico (perder caso é pior que falsa suspeita); em sistemas de spam, precision alta é crítica (classificar email legítimo como spam é pior que deixar passar um spam). F1 é apropriado quando ambos os erros são similarmente custosos. AUC-ROC é apropriado para comparar modelos quando o limiar de decisão final será calibrado posteriormente.

Quando NÃO se aplica

Não se aplica accuracy isolada em problemas com classes desbalanceadas — modelo trivial que prevê sempre a classe majoritária pode ter accuracy de 95% sem aprender nada. Em desbalance severo, métricas como balanced accuracy, F1, MCC ou PR-AUC são alternativas. AUC-ROC pode ser enganoso em datasets muito desbalanceados — PR-AUC é frequentemente preferível. Não se aplicam diretamente em regressão (usar RMSE, MAE, $R^2$ ). Em problemas multi-rótulo (cada exemplo pode ter múltiplos rótulos simultâneos), métricas exigem extensões específicas (Hamming loss, subset accuracy).

Aplicações por área

— Saúde e biomédicas: sensibilidade (recall) e especificidade são padrão; AUC-ROC reportado em estudos de diagnóstico. — Detecção de fraude e segurança: precision e recall com curvas calibradas para diferentes pontos operacionais. — NLP: F1 micro/macro em classificação de texto, NER, e tarefas multi-classe; benchmarks como GLUE reportam múltiplas métricas. — Visão computacional: mAP (mean Average Precision) em detecção de objetos; IoU em segmentação — métricas específicas do domínio.

Armadilhas comuns

A primeira armadilha é reportar accuracy sem mencionar prevalência das classes — em desbalance severo, accuracy alta esconde falha no minoritário. A segunda é otimizar para uma métrica e ignorar outras: modelo com F1 alto pode ter recall baixo na classe rara, problema crítico em alguns domínios. A terceira é confundir AUC-ROC com AUC-PR — em datasets desbalanceados eles divergem dramaticamente; PR-AUC é mais informativo quando classe positiva é rara. A quarta é usar matriz de confusão sem normalizar — visualização sobre frequências brutas oculta padrões em datasets desbalanceados. A quinta é escolher métricas após ver resultados — boas práticas exigem definir métrica de interesse antes da avaliação, em conexão com objetivo do projeto e custo dos erros.