Novos critérios para seleção de modelos neurais em problemas de classificação com dados desbalanceados
AUTOR(ES)
Cristiano Leite de Castro
FONTE
IBICT - Instituto Brasileiro de Informação em Ciência e Tecnologia
DATA DE PUBLICAÇÃO
31/10/2011
RESUMO
Redes Neurais Artificiais induzidas por conjuntos de treinamento complexos e altamente desbalanceados tendem a produzir modelos de classificação que favorecem a classe com maior probabilidade de ocorrência (majoritária). Embora na literatura existam soluções propostas para esse problema, apenas uma quantidade limitada de trabalhos tem investigado as suas causas e/ou proposto algum tipo de formalismo. Nesse trabalho, uma análise de cunho formal sobre a natureza do problema de classes desbalanceadas é descrita com base nas teorias de Decisão Bayesiana e Aprendizado Estatístico. É demonstrado que o problema surge como uma consequência direta da minimização de um critério baseado no Erro global, tendo como principal atenuante o nível de sobreposição (ruído) das distribuições. Adicionalmente, são desenvolvidos dois novos algoritmos de aprendizado para a topologia MultiLayer Perceptron: WEMLP e AUCMLP. Ambos são projetados a partir de critérios específicos para seleção de modelos, os quais são diferentes do Erro global. A função custo proposta para o algoritmo WEMLP utiliza um parâmetro para distinguir as perdas associadas a cada classe. O algoritmo AUCMLP otimiza uma aproximação diferenciável da estatística de Wilcoxon-Mann-Whitney. Extensões Multiobjetivo (MOBJ) para as formulações de WEMLP e AUCMLP são também propostas, com o propósito de se incorporar uma estratégia efetiva para o controle de complexidade (flexibilidade) de modelos. Testes estatísticos aplicados aos resultados empíricos obtidos com dados reais mostram a eficiência de nossa abordagem em melhorar o ranking de classificação e também, em obter taxas de acerto elevadas e equilibradas para ambas as classes.
ASSUNTO(S)
ACESSO AO ARTIGO
http://hdl.handle.net/1843/BUOS-8WHGE7Documentos Relacionados
- Classificação Morfológica de Galáxias em Conjuntos de Dados Desbalanceados
- Seleção de variáveis para classificação de bateladas produtivas com base em múltiplos critérios
- Seleção de modelos de tempos com longa-duração para dados de finanças
- Uma metodologia para seleção de parâmetros em modelos de classificação de proteínas.
- Aprendizado supervisionado com conjuntos de dados desbalanceados