Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad

Aplicación de Perceptrones Paralelos y AdaBoost a Problemas de Clasificación de Muestra Extrema, Apuntes de Ingeniería Infórmatica

Tipo: Apuntes

2018/2019

Subido el 09/07/2019

cabretamontesa
cabretamontesa 🇲🇽

4.6

(17)

39 documentos

1 / 73

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Universidad Aut´onoma de Madrid
Escuela Polit´ecnica Superior
Departamento de Ingenier´ıa Inform´atica
Aplicaci´on de
Perceptrones Paralelos y AdaBoost a
Problemas de Clasificaci´on de Muestra Extrema
Trabajo de investigaci´on presentado para
optar al Diploma de Estudios Avanzados
Por
Iv´an Cantador Guti´errez
bajo la direcci´on de
Jos´e R. Dorronsoro Ibero
Madrid, junio de 2005
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49

Vista previa parcial del texto

¡Descarga Aplicación de Perceptrones Paralelos y AdaBoost a Problemas de Clasificación de Muestra Extrema y más Apuntes en PDF de Ingeniería Infórmatica solo en Docsity!

Universidad Aut´onoma de Madrid

Escuela Polit´ecnica Superior

Departamento de Ingenier´ıa Inform´atica

Aplicaci´on de

Perceptrones Paralelos y AdaBoost a

Problemas de Clasificaci´on de Muestra Extrema

Trabajo de investigaci´on presentado para optar al Diploma de Estudios Avanzados

Por

Iv´an Cantador Guti´errez

bajo la direcci´on de

Jos´e R. Dorronsoro Ibero

Madrid, junio de 2005

´Indice de figuras

2.5.1 Ejemplo de 3 curvas ROC con diferentes grados de bondad seg´un la m´etrica AUC........................................ 12 3.1.1 Funci´on de squashing sρ para la salida de un perceptr´on paralelo....... 17 3.2.1 Regla p-delta para aprendizaje incremental del PP............... 20 3.3.1 Versi´on alternativa de la regla p-delta para aprendizaje incremental del PP. 22

4.1.1 Esquema general de combinaci´on no h´ıbrida de modelos............ 26 4.1.2 Probabilidad de que exactamente t de 21 hip´otesis no correlacionadas con porcentaje de error pe = 0.3 sean err´oneas en un conjunto de clasificadores con votaci´on mayoritaria............................. 27 4.1.3 Tres razones fundamentales de porqu´e un conjunto de modelos puede dar mejores resultados que un modelo ´unico..................... 28 4.2.1 Esquema general del algoritmo Bagging..................... 31 4.2.2 Esquema general de un algoritmo de Boosting................. 31 4.3.1 Esquema general del algoritmo AdaBoost.................... 32 4.3.2 Comportamiento del error esperado en AdaBoost debido al sobreajuste... 38 4.3.3 Curvas de error [39] para C4.5–AdaBoost aplicado en el conjunto de datos letters........................................ 38 4.3.4 Distribuciones acumulativas de los m´argenes [39] de C4.5–AdaBoost en el conjunto de datos letters para 5, 100 y 1000 iteraciones; indicadas respecti- vamente por las curvas punteada, rayada y continua.............. 39 5.1.1 Identificaci´on de patrones redundantes, ruidosos y quasi-ruidosos en 2 pro- blemas de clasificaci´on binaria donde las clases siguen 2 y 3 distribuciones Gaussianas..................................... 45 5.1.2 Esquema general del algoritmo PPTSS..................... 46

iii

Resumen

En los ´ultimos a˜nos los m´etodos empleados en Aprendizaje Autom´atico y Miner´ıa de Datos, as´ı como la aceptaci´on de los mismos, han avanzado hasta un punto en el que est´an siendo aplicados en “problemas del mundo real” de forma muy habitual. En este avance se ha ido prestando progresivamente m´as atenci´on e investigaci´on a un tipo de problemas muy concreto: los problemas de clasificaci´on desequilibrados o problemas de Muestra Extrema. En ellos el comportamiento de una clase de inter´es se encuentra oscurecido por el de una gran mayor´ıa de datos pertenecientes a otras, mucho m´as dominantes estad´ısticamente, que en ocasiones pueden provocar que la distribuci´on de la primera resulte invisible. Para abordarlos se desarrollaron estrategias que alteran y equilibran la distribuci´on de clases: submuestreo o eliminaci´on de ejemplos de la clase mayoritaria, y sobremuestreo o replicaci´on de ejemplos de la clase minoritaria. Sin embargo, estos m´etodos tienen inconve- nientes. Mientras que el submuestreo puede dar lugar a la p´erdida de datos potencialmente utiles para el aprendizaje, el sobremuestreo incrementa el tama˜´ no del conjunto de entre- namiento, y por tanto el tiempo necesario para construir el clasificador, a la vez que puede provocar sobreajuste en el entrenamiento por emplear copias exactas de los patrones mi- noritarios. Investigaciones m´as recientes se han centrado en desarrollar estrategias que inteligentemente seleccionan para el entrenamiento s´olo aquellos ejemplos que est´an cerca de la frontera de la clasificaci´on. De este modo, buscan eliminar aquellos patrones “redun- dantes”, f´aciles de clasificar, que no contribuyen a la construcci´on del clasificador, y los patrones “ruidosos”, de etiquetado err´oneo, que estorban en el aprendizaje. En este trabajo se usar´an los novedosos Perceptrones Paralelos, y el concepto de margen sobre la frontera de clasificaci´on que surge en las activaciones de los perceptrones durante el entrenamiento, para proponer una t´ecnica alternativa que identifique los patrones “re- dundantes” y “ruidosos” a ser eliminados de los conjuntos de datos. Adem´as, teniendo como objetivo la mejora del m´etodo anterior, ´este se acoplar´a al algoritmo AdaBoost, uno de los mecanismos de combinaci´on de clasificadores m´as empleado en la actualidad. Los resultados emp´ıricos obtenidos con ambas estrategias mostrar´an un alcance, y mejora en los casos m´as desequilibrados, de los proporcionados por los robustos Perceptrones Multicapa.

v

Abstract

In the last years the methods developed in Machine Learning and Data Mining, as well as their acceptance, have advanced until a point where they are being widely applied for “problems of the real world”. In this setting a very specific type of problems has received progressively more attention from the scientific community: the so-called unbalanced classi- fication problems. For them, the behaviour of a class of interest is statistically overwhelmed by others and its distribution may sometimes seem invisible to the learning algorithms. In order to address these problems a number of strategies that attempt to balance the class distributions have been applied: subsampling or elimination of majority class examples, and oversampling or replication of minority class examples. However, these techniques have several disadvantages. While subsampling methods could produce the loss of very useful data for learning, oversampling strategies augment the dataset sizes, and therefore the needed training time, and could present overfitting, due to the use of similar copies of the minority patterns. More recent researches have focused their effort on strategies that intelligently select for training only those patterns close to the classification boundaries. Thus, they attempt to detect and remove the redundant examples which are safe, in the sense of being well represented in the training sample by many other similar patterns, and also the noisy examples that may have an incorrect label and obstruct the construction of the models. In this work we propose the use of Parallel Perceptrons, a novel approach to the well known classical committe machines, and the concept of activation margins that naturally arises during their learning processes. We shall use these margins to detect redundant and noisy examples, and delete them from the training samples. Moreover, to further improve on the previous approach, we shall combine it with AdaBoost, one of the most used and studied ensemble methods at present. The empirical results obtained with both techniques are comparable and even better in some cases, with those provided by the stronger Multilayer Perceptrons.

vi

Cap´ıtulo 1

Introducci´on

De gran inter´es son los problemas de clasificaci´on dif´ıciles originados en el “mundo real” que pueden agruparse bajo el ep´ıgrafe de Muestras Extremas (ME), y que se caracterizan por tener clases de inter´es cuyo n´umero de datos es mucho menor que el de otras. La comunidad cient´ıfica que trabaja en Aprendizaje Autom´atico (del ingl´es Machine Learning, ML) asum´ıa que la distribuci´on de clases natural era la mejor para el aprendizaje. Sin embargo, esta asunci´on fue descartada al comprobarse (e.g. [43]) el efecto negativo que el desequilibrio existente entre el n´umero de ejemplos minoritarios y mayoritarios puede provocar en la eficacia de los clasificadores (v´ease secci´on 2.1). Este hecho fue abordado entonces mediante dos tipos de enfoques diferentes. El primero consiste en el remuestreo de los conjuntos de entrenamiento para equilibrar el n´umero de representantes de cada clase (v´eanse secciones 2.2 y 2.3), y el segundo se basa en la asignaci´on de costes a los patrones, de tal modo que en el proceso de entrenamiento se premie la correcta clasificaci´on de aquellos con mayores costes (v´ease secci´on 2.4). El estudio las estrategias anteriores y la propuesta de otras nuevas para el tratamiento de ME son los temas centrales de este trabajo de investigaci´on. A continuaci´on se concretar´an su motivaci´on y objetivos generales, se resumir´an sus contribuciones y se dar´a una visi´on general del presente documento.

1.1 Motivaci´on

Las t´ecnicas b´asicas de equilibrado de clases (v´ease secci´on 2.2) consistentes en la elimi- naci´on de ejemplos mayoritarios y en la replicaci´on de ejemplos minoritarios del conjunto de entrenamiento presentan inconvenientes. Mientras que las primeras tienen el riesgo de que se pierda informaci´on relevante para el aprendizaje, las segundas incrementan el tama˜no de los conjuntos de datos, y por tanto el tiempo necesario para el entrenamiento, adem´as de

1

Cap´ıtulo 1. Introducci´on 3

Estas propiedades, junto con el muy r´apido entrenamiento de los Perceptrones Parale- los, podr´ıan hacer de ellas ´utiles para abordar problemas de Muestras Extremas con alta dimensionalidad, un ´area de considerable inter´es en la actualidad (v´ease cap´ıtulo 7).

1.4 Estructura del documento

El esquema que se ha seguido en este documento coincide con las fases del trabajo realizado. Inicialmente se plantea el problema a tratar, la clasificaci´on de Muestras Extremas, y se describe el estado del arte de las propuestas que se han dado para abordarlo. En una de ellas, la selecci´on de patrones cercanos a la frontera de clasificaci´on como conjunto de entrenamiento, se plantea si el uso de los m´argenes que surgen en el entrenamiento del Percpetr´on Paralelo es viable para el filtrado de ejemplos. Una vez estudiada, la alternativa se intenta acoplar a t´ecnicas de agregaci´on de clasificadores, en concreto al algoritmo AdaBoost, con el fin de mejorar los resultados obtenidos. El texto se ha dividido en siete cap´ıtulos, incluyendo ´este introductorio. Cada uno de ellos comienza con una motivaci´on e introducci´on de los puntos que se tratar´an y un peque˜no p´arrafo que describe su estructura interna.

  • El cap´ıtulo 2 describe el problema de la clasificaci´on de Muestras Extremas, revisa los tipos de t´ecnicas m´as importantes que se han aplicado para tratarlo y plantea las medidas de eficacia adecuadas para la comparaci´on de estas ´ultimas.
  • El cap´ıtulo 3 describe el Perceptr´on Paralelo: su arquitectura y su regla de apren- dizaje, as´ı como aspectos pr´acticos de su implementaci´on.
  • El cap´ıtulo 4 motiva el uso de m´etodos de agregaci´on de clasificadores como mejora de la eficacia, expone las principales estrategias de combinaci´on de modelos y de ellas explica m´as en profundidad el algoritmo AdaBoost.
  • El cap´ıtulo 5 describe las dos propuestas del trabajo para abordar problemas de clasificaci´on de Muestra Extrema. La primera (PPTSS), basada en la selecci´on de conjuntos de entrenamiento a trav´es del Perceptr´on Paralelo, y la segunda (PPBoost), establecida como una adaptaci´on de esa selecci´on a AdaBoost.
  • El cap´ıtulo 6 expone los resultados obtenidos con las propuestas, compar´andolos con los del Perceptr´on Multicapa y su agregaci´on mediante varios clasificadores.
  • El cap´ıtulo 7 contiene finalmente las conclusiones del trabajo: las contribuciones, una comparaci´on con investigaciones previas realizadas en el ´area de la clasificaci´on de Muestras Extremas, y las l´ıneas abiertas para trabajo futuro.
  • 1 Introducci´on Abstract vi
    • 1.1 Motivaci´on
    • 1.2 Objetivos generales de la investigaci´on
    • 1.3 Contribuciones de la investigaci´on
    • 1.4 Estructura del documento
  • 2 Muestras Extremas
    • 2.1 El efecto de la distribuci´on de clases en el aprendizaje
    • 2.2 T´ecnicas b´asicas de equilibrado de clases
    • 2.3 T´ecnicas de equilibrado de clases basadas en patrones frontera
    • 2.4 T´ecnicas de clasificaci´on sensibles a costes
    • 2.5 Medidas de eficacia adecuadas para Muestras Extremas
  • 3 Perceptrones Paralelos
    • 3.1 Arquitectura
    • 3.2 La regla de aprendizaje p-delta
    • 3.3 Funci´on de error de la regla p-delta
    • 3.4 Consideraciones pr´acticas para la implementaci´on
  • 4 AdaBoost
    • 4.1 Conjuntos de modelos
    • 4.2 Conjuntos de modelos mediante manipulaci´on de datos de entrenamiento
    • 4.3 AdaBoost
  • 5 Muestras Extremas, Perceptrones Paralelos y AdaBoost Contenido ii - Perceptrones Paralelos: PPTSS 5.1 Selecci´on de Conjuntos de Entrenamiento en Muestras Extremas usando - como aprendiz d´ebil: PPBoost 5.2 Adaptaci´on de AdaBoost a Muestras Extremas usando el Perceptr´on Paralelo
  • 6 Experimentos
    • 6.1 Conjuntos de datos
    • 6.2 Metodolog´ıa
    • 6.3 Resultados num´ericos de PPTSS
    • 6.4 Resultados num´ericos de PPBoost
  • 7 Conclusiones
  • Bibliograf´ıa
  • Cap´ıtulo 1. Introducci´on

Cap´ıtulo 2. Muestras Extremas 6

im´agenes por sat´elite de la superficie del mar [30], la gesti´on de las telecomunicaciones [21] o la categorizaci´on de textos [27, 41]. Para abordar este tipo de problemas se desarrollaron inicialmente t´ecnicas orientadas a equilibrar el n´umero de muestras de entrenamiento de cada clase, realizando sobremuestreos de la clase minoritaria [37] o submuestreos de la clase mayoritaria [44, 3]. Sin embargo, como se explicar´a m´as adelante, estos m´etodos poseen inconvenientes, y por ello se han ido planteado nuevas estrategias de muestreo [29, 19], inspiradas en las M´aquinas de Vectores Soporte (del ingl´es Support Vector Machines, SVM) [8], que progresivamente s´olo emplean para el entrenamiento aquellos patrones que definen la frontera de clasificaci´on o est´an cerca de ella. En este cap´ıtulo se describir´a brevemente el efecto que un conjunto de entrenamiento desequilibrado puede tener sobre la clasificaci´on. Se comentar´an las t´ecnicas cl´asicas de equilibrado de clases, sus inconvenientes y algunas modificaciones que se han realizado en ellas para mejorarlas, as´ı como las nuevas estrategias de muestreo basadas en la selecci´on de patrones de entrenamiento cercanos a la frontera de clasificaci´on, y las t´ecnicas de clasi- ficaci´on sensibles a costes. Finalmente, se discutir´a qu´e medidas de eficacia son adecuadas cuando se trabaja con muestras extremas.

2.1 El efecto de la distribuci´on de clases en el aprendizaje

La creaci´on de un conjunto de datos adecuado y el posterior aprendizaje que se haga a partir de ´el supone diversos costes. Por una parte, en la creaci´on del conjunto de datos se tienen que asumir costes debidos a la propia obtenci´on de los datos, a su limpieza y filtrado, a su transporte y almacenaje, y a su etiquetado y transformaci´on en una forma adecuada para el aprendizaje. Por su parte, el proceso de aprendizaje incluye, entre otros, costes debidos a los recursos computacionales y al tiempo empleados. Dados estos costes, a menudo se hace necesario limitar el tama˜no del conjunto de entrenamiento. El problema por supuesto radica en c´omo llevarlo a cabo. Se hace esen- cial seleccionar los patrones cuidadosamente con el fin de minimizar el impacto que la limitaci´on de informaci´on puede tener sobre la eficacia del clasificador. Para ello una importante elecci´on es la distribuci´on de clases apropiada que debe emplearse. En el campo del Aprendizaje Autom´atico se asum´ıa que la distribuci´on de clases natural es la mejor para el aprendizaje. Sin embargo, esta asunci´on ha ido progresivamente decayendo, debido al aumento del uso de conjuntos de datos con alto grado de desequilibrio en las clases, y la comprobaci´on del efecto negativo en la clasificaci´on que puede provocar el desequilibrio entre el n´umero de representantes minoritarios y mayoritarios.

Cap´ıtulo 2. Muestras Extremas 7

Persiguiendo esta idea, Weiss y Provost en [43] muestran que la distribuci´on de clases original no es a menudo la mejor para el aprendizaje y que se puede alcanzar un rendimiento sustancialmente mejor usando distribuciones diferentes. A trav´es de sus experimentos, el hecho de que los clasificadores tienen peores resultados sobre la clase minoritaria quedar´ıa justificado por dos observaciones:

  • Las “reglas” de clasificaci´on que predicen la clase minoritaria tienden a dar un error mucho mayor que aquellas que predicen la clase mayoritaria. En primer lugar porque las reglas que predicen la clase minoritaria, al haber sido construidas con muchos menos ejemplos, son menos precisas, y en segundo lugar porque la propia distribuci´on de clases del conjunto de test, con muchos m´as ejemplos negativos, hace que haya m´as casos en los que poder clasificar un ejemplo como positivo de forma incorrecta.
  • Los ejemplos de test que pertenecen a la clase minoritaria son clasificados inco- rrectamente m´as frecuentemente que los ejemplos de test que pertenecen a la clase mayoritaria. Una primera raz´on es que las probabilidades marginales de las clases en las distribuciones naturales est´an sesgadas fuertemente a favor de la clase mayori- taria. Aquellos algoritmos de aprendizaje que las emplean tienden a predecir la clase mayoritaria m´as de lo que har´ıan en condiciones de equiprobabilidad. Una segunda raz´on se debe a que un clasificador es menos propenso a definir adecuadamente los l´ımites de la clase minoritaria en el espacio de atributos al haber menos representantes de ´esta.

Adem´as de estas justificaciones, en el mismo trabajo, los autores determinan las mejores distribuciones de entrenamiento para un gran n´umero de conjuntos de datos. Empleando C4.5 como algoritmo de aprendizaje, y el ´area bajo las curvas ROC (Area Under the Curve, AUC) como medida de eficacia, llegan a la conclusi´on de que las distribuciones ´optimas para los problemas abordados deb´ıan contener en general entre un 50% y un 90% de ejemplos minoritarios, proporciones muy diferentes a las existentes en las muestras iniciales.

2.2 T´ecnicas b´asicas de equilibrado de clases

Mientras que ha habido poca investigaci´on sobre el efecto que la distribuci´on de clases provoca en la eficacia de un m´etodo de clasificaci´on, existe un n´umero considerable de trabajos sobre la manera en la que construir un “buen” clasificador cuando la distribuci´on de los datos est´a altamente desequilibrada y es costoso clasificar los ejemplos de la clase minoritaria.

Cap´ıtulo 2. Muestras Extremas 9

En un estudio reciente, Barandela et al. [4] concluyeron que cuando el desequilibrio no es muy severo, las t´ecnicas de submuestreo son la mejor opci´on, y que s´olo cuando el ratio mayoritarios/minoritarios es muy grande es apropiado sobremuestrear los ejemplos positivos. Como aproximaci´on alternativa, Chan y Stolfo [12] proponen realizar experimentos preliminares con el fin de determinar la distribuci´on de clases ´optima para el entrenamiento (con respecto a una funci´on de coste espec´ıfica). Una vez obtenida, se generan con ella m´ultiples conjuntos de entrenamiento, lo cual se complementa, en la mayor´ıa de los casos, con incluir todos los ejemplos minoritarios y s´olo algunos mayoritarios en cada conjunto de entrenamiento. A continuaci´on, se ejecuta el algoritmo de aprendizaje en cada conjunto de datos y se combinan los clasificadores generados para formar un modelo compuesto.

2.3 T´ecnicas de equilibrado de clases basadas en patrones

frontera

Una curva del error de entrenamiento t´ıpica en una red neuronal tiene una forma expo- nencial, mostrando un r´apido descenso del error en las ´epocas iniciales, seguido de una cola suave y larga en la que el error desciende muy despacio. En la parte final del en- trenamiento el hecho de presentar a la red vectores (patrones) que est´an alejados de la frontera de clasificaci´on no tiene a menudo influencia sobre los par´ametros de la red. En Perceptrones Multicapa (PMC) [5, 20] estos vectores pertenecen a la regi´on donde las sa- lidas de las neuronas est´an en las zonas saturadas de la funci´on de activaci´on, dando lugar de este modo a gradientes que tienden a desaparecer. S´olo aquellos vectores cercanos a la frontera de clasificaci´on tienen influencia significativa, con grandes gradientes que inducen la activiaci´on de algunas neuronas cerca de sus valores umbrales o de salidas dentro de la parte lineal de las funciones sigmoidales. En contraste, el aprendizaje realizado por las SVM tiene en cuenta inicialmente todos los vectores de entrenamiento, pero progresivamente la influencia de aquellos vectores que est´an lejos de la frontera de clasificaci´on va disminuyendo, y cuando el entrenamiento est´a finalizando s´olo un peque˜no porcentaje de vectores (soporte) que est´an cerca del hiperplano de decisi´on se mantiene. Por otra parte, debido a que las SVM seleccionan los vectores que maximizan el margen existente con el hiperplano de decisi´on, se consigue un mayor grado de generalizaci´on en la clasificaci´on. De este modo, esta aproximaci´on no s´olo contribuye a un incremento de la velocidad de entrenamiento, sino tambi´en a un aumento de la precisi´on (accuracy) obtenida.

Cap´ıtulo 2. Muestras Extremas 10

Bajo el ep´ıgrafe de “t´ecnicas de equilibrado de clases basadas en patrones frontera” se engloban aqu´ı aquellos m´etodos de reducci´on de conjuntos de entrenamiento que buscan quedarse con aquellos patrones que est´an cerca de la frontera de decisi´on para la creaci´on de los clasificadores. Estos m´etodos de reciente aparici´on no son muchos y han motivado el presente trabajo de investigaci´on. En [18] Duch selecciona patrones frontera usando las distancias entre vectores de dife- rentes clases. En problemas de dos clases, para cada vector de la primera clase se selecciona el vector m´as cercano de la segunda clase. El proceso se realiza entonces con los ejemplos de la segunda clase. Repitiendo lo anterior varias veces, al final s´olo se mantendr´an aquellos vectores que tengan vecinos cercanos de la clase opuesta. Para grandes conjuntos de datos este m´etodo es muy costoso, y no est´a claro el momento en el que se ha de realizar el cambio de entrenar con todos los vectores restantes a hacerlo s´olo con los vectores frontera seleccionados. El an´alisis sensible a perturbaciones en las entradas tambi´en se ha usado para visualizar y analizar las fronteras de clasificaci´on. Este es una forma de aprendizaje activo en el que´ el algoritmo de entrenamiento tiene influencia de la parte del espacio de entradas de la que proviene la informaci´on. Zhang [46] ha desarrollado un algoritmo de aprendizaje selectivo incremental que comienza con un subconjunto de entrenamiento aleatorio. Despu´es del entrenamiento se eval´uan los ejemplos restantes disponibles, y aquellos que dan un mayor error se a˜naden al conjunto de entrenamiento actual. R¨obel [38] tambi´en ha descrito un “algoritmo de selecci´on din´amico” incremental en el que los patrones disponibles con mayor error son incrementalmente a˜nadidos al conjunto de entrenamiento, a la vez que se realiza una evaluaci´on de la generalizaci´on usando un conjunto de validaci´on. Duch propone en [19] un m´etodo m´as sencillo en el que, de forma similar a la aproxi- maci´on de las SVM, se parte de un conjunto con todos los patrones de entrenamiento y despu´es de pocas ´epocas los vectores que no contribuyen mucho en el proceso de aprendizaje son eliminados. Los vectores que se mantienen son aquellos que dan un error dentro de un rango establecido. De este modo, se eliminan los patrones que son redundantes en el entrenamiento, al clasificarse siempre bien y tener un error muy bajo, y los que son ruidosos, pues siempre se clasifican incorrectamente y poseen un error muy alto. Cantador y Dorronsoro [9, 10] emplean el margen asociado al entrenamiento de los Perceptrones Paralelos para definir los patrones redundantes y ruidosos, y aplicar su algoritmo de filtrado. Este tiene en cuenta el desequilibrio de clases dando m´´ as relevancia a los patrones frontera positivos y es explicado en profundidad en la secci´on 5.1. Su adaptaci´on [11] a estrategias de combinaci´on de clasificadores para considerar el voto mayoritario de varios componentes mejorar´a los resultados del mecanismo anterior y se describir´a en la secci´on 5.2.