Pré-visualização parcial do texto
Baixe Redes Neurais 2a Edicao - Simon Haykin e outras Notas de estudo em PDF para Engenharia Civil, somente na Docsity!
SUMON mA YVISIN — REDES NEURAIS Pplpefoles = emRtlce em Ca e TE —— H419r Haykin, Simon Redes neurais: princípios e prática / Simon Haykin; trad, Paulo Martins Engel. — 2.ed. — Porto Alegre : Bookman, 2001. ISBN 978-85-7307-718-6 |. Inteligência artificial — Redes neurais. 1. Título. CDU 007.52 Catalogação na publicação: Mônica Ballejo Canto —- CRB 10/1023 Obra originalmente publicada sob o título Neural networks: à comprehensive foundation, 2/E & 1999, Prentice Hall, Inc. Publicado em língua portuguesa conforme acordo com a Prentice Hall, Ine., uma empresa Pearson Education ISBN 0-13-273350-1 Capa: Mário Rôóhnelr Preparação do original: Daniel Grassi Supervisão editorial: Arysinha Jacques Affonso Editoração eletrônica: Laser House - m.g.o.f. O autor e o editor empreenderam os seus melhores esforços na preparação deste livro. Estes esforços incluem o desenvolvimento, a pesquisa e o teste das teorias e programas para determinar à sua eficiência. O autor e o editor não dão garantias de qualquer tipo, explícitas ou implícitas, em relação a estes programas ou à documentação contida neste livro. O autor e o editor não se responsabilizam por danos eventuais ou conseguências em conexão com, ou que surjam do fornecimento, desempenho ou uso destes programas. Reservados todos os direitos de publicação, em língua portuguesa, à ARTMEDS EDITORA 8. A. (BOOKMAN* COMPANHIA EDITORA é uma divisão da ARTMEDS EDITORA S.A.) Av, Jerônimo de Ornelas, 670 - Santana 90040-340 Porto Alegre RS Fone (51) 3027-7000 Fax (51) 3027-7070 É proibida a duplicação ou reprodução deste volume, no todo ou em parte, sob quaisquer formas ou por quaisquer meios (eletrônico, mecânico, gravação, fotocópia, distribuição na Web e outros), sem permissão expressa da Editora. SÃO PAULO Av. Angélica, 1091 - Higienópolis 01227-100 São Paulo SP Fone (11) 3665-1100 Fax (11) 3667-1333 SAC 0800 703-3444 IMPRESSO NO BRASIL PRINTED IN BRAZIL Aos incontáveis pesquisadores da área de redes neurais pelas suas contribuições originais, aos vários revisores pelas suas contribuições críticas, aos meus numerosos estudantes de pós-graduação pelo seu interesse entusiasmado e à minha esposa, Nancy, pela sua paciência e tolerância. Prefácio As Redes Neurais, ou redes neurais artificiais para sermos mais precisos, representam uma tecnologia que tem raízes em muitas disciplinas: neurociência, matemática, estatística, física, ciência da com- putação e engenharia. As redes neurais encontram aplicações em campos tão diversos, como mode- lagem, análise de séries temporais, reconhecimento de padrões, processamento de sinais e controle, em virtude de uma importante propriedade: a habilidade de aprender a partir de dados de entrada com ou sem um professor. Este livro fornece uma fundamentação abrangente das redes neurais, reconhecendo a natureza multidisciplinar do tema, O material apresentado no livro é suplementado por exemplos, experi- mentos computacionais, problemas no final de cada capítulo e uma bibliografia. O livro consiste de quatro partes, organizadas como segue: 1. Material introdutório, consistindo dos Capítulos 1 e 2. O Capítulo 1 descreve, predominante- mente em termos qualitativos, o que são as redes neurais, as suas propriedades, composições e como elas se relacionam com a inteligência artificial. Este capítulo se encerra com algumas notas históricas. O Capítulo 2 fornece uma visão geral das muitas facetas do processo de apren- dizagem e das suas propriedades estatísticas. Este capítulo introduz um conceito importante: a dimensão de Vapnik-Chervonenkis (V-C) usada como uma medida da capacidade de uma famí- lia de funções de classificação realizadas por uma máquina de aprendizagem. 2. Máquinas de aprendizagem com um professor, consistindo dos capítulos 3 a 7. O capítulo 3 estuda a classe mais simples de redes neurais, nesta parte: as redes envolvendo um ou mais neurônios de saída mas nenhum neurônio oculto. Neste capítulo são descritos o algoritmo do mínimo quadrado médio (LMS, least-mean-square), bastante popular no projeto de filtros adaptativos, e o teorema de convergência do perceptron. O Capítulo 4 apresenta um tratamento exaustivo dos perceptrons de múltiplas camadas treinados com o algoritmo de retropropagação (back-propagation). Este algoritmo (que representa uma generalização do algoritmo LMS) emergiu como o “carro chefe” das redes neurais. O Capítulo 5 apresenta um tratamento mate- mático detalhado de uma outra classe de redes neurais em camadas: as redes de função de base - hd PREFÁCIO radial (RBF, radial-basis function), cuja composição envolve uma única camada de funções de base. Este capítulo enfatiza o papel da teoria da regularização no projeto das redes RBF. O Capítulo 6 descreve uma classe relativamente nova de máquinas de aprendizagem conhecidas como máquinas de vetor de suporte, cuja teoria se fundamenta no material apresentado no Capítulo 2 sobre a teoria estatística da aprendizagem. A segunda parte do livro se encerra no Capítulo 7 com uma discussão sobre as máquinas de comitê, cuja composição envolve vários componentes treináveis. Neste capítulo, descrevemos a média de ensemble, reforço e a mistura hierárquica de especialistas como três métodos diferentes para se construir uma máquina de comitê. Máquinas de aprendizagem sem um professor, consistindo dos Capítulos 8 a 12. O Capítulo 8 aplica aprendizagem hebbiana à análise de componentes principais. O Capítulo 9 aplica uma outra forma de aprendizagem auto-organizada, a aprendizagem competitiva, à construção de mapas computacionais conhecidos como mapas auto-organizáveis. Estes dois capítulos se dis- tinguem por enfatizar regras de aprendizagem que estão enraizadas na neurobiologia. O Capítu- lo 10 se inspira na teoria da informação para a formulação de algoritmos de aprendizagem não- supervisionada, e enfatiza as suas aplicações à modelagem, ao processamento de imagem e à análise de componentes independentes. O Capítulo 11 descreve máquinas de aprendizagem auto-supervisionada com raízes na mecânica estatística, um tema que está intimamente asso- ciado à teoria da informação. O Capítulo 12, o último capítulo da terceira parte do livro, intro- duz a programação dinâmica e a sua relação com a aprendizagem por reforço. Sistemas dinâmicos não-lineares, consistindo dos Capítulos 13 a 15. O Capítulo 13 descreve uma classe de sistemas dinâmicos que consiste de memória de curto prazo e estruturas de rede alimentadas adiante em camadas. O Capítulo 14 enfatiza a questão da estabilidade que surge em sistemas dinâmicos não-lineares envolvendo o uso de realimentação. Neste capítulo, são discutidos exemplos de memória associativa. O Capítulo 15 descreve uma outra classe de siste- mas dinâmicos não-lineares, as redes recorrentes, que se baseiam no uso de realimentação com o propósito de realizar mapeamentos de entrada-saída. O livro termina com um epílogo que descreve brevemente o papel das redes neurais na construção de máquinas inteligentes para reconhecimento de padrões, controle e processamento de sinais. A organização do livro oferece bastante flexibilidade para o seu uso em disciplinas de pós- graduação em redes neurais. A seleção final de tópicos pode ser determinada somente a partir dos interesses dos instrutores que usarem o livro. Para ajudar neste processo de seleção, incluímos um guia de estudo no manual que acompanha este livro. Há um total de 15 experimentos computacionais distribuídos por todo o livro. Treze destes experimentos usam o MATLAB. Os arquivos para os experimentos com o MATLAB podem ser diretamente obtidos no endereço ftp://ftp.mathworks.com/pub/books/haykin ou alternativamente em http://www. mathworks.com/books/ Neste segundo caso, o usuário deve escolher “Neural/Fuzzy” e então o título do livro do original em inglês. A segunda abordagem fornece uma interface mais elaborada, Cada capítulo se encerra com um conjunto de problemas. Muitos dos problemas são de natu- reza desafiadora, concebidos não apenas para testar o usuário do livro quanto ao grau de entendi- Agradecimentos Sou profundamente grato aos vários revisores que ofereceram gratuitamente seu tempo para ler o livro, em parte ou no seu todo. Em particular, gostaria de expressar minha profunda gratidão ao Dr. Kenneth Rose, da University of California, Santa Barbara, pelas suas muitas contribuições constru- tivas e ajuda inestimável. Também sou grato ao Dr. S. Amari, RIKEN, Japão; Dr. Sue Becker, McMaster University; Dr. Ron Racine, McMaster University; Dr. Sean Holden, University College, Londres; Dr. Michael Turmon, JPL, Pasadena; Dr. Babak Hassibi, Stanford University; Dr. Paul Yee, anteriormente da McMaster University; Dr. Edgar Osuna, MIT; Dr. Bernard Schôlkopf, Max Planck Institute, Ale- manha; Dr. Michael Jordan, MIT; Dr. Radford Neal, University of Toronto; Dr. Zoubin Gharhamani, University of Toronto; Dr. Marc Van Hulle, Katholicke Universiteit Leuven, Bélgica; Dr. John Tsitsiklis, MIT; Dr. Jose Principe, University of Florida, Gainsville; Sr. Gint Puskorius, Laboratório de Pesquisa da Ford, Dearbom, Mich.; Dr. Lee Feldkamp, Laboratório de Pesquisa da Ford, Dearborn, Mich.; Dr. Lee Giles, NEC Research Institute, Princeton, NJ; Dr. Mikel Forcada, Universitat d' Alcant, Espanha; Dr. Eric Wan, Oregon Graduate Institue of Science and Technology; Dr. Yann LeCun, AT&T Research, NJ; Dr. Jean-Francois Cardoso, École Nationale, Paris; Dr. Anthony Bell, anteri- ormente do Salk Institute, San Diego; e Dr. Stefan Kremer, University of Guelph. Todos eles me ajudaram imensamente no aperfeiçoamento da apresentação do material em diferentes partes do livro. Eu também desejo agradecer ao Dr. Ralph Linsker, IBM, Watson Research Center, Dr. Yaser Abu-Mostafa, Cal Tech.; Dr. Stuart Geman, Brown University; Dr. Alan Gelford, University of Connecticut; Dr. Yoav Freund, AT&T Research; Dr. Bart Kosko, University of Southern California; Dr. Narish Sinha, McMaster University; Dr. Grace Wahba, University of Wiscounsin; Dr. Kostas Diamantaras, Aristotelian University of Thessaloniki, Grécia; Dr. Robert Jacobs, University of Rochester; Dr. Peter Dayan, MIT, Dr, Dimitris Bertsekas, MIT; Dr. Andrew Barto, University of Massachusetts; Dr. Don Hush, University of New Maxico; Dr. Yoshua Bengio, University of Mon- treal; Dr. Andrew Cichoki, RIKEN, Japão; Dr. H. Yang, Oregon Graduate Institute of Science and Technology; Dr. Scott Douglas, University of Utah; Dr. Pierre Comon, Thomson-Sintra Asm., França; Dr. Terrence Sejnowski, Salk Institute; Dr. Harris Drucker, Monmouth College; Dr. Nathan Intrator, Abreviações e Símbolos ABREVIAÇÕES ACI análise de componentes independentes ACM análise de componentes menores ACP análise de componentes principais AFD autômato de estados finitos determinístico AHG algoritmo hebbiano generalizado APEX extração adaptativa de componentes principais (adapiative principal components extraction) AR auto-regressivo ARTR aprendizagem recorrente em tempo-real b/s bits por segundo BOSS limitado, saturado de um lado (bounded, one-side saturation) BP retropropagação (back-propagation) BPTT retropropagação através do tempo (back propagation through time) BSB estado cerebral em uma caixa (brain-state-in-a-box) CARM controle adaptativo com referência a modelo CART árvore de classificação e de regressão (classification and regression tree) Cco cirurgião cerebral ótimo CLLG cancelador de lóbulo lateral generalizado DCO dano cerebral ótimo DLP depressão de longo prazo DSP processador digital de sinais (digital signal processor) DVS decomposição por valor singular XIV ABREVIAÇÕES E SÍMBOLOS EDO fdp FIR FKE FKED FKEG FM fmp HMM Hz IA Infomax LMS LVQ MB MCD ME MHE MIMO MLP mme MY MVE MVS NARMA NARX NW OCR PAC PLP PND RBF RMLP RNW RRS equação diferencial ordinária função de densidade de probabilidade resposta a impulso de duração finita (finite-duration impulse response) filtro de Kalman estendido filtro de Kalman estendido desacoplado filtro de Kalman estendido global fregiiência modulada (sinal de,) função de massa de probabilidade modelo oculto de Markov ((hidden Markov model) hertz inteligência artificial máxima informação mútua mínimo quadrado médio (least-mean-square) quantização vetorial por aprendizagem (learning vector quantization) máquina de Boltzmann mínimo comprimento de descrição mistura de especialistas mistura hierárquica de especialistas múltiplas entradas — múltiplas saídas (multiple inpuis — multiple outputs) perceptron de múltiplas camadas (multilayer percepiron) memória por matriz de correlação máxima verossimilhança maximização do valor esperado máquina de vetor de suporte auto-regressivo não-linear de média móvel (nonlinear autoregressive moving average) auto-regressivo não-linear com entradas exógenas (nonlinear atoregressive with exogenous inputs) Nadaraya-Watson (estimador) reconhecimento de caractere óptico (optical character recognition) provavelmente aproximadamente correto potenciação de longo prazo programação neurodinâmica função de base radial (radial basis function) perceptron de múltiplas camadas recorrente (recurrent multilayer perceptron) regressão de núcleo regressão de núcleo de Nadaraya-Watson rede recorrente simples (também referida como rede recorrente de Elman) XVI ABREVIAÇÕES E SÍMBOLOS Se) poa E H Hr! função de densidade de probabilidade do vetor aleatório X subconjunto (rede) com o menor risco empírico mínimo matriz hessiana inversa da matriz H raiz quadrada de —1, também representado por matriz identidade matriz de informação de Fisher erro médio quadrado matriz jacobiana matriz de covariância do erro na teoria do filtro de Kalman raiz quadrada da matriz K transposta da raiz quadrada da matriz K constante de Boltzmann logaritmo logaritmo da função de verossimilhança do vetor w logaritmo da função de verossimilhança do vetor w baseada em um único exemplo matriz de controlabilidade matriz de observabilidade tempo discreto probabilidade do estado i em mecânica estatística probabilidade de transição do estado i para o estado j matriz estocástica probabilidade de classificação correta probabilidade de erro probabilidade condicional de erro e dado que a entrada é retirada da classe € probabilidade que os neurônios visíveis de uma máquina de Boltzmann estejam no estado q, dado que a rede esteja na sua condição presa (i.e., fase positiva) probabilidade que os neurônios visíveis de uma máquina de Boltzmann estejam no estado a, dado que a rede esteja na sua condição livre (i.e., fase negativa) estimativa da função de autocorrelação de x(n) ex(n) estimativa da função de correlação cruzada de d(n) e x,(n) matriz de correlação de um vetor de entrada tempo contínuo temperatura conjunto de treinamento (amostra) traço de um operador matricial operador variância função de Lyapunov do vetor de estado x campo local induzido ou potencial de ativação do neurônio j valor ótimo do vetor de pesos sinápticos peso sináptico da sinapse j pertencente ao neurônio k vetor de peso ótimo valor de equilíbrio do vetor de estado x média do estado x, em um sentido “térmico” estimativa de x, representada por um circunflexo valor absoluto (magnitude) de x ABREVIAÇÕES E SÍMBOLOS complexo conjugado de x, representado por um asterisco norma euclidiana (comprimento) do vetor x transposto do vetor x, representado pelo índice 7 operador atraso unitário função de partição gradiente local do neurônio j no tempo n pequena variação aplicada ao peso 4 operador gradiente operador laplaciano gradiente de J em relação a w divergente do vetor F parâmetro da taxa de aprendizagem acumulador política limiar aplicado ao neurônio k (i.e., negativo do bias b,) parâmetro de regularização k-ésimo autovalor de uma matriz quadrada função de ativação não-linear do neurônio k símbolo para “pertence a” símbolo para “união de” símbolo para “interseção de” símbolo para convolução índice para simbolizar a pseudo-inversa de uma matriz Intervalos abertos e fechados e Ointervalo aberto (a,b) de uma variável x significa que a < x < D. O intervalo fechado [4,b] de uma variável x significa que a = x < b. O intervalo fechado de [a,b) de uma variável x significa que a