






Estude fácil! Tem muito documento disponível na Docsity
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Prepare-se para as provas
Estude fácil! Tem muito documento disponível na Docsity
Prepare-se para as provas com trabalhos de outros alunos como você, aqui na Docsity
Os melhores documentos à venda: Trabalhos de alunos formados
Prepare-se com as videoaulas e exercícios resolvidos criados a partir da grade da sua Universidade
Responda perguntas de provas passadas e avalie sua preparação.
Ganhe pontos para baixar
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Comunidade
Peça ajuda à comunidade e tire suas dúvidas relacionadas ao estudo
Descubra as melhores universidades em seu país de acordo com os usuários da Docsity
Guias grátis
Baixe gratuitamente nossos guias de estudo, métodos para diminuir a ansiedade, dicas de TCC preparadas pelos professores da Docsity
EXEMPLO DE ANÁLISE DE AGRUPAMENTOS.
Tipologia: Exercícios
1 / 11
Esta página não é visível na pré-visualização
Não perca as partes importantes!
1.1. Introdução.
Este capítulo irá ilustrar as principais etapas do procedimento de A.A., ressaltando as
propriedades comuns à maioria dos métodos. Pretende-se também propor um procedimento
“científico” que ajude os usuários dessa técnica a avaliar os seus procedimentos. A estrutura
básica da aplicação de técnicas de A.A., pode ser decomposta nas seguintes etapas:
(i) Definição de objetivos, critérios, escolha de variáveis e objetos. (ii) Obtenção dos dados. (iii) Tratamento dos dados. (iv) Escolha de critérios de similaridade ou dissimilaridade (parecença). (v) Adoção e execução de um algoritmo de A.A. (vi) Apresentação dos resultados. (vii) Avaliação e interpretação dos resultados.
Convém observar que essas etapas não são independentes. Às vezes, torna-se
necessário voltar a etapas anteriores para corrigir e aprimorar etapas posteriores. Mas com a
adoção das etapas acima espera-se providenciar ao usuário de A.A. um procedimento
metodológico útil. Em capítulos seguintes serão descritas algumas dessas etapas com maiores
detalhes.
As diversas etapas serão apresentadas através de um exemplo hipotético, artificial,
cujo único objetivo é ilustrar e apresentar as principais decisões necessárias à aplicação de
técnicas de A.A.
1.2. Definição do Problema.
Pretende-se investigar, exploratoriamente, o histórico de crescimento da massa
corpórea das pessoas. O pesquisador gostaria de escolher representantes “típicos” da
população para tentar traçar diferentes históricos, através de questionários mais complexos.
Desse modo seria conveniente classificar a população alvo em grupos homogêneos
segundo alguma característica de interesse. Conseguida essa divisão, poder-se-ia restringir o
estudo a um representante de cada grupo, obtendo resultados mais variados e menos
custosos. A primeira dificuldade que aparece é a de encontrar um modo rápido de especificar
a característica de interesse “massa corpórea”. Após investigar o assunto o pesquisador
concluiu que as variáveis peso e altura seriam dois indicadores próximos da sua característica
de interesse.
Assim, o objetivo operacional passou a ser o de agrupar os indivíduos da população alvo
segundo duas variáveis facilmente mensuráveis: peso e altura.
Esta fase é a mais importante de A.A., a de fixação dos critérios de homogeneidade.
Critérios distintos levam a grupos homogêneos distintos, e o tipo de homogeneidade depende
dos objetivos a serem alcançados.
1.3. Obtenção dos Dados.
Como ainda é uma fase exploratória o pesquisador decidiu usar as informações de seis
pessoas de seu conhecimento como estudo piloto. A altura foi medida em centímetros e o
peso em quilogramas. Os resultados estão na Tabela 1.1.
Tabela 1.1. Dados Pessoais de Seis Indivíduos do Estudo-Piloto
Este é o material básico para a aplicação das técnicas de A.A., a matriz de dados. Ela
indica os valores das características por objetos de interesse. Convencionamos neste livro
indicar os objetos nas linhas e as variáveis nas colunas. Veja Quadro 1.1. (a).
Quadro 1.1. Matrizes de Dados.
(a) Brutos (b) Relativos (Padronizados).
1 2
1 11 12 1 2 21 22 2 3 4 1 2
p
p p
n n np
11 12 1 21 22 2
1 2
p p
n n np
z z z z z z Z
z z z
Usualmente pretende-se agrupar objetos semelhantes segundo suas características
(variáveis). Mas nada impede que o interesse seja o de agrupar variáveis segundo os valores
obtidos pelos objetos. Em capítulos posteriores essa questão voltará a ser tratada.
É muito importante a definição do objeto, e a correspondente atribuição do valor da
característica. Por exemplo, o objeto pode ser pessoa e a variável de interesse salário. Ou o
objeto pode ser família e a variável de interesse o salário do chefe. Observe que a
característica é a mesma, mas associada a objetos distintos, e com significado bem distinto
para o processo de agrupar.
onde zi(.) indica o valor da variável Zi para o ponto indicado. Aplicando esta fórmula para todos
os pares da matriz Z , obtêm-se a matriz de parecença D derivada da matriz Z. Ela está
construída no Quadro 1.2.(a). A inspeção desta matriz, além de confirmar os resultados
observados na figura, explicita outras conclusões que não estavam tão claras. Por exemplo, B
está mais próximo de A do que de C. Mais ainda, analisando apenas a matriz de similaridade
chegar-se-iam aos mesmos resultados da inspeção gráfica.
Figura 1.1. Representação Cartesiana do Peso e Altura do Estudo Piloto.
(a) Dados Brutos.
(b) Dados Padronizados.
Quadro 1.2. Matriz de Similaridade entre os objetos do Estudo-Piloto, segundo a Distância
Euclidiana dos Dados Padronizados.
(a) Distância Usual
(b) Distância Reduzida.
Outra vantagem ocorre quando existem muitos atributos classificatórios onde torna-se
inviável a inspeção gráfica, mas é possível criar coeficientes de parecença entre os objetos. Um
exemplo simples é a generalização da distância euclidiana para um espaço de dimensão p , a
saber 1/ 2 2 1
p i i i
Neste livro, a menos que seja especificado, sempre será usada esta última expressão
para a distância euclideana. No Quadro 1.2.(b), aparece a distância reduzida para o Estudo-
Piloto. Aproveitou-se também para eliminar uma linha e uma coluna da matriz, por terem
significados óbvios.
1.6. Aplicação da Técnica de Agrupamento.
A escolha de um particular algoritmo de agrupamento exige o conhecimento de suas
propriedades aliado aos objetivos da pesquisa. Neste exemplo ilustrativo supor-se-á, sem mais
explicações, que a escolha recaiu no método da média das distâncias (M.M.D.). Este é um
processo hierárquico, e em cada passo diminui uma dimensão da matriz de parecença pela
reunião de pares semelhantes até reunir todos os pontos em um único grupo.
Abaixo aparecem os diversos passos da aplicação do método ao exemplo ilustrativo.
É necessário reconstruir a nova matriz de similaridade. Como os pontos A , B , C e E não
sofreram alterações as distâncias entre eles também continuam as mesmas. Veja no Quadro
1.1.(b) os resultados. É necessário definir a distância entre o conjunto ( DF ) e os demais pontos.
É aqui que a maioria dos métodos se diferencia, e algumas das alternativas serão abordadas no
Capítulo 3. O M.M.O., define a distância entre dois grupos com a média entre os valores
individuais dos objetos de um dos grupos com os do outro. Assim:
Com a obtenção da matriz de parecença (Quadro 1.3.(b)), conclui-se o passo 1, que
reuniu os pontos D e F , num nível igual à 0,37.
Passo 2. Analisando a nova matriz de similaridade nota-se que existem dois pares com a
mesma proximidade A com B e B com E. Embora raro de acontecer na prática, o processo
recomenda selecionar aleatoriamente um dos pares e criar o novo grupo. Porém, os pacotes
computacionais, por facilidade de programação, escolhem o primeiro par que aparece para
agrupar. Desse modo, neste passo agrupa-se A com B , obtendo-se os seguintes grupos: C , E ,
( DF ) e ( AB ). Como no caso anterior, as distâncias entre C , E e ( DF ) não se alteram, conforme
aparece na Tabela (c) do Quadro 1.3. As distâncias de ( AB ) com os demais pontos serão:
Termina aqui o passo 2 com A sendo reunido à B ao nível 0,67.
Passo 3. Reunir E com (AB) ao nível 0,73 de similaridade, obtendo-se os grupos C , ( DF ) e ( ABE ).
Recalculando as distâncias necessárias tem-se
Com a construção da matriz (d), Quadro 1.3, encerra-se este passo.
Passo 4. Reunir C com ( DF ), ao nível 0,95, obtendo-se a partição ( ABE , CDF ). A distância entre
os dois grupos será:
Conclui-se escrevendo a matriz (c) do Quadro 1.3.
Passo 5. O processo encerra reunindo num único grupo os conjuntos ABE e CDF, que são iguais
a um nível 1,64 de parecença.
Como já foi dito, existem diferentes métodos para agrupar elementos que serão
discutidos futuramente. O importante é conhecer suas propriedades, qualidade e deficiências,
pois irá ajudar à escolha daquele que melhor responde aos objetivos do trabalho.
1.7. Apresentação dos Resultados.
As etapas descritas na seção anterior, embora instrutivas acerca do processo de agrupar,
não facilitam a interpretação dos resultados. Necessita-se de instrumentos mais apropriados, e
um deles é o resumo das etapas descritivas acima. A Tabela 1.3. mostra em cada etapa a
formação dos grupos e os respectivos níveis em que eles são formados. É muito importante
entender o significado desse nível, e sugerimos ao leitor refletir um pouco mais acerca desse
conceito. Dificilmente dois objetos serão exatamente iguais, mas sendo condescendentes no
critério de “igual” pode-se aceitar que eles são “parecidos”. Assim, os objetos D e F podem ser
considerados semelhantes, e esse grau de semelhança é avaliado com uma nota 0,37. Observe
que não existe um padrão com o qual podemos comparar este número para afirmar se é muito
ou pouco. O conhecimento do processo e a familiaridade com as grandezas envolvidas é que
irão ajudar. Duplicando esse nível, ou seja, relaxando um pouco mais o conceito de
semelhança, concluir-se-ia que além de D e F também seriam considerados semelhantes entre
si, os objetos A , B e F. E assim por diante seriam interpretados os dados da tabela mencionada.
Tabela 1.3. Resumo do M.M.D. Aplicado aos Dados do Estudo-Piloto.
A tabela resumo possui uma representação gráfica muito útil e muito usada em A.A.,
conhecida por dendrograma (gráfico em forma de árvore), ilustrado na Figura 1.2. A escala
vertical à esquerda, indica o nível de similaridade. No eixo horizontal são marcados os objetos,
numa ordem conveniente, as linhas verticais partindo dos objetos têm altura correspondente
ao nível em que os objetos são considerados semelhantes.
A grande vantagem do dendrograma é mostrar graficamente o quanto é necessário
“relaxar” o nível de parecença para considerar grupos próximos. Observando a Figura 1.2.,
notamos que o maior salto é observado na última etapa, sugerindo à existência de dois grupos
homogêneos: ( A , B , E ) e ( C , D , F ).
Tendo obtido esses resultados, é conveniente voltar aos dados para uma melhor
compreensão do processo de agrupar. Baseado no dendrograma é conveniente reescrever os
dados originais e a matriz de similaridade na ordem produzida pelo método de agrupamento.
Estes procedimentos foram feitos na Tabela 1.4 e Quadro 1.4.
1.8. Avaliação e Interpretação dos Resultados.
O dendrograma pode ser considerado a representação simplificada da matriz de
similaridade, e, portanto, se coloca a pergunta: é uma “boa” simplificação?. Uma das maneiras
de responder é verificar a capacidade do dendrograma em reproduzir a matriz de similaridade.
O primeiro passo para isso é construir a matriz cofenética, que é a matriz de distância entre os
objetos obtidos a partir do dendrograma. Por exemplo, a distância entre os pontos A e C é
dada pelo nível em que os dois são agrupados, e que é 1,64 pelo dendrograma. Já a distância
entre A e E será 0,73. Procedendo de modo análogo para os demais pontos constrói-se a
matriz cofenética do Quadro 1.5.
Quadro 1.5. Matriz Cofenética Baseada no Dendrograma da Figura 1.2.
Quadro 1.6. Cálculo do Coeficiente de Correlação Cofenético.
s ... distância da matriz de similaridade. c ... distância da matriz cofenética. cc = corr(s, c) = 0,75 = 1,27 = 1,28 ss = 0,63 sc = 0,
Deve-se agora verificar a proximidade das duas matrizes, e esta é fornecida pelo
coeficiente de correlação entre os valores da matriz de similaridade e os correspondentes da
matriz cofenética. Este índice é chamado Coeficiente de Correlação Cofenética. As operações
necessárias aos cálculos estão no Quadro 1.6. No caso do Estudo-Piloto este indicador é 0,75.
Quanto mais próximo da unidade melhor será a representação, e quanto mais próximo de zero
será pior. O valor observado 0,75 é alto ou baixo?. Responder a isto é tão difícil como
responder, na maioria das situações, o que é um alto coeficiente de correlação entre duas
variáveis. Depende da área de estudo e de padrões que vão se desenvolvendo com a prática.
Pode-se adiantar que em A.A., algo em torno de 0,8 já pode ser considerado bom ajuste.
Analisando todos os resultados do exemplo ilustrado, poder-se-ia concluir que a
amostra piloto sugere dois tipos de indivíduos: pequenos e grandes. Para continuar o estudo
retrospectivo bastaria escolher (ou sortear) apenas duas pessoas: Uma do conjunto ( A , B , E ) e
outra de ( C , D , F ), e teríamos elementos “representativos” do grupo, segundo os critérios de
altura e peso, na crença de que essas variáveis sejam substitutas da característica de interesse.
1.9. Sumário.
As técnicas de A.A. exigem de seus usuários a tomada de uma série de decisões
interdependentes, que requerem o conhecimento das propriedades dos diversos algoritmos a
disposição. Algumas dessas decisões envolvem conteúdos mais metodológicos, enquanto que
outras mais o caráter técnico. Deve-se iniciar explicitando claramente o objeto e os objetivos
desejados com a aplicação da A.A. Também devem ser explicitados os critérios (variáveis) que
irão definir as semelhanças entre os objetos. Muitas vezes essas variáveis necessitam de
transformações para tornarem-se mais adequadas aos objetivos enunciados. Obtida a matriz
de dados transformados o próximo passo é a escolha de um coeficiente de semelhança entre
os objetos. Em seguida escolher o método de obter os grupos homogêneos e a apresentação
dos resultados obtidos. Finalmente, avaliar e interpretar, à luz dos objetivos, os resultados
produzidos. Outras questões também aparecem como as de encontrar quantos grupos
homogêneos existem nos dados.
1.10. Exercícios.
(a) procure construir uma matriz de parecença entre os objetos;
(b) construa um dendrograma descrevendo o processo de agrupamento.
correlação entre elas:
Proponha e realize um procedimento análogo ao descrito neste capítulo para agrupar as
variáveis.