




















Estude fácil! Tem muito documento disponível na Docsity
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Prepare-se para as provas
Estude fácil! Tem muito documento disponível na Docsity
Prepare-se para as provas com trabalhos de outros alunos como você, aqui na Docsity
Os melhores documentos à venda: Trabalhos de alunos formados
Prepare-se com as videoaulas e exercícios resolvidos criados a partir da grade da sua Universidade
Responda perguntas de provas passadas e avalie sua preparação.
Ganhe pontos para baixar
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Comunidade
Peça ajuda à comunidade e tire suas dúvidas relacionadas ao estudo
Descubra as melhores universidades em seu país de acordo com os usuários da Docsity
Guias grátis
Baixe gratuitamente nossos guias de estudo, métodos para diminuir a ansiedade, dicas de TCC preparadas pelos professores da Docsity
Este documento aborda conceitos básicos da análise estatística de dados, incluindo a coleta de dados, medidas de dispersão (moda, média, mediana, variância e desvio padrão), relação linear entre variáveis (coeficiente de regressão e de correlação) e regressão linear múltipla. O texto explica os cálculos e interpretações dessas medidas, além de discutir a importância de verificar relações entre variáveis e a necessidade de testes de significância.
Tipologia: Notas de estudo
1 / 28
Esta página não é visível na pré-visualização
Não perca as partes importantes!
Método – é o conjunto de etapas, ordenadamente dispostas, a serem vencidas:
. na investigação da verdade; . no estudo de uma ciência; . ou para alcançar um determinado fim.
Conhecer é estabelecer uma relação entre a pessoa que conhece e o objeto que passa a ser conhecido. No processo do conhecimento, o sujeito se apropria do objeto – processando-o mentalmente
Conhecer = transformar o objeto em conceito, reconstituindo-lhe em sua mente (semiótica).
Tipos de conhecimento:
. vulgar ou empírico; . filosófico; . teológico/dogmático; . científico.
Dois métodos de raciocínio científico: indução e dedução.
. Busca quantificar a incerteza existente em determinada situação.
Importante definir os níveis de mensuração para as variáveis, porque as técnicas de análise estatística que podem ser utilizadas dependem da escala de mensuração.
O nível mais simples das escalas de medida; sistema simples de classificação; utilizada para classificar objetos ou fenômenos em termos de igualdade dos seus atributos e numerá-los; Recurso para se classificar e rotular ou dar nomes a objetos.
O caso mais simples é formado pela divisão em duas classes que são identificadas com os números zero ou um - variável binária (0,1). Cada observação na mensuração nominal pertence a uma só classe muito freqüente na análise geográfica; Indica a presença ou não de determinada característica.
Ex: Municípios dentro e fora da área de atuação da SUDENE.
Características
. classes são mutuamente excludentes; . operações aritméticas não podem ser aplicadas (adição e multiplicação); . contagem simples é possível; . pode-se levantar a classe modal (mais freqüente); . a freqüência de cada classe pode ser expressa como porcentagem do número total.
Utilizada quando os fenômenos ou observações podem ser arranjados segundo uma ordenação (grandeza, preferência, importância, distância, etc..).
Ex: expressões qualitativas arranjadas segundo uma ordem:
. hierarquia dos níveis educacionais: primeiro, segundo e terceiro graus; . níveis de renda: renda baixa, media e alta; . hierarquia urbana; . padrão de habitação; . preferência locacional; . escala de dureza dos minerais.
Possível quando se desenvolve uma seqüência qualitativa na qual é lógico colocar um fato antes do outro.
. Não deve fazer operações aritméticas
Ex: classificação de hotéis em níveis hierárquicos. Não se pode dizer que um hotel quatro estrelas é duas vezes melhor do que um hotel duas estrelas. Sabe-se que os quatro estrelas são melhores, mão não existe meios de se quantificar esta diferença na escala ordinal.
Características:
. Tem todas as características de uma escala ordinal, porém os intervalos entre os valores são conhecidos exatamente e assim cada observação pode receber um valor numérico preciso. . A extensão de cada intervalo sucessivo é constante: i.e. numeração dos anos, variações de altitude através de curvas de nível e escalas de temperatura; . O ponto zero de uma escala de intervalo é arbitrário e não indica ausência da característica medida. . A falta de zero absoluto é uma desvantagem, pois não é possível afirmar que uma temperatura de 20 ºC é duas vezes mais quente do que uma de 10 ºC. . Adapta-se a todas as operações aritméticas usuais, desde que seja mantida a ordem dos objetos e as diferenças relativas entre elas. . A média e o desvio padrão podem ser calculados.
Características:
. Mais precisa de todas
. é encontrada adicionando-se todos os valores e dividindo-se o resultado pelo número total de ocorrências:
Cálculo
. Primeiramente, arranja-se os dados em ordem crescente ou decrescente e em seguida encontra- se o valor central. . Para os conjuntos com número ímpar de observações, a mediana é encontrada através da fórmula n +1/2, onde n é o número de observações. . O valor encontrado através da fórmula indica a ordem do termo da distribuição que representa a mediana. . Para os conjuntos com números pares, a mediana está entre os dois números centrais n/2 e n+2/2. Após identificar esses números centrais, deve-se somá-los e dividir por dois. . Às vezes é uma medida melhor do que a média, pois esta é influenciada por valore extremos.
.Para se descrever um conjunto de dados não basta só indicar a tendência central, especialmente quando se compara dois ou mais conjuntos de dados.
. Um conjunto pode ter todos os valores próximos à média, enquanto outro pode ter os dados mais dispersos . Portanto, o grau de dispersão em torno dos valores centrais é uma informação importante.
1, 4, 7, 10, 13 e 4, 5, 7, 8, 11
. os dois têm a média 7, mas a dispersão é bem diferente; . a dispersão do primeiro caso vai de 1 a 13 – amplitude total de 12; . a dispersão do segundo caso vai de 4 a 11 - amplitude total de 7. . Porém, é uma medida imprecisa, pois o cálculo envolve só dois valores observados, não importa se o conjunto de dados tenha 1000 observações;
V=s/x
Como tanto desvio padrão, quanto média são dados na mesma unidade, V é um número independente de unidades de medida.
Uma desvantagem = não é utilizável se a média está próxima de zero;
. fato que ocorre raramente nos dados geográficos, exceto em relação à temperatura e precipitação.
. Impossível fazer inferências estatísticas sem utilizar alguns resultados da teoria de probabilidades. . Embora intimamente associada à estatística, tem suas características próprias. . Busca quantificar a incerteza existente em determinada situação,
Quando o espaço amostral consiste em um número finito ou infinito contável de eventos – espaço amostral discreto;
Quando espaço amostral consiste em todos os números reais de determinado intervalo – espaço amostral contínuo.
Dado – Probabilidade de 1 = 1/ Sexo – Probabilidade de feminino = ½ As de copas – Probabilidade 1/
Ex: Experimento com dois dados – soma da combinação dos resultados
Dado 1 Dado 2
36 combinações possíveis, logo
1/36, 2/36, 3/36, 4/36, 5/36, 6/36, 5/36, 4/36, 3/36, 2/36, 1/
Associar a cada valor a sua probabilidade – distribuição de probabilidade (variável aleatória).
Ex: altura, temperatura, precipitação, tempo de viagem
A distribuição pode ser encarada como um refinamento de uma distribuição bem grosseira. À medida que aumenta a precisão das medidas, um número maior de classes até que no limite temos uma curva contínua.
Exs: Número de crimes em Belo Horizonte – discreta (valores inteiros) Tempo de percurso – contínuo Quantidade de leite produzida – contínua Número de perueiros – discreta Peso do trigo – contínua Quantidade de grãos de areia – discreta Altura – discreta.
Vários tipos de distribuições contínuas – binomial, poisson e pascal (etc.)
Mais útil e mais utilizada é a normal.
Nos testes de hipóteses, fazemos suposições acerca dos parâmetros desconhecidos e perguntamos o quão prováveis as nossas estatísticas amostrais seriam caso essas suposições fossem de fato verdadeiras.
O objetivo : decidir se uma conjectura/suposição (hipótese) sobre determinada característica de uma ou mais populações é, ou não, apoiada pela evidência obtida a partir de dados amostrais
O objetivo da estatística inferencial é fazer generalizações sobre a população com base em uma amostra retirada da própria população.
Portanto, faz-se necessário diferenciar as características da população e da amostra
População – parâmetros – letras gregas
Os parâmetros são valores fixos associados a população e são geralmente desconhecidos.
Ex: a média de pontos entre os estudantes de geografia pode ser desconhecida, mas o mesmo valor seria encontrado por todos os pesquisadores.
Amostra - estatísticas – letras romanas As estatísticas, por outro lado, variam a cada amostra. Caso 10 amostras de estudantes fossem selecionadas, nós raramente obteríamos os mesmos resultados. Porém, ao contrário dos parâmetros, pode-se calcular facilmente as estatísticas para as amostras.
Entretanto, é a população que nos interessa e não a amostra. As amostras são trabalhadas por conveniência e o objetivo é fazer inferências acerca dos parâmetros da população, com base nas amostras, que são conhecidas. Amostra é um mero caminho, um passo.
Nos testes de hipóteses, fazemos especulações acerca dos parâmetros desconhecidos e então perguntamos quão provável as estatísticas seriam caso as nossas especulações fossem de fato verdadeiras.
Ao fazê-lo tentamos tomar uma decisão racional se os valores especulados para os parâmetros são razoáveis à luz das evidências.
Teste de hipótese é portanto um processo de decisão. Como a lógica no processo é complexa, segue uma discussão do procedimento
Hipótese estatística/real/alternativa (H1): qualquer afirmação sobre os parâmetros da população em estudo.
Hipótese Nula (Ho) – antítese da hipótese real.
A designação nula - Ho é a hipótese de igualdade ou nulidade – não diferença/não relação.
Erros tipo I e tipo II
Conclusão do teste Ho verdadeira Ho falsa
Bibliografia:
Blalock, Hubert. 1973. Social Statistics. New York, Mcgraw-Hill.
Gravetter, Frederick e Wallnav, Larry 1992. Statistics for the Behavioral Sciences. New York, West Publishing Company.
Gregory, S. 1973. Statistical Methods and the Geographer. London, Longman.
Hammond, Robert e McCullagh, Patrick. 1974. Quantitative Techniques in Geography – An Introduction. Oxford, Clarendon Press.
Hoel, Paul. 1981. Estatística Elementar. São Paulo, Atlas.
Martins, Gilberto e Donaire, Denis. 1979. Princípios de Estatística. São Paulo, Atlas.
Siegel, Sidney. 1975 – Estatística Não Paramétrica – Rio de Janeiro – McGraw-Hill do Brasil
2.1 Análise bivariada
Problema típico de correlação e análise de regressão:
. Existem relações entre fenômenos distintos em um conjunto de áreas?
Análises envolvem:
Ex: relação entre: Taxa de fecundidade (número médio de filhos durante idade reprodutiva); População urbana (%); Para uma amostra de países do mundo.
Hipótese: Quanto maior a proporção de habitantes urbanos, menor será a taxa de fecundidade
Ho: Não existe relação entre as duas variáveis
Exame do diagrama de dispersão indica que a tendência geral foi confirmada, porém para uma medição precisa, é necessário que se conheça a relação funcional entre X e Y.
Em outras palavras:
. é importante conhecer o impacto que um aumento em X terá em Y (coeficiente de regressão); . é também necessário mensurar a representatividade da relação, ou o quão bem a linha de regressão define a distribuição de pontos do diagrama de dispersão (coeficiente de correlação).
LiberiaSyria Iran IraqSaudi ArabiaLibya
Jordan
Zambia
Kuwait
Rwanda
U.Arab Em.
Somalia NigeriaSenegal
Bahrain
Pakistan
Afghanistan
Cent. Afri.R
Burkina Faso
Cameroon
Lebanon Venezuela
Gambia
Ethiopia Haiti
Uganda
Israel
Nicaragua
Oman TanzaniaKenya Burundi
Honduras
Argentina Uruguay
South Africa
Mexico
Singapore
Bolivia
Guatemala Paraguay
Chile Iceland
ArmeniaPeru
Cambodia
Belgium
Brazil
Botswana
Gabon
Sweden
Turkey
New ZealandUK
Morocco
Australia Hong Kong
El SalvadorEgypt
Netherlands
Colombia Denmark
Ecuador
India Uzbekistan Domincan R. NorwayUSA
Malaysia
CanadaGermany EstoniaCuba
Bangladesh
Panama Latvia
Philippines Azerbaijan Russia
Costa Rica
LithuaniaFrance
N. Korea UkraineBulgariaS. KoreaJapanSpain
GeorgiaIrelandFinlandPolandHungaryBelarus SwitzerlandGreeceItaly RomaniaAustria
Vietnam Indonesia BarbadosCroatia Thailand Portugal China
População urbana (%)
0 20 40 60 80 100 120
Fertilidade (# médio de crianças)
9 8 7 6 5 4 3 2 1
2.1.1 Regressão linear simples:
Pergunta inicial: É possível predizer uma variável (Y) a partir de uma outra (X)?
A quantidade de mudança em uma variável dependente (Y), fomentada pela mudança em uma variável independente (X) é indicada pelos parâmetros da equação da regressão, indicada pela fórmula:
Onde,
Xi é o valor de X para a iésima observação; ayx é o termo interceptor (ponto da linha de regressão que cruza o eixo dos Y)
byx é a inclinação da reta mudança em Y a cada incremento em unidades de X
Objetivo = prever os valores de Y
O que faz a regressão linear?
. Traça através dos pontos marcados no diagrama de dispersão das variáveis X e Y, uma linha que minimiza as distâncias entre os pontos plotados. . Minimiza a soma dos quadrados de todos os desvios verticais dos valores reais em relação à linha.
A linha de regressão é, portanto, a melhor descrição, a nível de uma reta, de uma tendência inerente a um conjunto de pontos.
Como é colocada para produzir os valores de ayx e byx?
O propósito estatístico por trás da construção da linha de regressão é colocá-la o mais próximo possível de todas as observações, de maneira que minimize os desvios quadrados entre ela e o eixo dos Y. O objetivo é minimizar:
O objetivo é atingido ao utilizar o conceito estatístico de:
. variância; . covariância; . método dos quadrados mínimos;
Variância
Desvio padrão
Covariância
r = 1 Correlação positiva perfeita Quanto maiores os valores de x, maiores serão os valores de y
r = - Correlação negativa perfeita Quanto maiores os valores de x, menores serão os valores de y
r = 0 Ausência de relação linear
Coeficiente de determinação (r 2 )
O coeficiente linear de correlação r yx, compara a variância na variável dependente Y com a redução na variância daquela variável, quando uma variável independente X é utilizada para estimar os valores de Y.
A proporção da variação total em Y explicada por X varia de 0 a 1.
Considerações
. Dificilmente se encontra associações perfeitas (r = +1 ou –1) . Alto valor de r não significa necessariamente uma relação causal (sorvete e criminalidade) . Pode ser utilizada para verificação quantitativa de prováveis relações . Revela o grau de relação estatística, mas não explica o porque da relação . Coeficiente de correlação nulo (r=0), não indica ausência de relação - indica ausência de relação linear . Presença de um ou dois valores extremos podem influenciar fortemente os valores de r
Significância
Vários trabalhos que se utilizaram de regressão e/ou correlação utilizam a frase “com 5% de significância”. Testes de significância estatística são utilizados para inferir características de uma população, com base em uma amostra. Os testes são válidos apenas se:
. a amostra é aleatória; . a população foi completamente especificada.
“A correlação de –0.89 é estatisticamente significante a 5%” Isto indica que existe a chance de 95% de que a relação observada na amostra seja verdadeira para a população. Testes de significância estão ligados a probabilidade de que os resultados observados na amostras não sejam relacionados à população.
Em regressão, existe um modelo para a população
Que é estimado a partir de uma amostra
Y = a + bX r (^) yx = correlação
Teste de significância para o coeficiente de correlação
A maneira de se testar a significância de um coeficiente de correlação é através da razão de F de Snedecor.
Lembrem-se que a variância total na variável dependente é:
S 2
2 /n
A parcela desta variância que é explicada pela regressão é:
(r (^2) yx) (Sy^2 )
A parcela não explicada da variância é:
(1-r 2 yx) (Sy
2 )
Para construir o teste de F de Snedecor corrige-se esses valores, chamados de estimativas de variância, pelos seus respectivos graus de liberdade.