






Estude fácil! Tem muito documento disponível na Docsity
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Prepare-se para as provas
Estude fácil! Tem muito documento disponível na Docsity
Prepare-se para as provas com trabalhos de outros alunos como você, aqui na Docsity
Os melhores documentos à venda: Trabalhos de alunos formados
Prepare-se com as videoaulas e exercícios resolvidos criados a partir da grade da sua Universidade
Responda perguntas de provas passadas e avalie sua preparação.
Ganhe pontos para baixar
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Comunidade
Peça ajuda à comunidade e tire suas dúvidas relacionadas ao estudo
Descubra as melhores universidades em seu país de acordo com os usuários da Docsity
Guias grátis
Baixe gratuitamente nossos guias de estudo, métodos para diminuir a ansiedade, dicas de TCC preparadas pelos professores da Docsity
Este documento aborda os conceitos de regressão linear e múltipla, fornecendo exemplos de cálculos e interpretação dos resultados. Além disso, é apresentado o método da anova para testar a significância da regressão. Ao final, é apresentado um exemplo de estudo sobre a relação entre o número total de horas necessárias à montagem de uma estrutura e o número total de operações de furar e rebitar.
O que você vai aprender
Tipologia: Exercícios
1 / 11
Esta página não é visível na pré-visualização
Não perca as partes importantes!
Veremos nesse capítulo os seguintes assuntos nessa ordem:
Serve para estudar o comportamento conjunto de duas variáveis quantitativas distintas. Ou, em outras palavras, mede o grau de associação entre duas variáveis aleatórias X e Y.
OBS.: não há, nesse caso, preocupação em apresentar alguma forma funcional entre as variáveis, se houver.
Exemplos: (apresentados em aula)
Para o estudo do comportamento conjunto de duas variáveis poderiam ser usados:
a) O Diagrama de dispersão
Representação gráfica do conjunto de dados. Nada mais é do que a representação dos pares de valores num sistema cartesiano. Veja exemplo a seguir.
Em síntese três situações marcantes poderiam acontecer:
b) O coeficiente de correlação
É um valor numérico, uma medida, para o grau de associação entre duas variáveis.
Se for observada uma associação entre as variáveis quantitativas (a partir de um diagrama de dispersão, por exemplo), é muito útil quantificar essa associabilidade.
Existem muitos tipos de associação possíveis, e aqui iremos apresentar o tipo de relação mais simples, que é o linear. Iremos julgar o quanto a nuvem de pontos do diagrama de dispersão se aproxima de uma reta.
Sejam duas amostras relativas às variáveis X e Y, dadas a seguir: X (^) i X 1 X 2!^ X (^) n Yi Y 1 Y 2!^ Yn
O coeficiente de correlação entre os valores de X e Y é dado por:
( ) ( ) ( )
, - 1 r 1 . 1
X Y
XY X Y
XY
XY SQD SQD
n
n
n
r
em que:
∑
∑ ∑
=
= =
n
i
n
i
i
n
i
i XY i i n
1
1 1
∑
∑
=
=
n
i
n
i
i X i n
1
2
(^2 1) e ∑
∑
=
=
n
i
n
i
i Y i n
1
2
2 1
Para o exemplo:
Amostra A 4 8 3 9 7 5 Amostra B 1 5 2 14 3 11
( )( ) 36 6
1
= (^) ∑ −
∑ ∑
=
n = =
i
n
i
i
n
i
i AB i i n
( ) 28 6
2
1
2
(^2 1) = − =
= (^) ∑ −
∑
=
n =
i
n
i
i A i n
( ) 140 6
2
1
2
(^2 1) = − =
= (^) ∑ −
∑
=
n =
i
n
i
i B i n
MODELO LINEAR DE 1º GRAU (Regressão Linear Simples)
O modelo estatístico para esta situação seria: Yi = β 0 +^ β 1 Xi + e i
em que: Yi =valor observado para a variável dependente Y no i-ésimo nível da variável
independente X.
β 0 =constante de regressão. Representa o intercepto da reta com o eixo dos Y.
β 1 = coeficiente de regressão. Representa a variação de Y em função da
variação de uma unidade da variável X.
X (^) i =i-ésimo nível da variável independente X ( i = 1 , 2 ,!, n )
ei = é o erro que está associado à distância entre o valor observado Yi e o
correspondente ponto na curva, do modelo proposto, para o mesmo nível i de X.
Para se obter a equação estimada, vamos utilizar o MMQ, visando a minimização dos erros. Assim, tem-se que:
ei = Yi−β 0 − β 1 X i
elevando ambos os membros da equação ao quadrado,
ei^2 = [Y (^) i−β 0 − β 1 X i ]^2
aplicando o somatório,
∑ ∑^ [^ ] = =
n
i
i
n
i
ei X 1
2 0 1 1
(^2) β β Yi (1)
Por meio da obtenção de estimadores de β 0 e β 1 , que minimizem o valor obtido
na expressão anterior (1), é possível alcançar a minimização da soma de quadrados dos erros.
Para se encontrar o mínimo para uma equação, deve-se derivá-la em relação à variável de interesse e igualá-la a zero. Derivando então a expressão (1) em relação a β 0 e β 1 , e igualando-as a zero, poderemos obter duas equações que, juntas, vão
compor o chamado sistemas de equações normais. A solução desse sistema fornecerá:
( ) ∑
∑
∑
∑ ∑
n
x x
n
x y xy
i i
i i i i 2 2
βˆ 1 = x
xy SQD
e βˆ 0 = Y − βˆ 1 X
Uma vez obtidas estas estimativas, podemos escrever a equação estimada:
Yi (^) 0 1 X i ˆ=βˆ + βˆ
Exemplos:
a) Verificar se existe efeito da UR do ar de secagem na % de germinação. Usar α = 5%.
b) Qual seria a % de germinação esperada quando UR = 45 %?
c) Como poderia ser apresentada, num relatório técnico, a equação de regressão ajustada para esse exemplo?
R.: a) βˆ 0 = 92,7; βˆ 1 = 0,08. F = 3,55; t = 1,88. b) 95,5 %
n = 20; (^) ∑ yi = 12,75; (^) ∑ y i^2 = 8,86; (^) ∑ xi = 1478; (^) ∑ x i^2 =143215,8; e (^) ∑ xi yi =
1083,
a) Calcule as estimativas dos parâmetros da regressão. Apresente a equação ajustada num gráfico;
b) Use a equação para estimar qual deformação haveria na pavimentação quando a temperatura superficial fosse de 85 graus F.
c) Qual seria a mudança esperada na deformação da pavimentação para uma mudança de 1 o^ F na temperatura superficial?
d) Suponha que a temperatura seja medida em graus C ao invés de graus F. Qual seria a nova equação ajustada resultante? Lembre-se: C = 5(F – 32)/9.
e) Qual seria a mudança esperada na deformação da pavimentação para uma mudança de 1 o^ C na temperatura superficial?
Exercício Proposto Os dados a seguir provêm de um experimento para testar o desempenho de uma máquina industrial. O experimento utilizou uma mistura de óleo diesel e gás, derivados de materiais destilados orgânicos. O valor da capacidade da máquina em cavalo vapor (HP) foi coletado a diversas velocidades medidas em rotações por minuto (rpm × 100).
X Y X Y X Y X Y 22,0 64,03 15,0 46,85 18,0 52,90 15,0 45, 20,0 62,47 17,0 51,17 16,0 48,84 17,0 51, 18,0 54,94 19,0 58,00 14,0 42,74 19,0 56, 16,0 48,84 21,0 63,21 12,0 36,63 21,0 62, 14,0 43,73 22,0 64,03 10,5 32,05 23,0 65, 12,0 37,48 20,0 62,63 13,0 39,68 24,0 63, X = velocidade Y = capacidade
a) t (^) calc = ˆ(ˆ)
1
1 1 β
β β V
, onde SQD x
2 1
σ β =
b) t (^) calc = ˆ(ˆ )
0
0 0 β
β β V
, onde (^)
SQD x
n
2 2 0
ˆ(βˆ ) σˆ
OBS.: σˆ 2 = estimativa da variância dos erros = 2
Re n −
2
n
SQD (^) y β SPDxy
Um caso especial muito importante seria: H 0 : β 1 = 0 versus Ha : β 1 ≠ 0. Essas hipóteses estão relacionadas com a significância da regressão. Não rejeitar H 0 é equivalente a concluir que não há relação linear entre X e Y. Por outro lado, se H 0 : β 1 = 0 for rejeitado indicaria que X é importante para explicar a variabilidade em Y. Veja ilustrações apresentadas em aula.
De maneira alternativa poderíamos testar a significância da regressão pelo método da Análise de Variância (ANOVA).
O método da ANOVA consiste em fazer uma partição da variabilidade total da variável resposta Y em outros componentes de acordo com o modelo e o teste a ser feito. Assim a seguinte identidade pode ser verificada:
( )^2 (ˆ )^2 ( ˆ)^2 ∑ Y^ i −^ Y =∑ Yi − Y +∑ Yi − Y ,
ou, em outra palavras,
SQTotal = SQRegressão + SQResíduo.
Onde
SQTotal = variação total em Y = SQDY
SQRegressão = variação em Y explicada pela regressão ajustada = βˆ 1 SPDXY
de modo que
SQResíduo = SQRes = variação não explicada pela regressão = SQD (^) Y - βˆ 1 SPDXY
Baseado nessa identidade o seguinte quadro pode ser montado: FV GL SQ QM F Regressão 1 SQReg QMReg = SQReg QM s
QM g Re
Re
Resíduo, ou Independente da Regressão
n – 2 SQRes QMRes = 2
Re n −
SQ s -
Total n – 2 SQTotal
A estatística F obtida no quadro acima serve para testar a significância da regressão, ou seja, testar H 0 : β 1 = 0 versus Ha : β 1 ≠ 0.
OBS.: Para H 0 : β 1 = 0 temos que (t (^) calc )^2 = Fcalc
A equação estimada obtida, apenas estabelece uma relação funcional, entre a variável dependente e a variável independente, para representar o fenômeno em estudo. Portanto a simples obtenção da equação estimada não responde ao pesquisador se a variação da variável independente influencia significativamente na variação da variável dependente.
Para se responder a esta pergunta, é necessário realizar um teste estatístico para as estimativas dos coeficientes da equação de regressão estimada. Um teste que pode ser realizado para verificar tal fato é o teste F da análise de variância. Portanto, é necessário realizar uma análise de variância dos dados observados, em função do modelo proposto.
O quadro para a análise de variância para a regressão é do seguinte tipo: FV GL SQ QM F Regressão P SQReg p
SQ (^) Re g QMInd
QM (^) Re gr
Independente da Regressão
n – 1 – p SQInd n p
SQInd − 1 −
Total n – 1 SQTotal
em que:
As fórmulas para a obtenção das somas de quadrados total e da soma de quadrados do independente da regressão são as mesmas, tanto para o modelo linear de 1 o^ grau quanto para o de 2o^ grau, as quais são dadas a seguir:
n
SQTotal Y
n
i n i
i
i
2
1 1
2
∑ ∑
SQIndependente da Regressão = SQTotal - SQRegressão
Já a soma de quadrados para a regressão varia de acordo com o modelo em teste. Assim tem-se que, para o modelo linear de 1o^ grau, a soma de quadrados da regressão é obtida por:
n
SQ gressão Y YX
n
i n i
i
i i
n
i
i
2
1 1
1 1
Re ˆ 0 ˆ
∑ ∑ ∑
= = =
β β
Para o modelo linear de 2o^ grau, a soma de quadrados da regressão é dada por:
F.V. g.l. SQ QM F Regressão 1 34,59 34, Resíduo 7 8,68 1, Total 8 43, Uma maneira de verificar a significância da regressão ajustada é por meio da ANOVA apresentada acima. Apresente a hipótese a ser testada pela ANOVA e realize o teste apropriado (use α = 5%) para testar essa hipótese. e) Se fosse concluído que podemos considerar β 1 = 0, como deveria ser reescrito o modelo ajustado? Justifique.
A regressão múltipla envolve três ou mais variáveis, ou seja, uma única variável dependente (Y) e duas ou mais variáveis independentes ou explanatórias ou covariáveis ou regressoras (Xi , i = 1, 2, ...). A teoria é uma extensão da análise de regressão linear simples. De modo similar a análise tem por objetivo estabelecer uma equação que possa ser usada para predizer valores de Y para valores dados das diversas variáveis independentes. A finalidade das variáveis independentes adicionais é melhorar a capacidade de predição em confronto com a regressão linear simples. A técnica de cálculo é bastante complicada e pode ser facilitada com o auxílio de álgebra de matrizes. O modelo Y = β 0 +β 1 x 1 +β 2 x 2 +#+β k xk + ε
é chamado de modelo de regressão linear múltipla com k variáveis regressoras. Os parâmetros βi (i = 1 a k) são chamados de coeficientes de regressão parciais.
Veremos dois exemplos envolvendo regressão linear múltipla.
O modelo estatístico para esta situação seria: = + X (^) i + Xi + e i 2 Yi β 0 β 1 β 2
em que: Yi =valor observado para a variável dependente Y no i-ésimo nível da variável
independente X.
β (^0) =constante de regressão.
β 1 =coeficiente de regressão.
β 2 =coeficiente de regressão.
X (^) i =i-ésimo nível da variável independente X ( i = 1 , 2 ,!, n )
X (^) i^2 =i-ésimo nível da variável independente X, elevado ao quadrado
ei =é o erro que está associado à distância entre o valor observado Yi e o
correspondente ponto na curva para o mesmo nível i de X.
Utilizando o MMQ, no modelo de 2º grau, chegar-se-á ao seguinte sistema de equações normais, para se obter as estimativas de β^0 ,β 1 e^ β 2 :
∑ ∑ ∑ ∑
∑ ∑ ∑ ∑
∑ ∑ ∑
= = = =
= = = =
= = =
n
i
n
i
i i
n
i
i
n
i
i i
n
i
n
i
i i
n
i
i
n
i
i i
n
i
i
n
i
i
n
i
i
Y n X X
1 1
4 2
3 1 1
2 0 1
2
1 1
3 2
2 1 1
0 1
1
2 2 1
0 1 1
β β β
β β β
β β β
Uma vez obtidas estas estimativas, podemos escrever a equação estimada: 2 Y ˆ i^ =βˆ 0 +βˆ 1 Xi + βˆ 2 Xi