Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas

Regressão Linear e Múltipla: Modelos e Análise de Variância, Exercícios de Química Farmacêutica

Este documento aborda os conceitos de regressão linear e múltipla, fornecendo exemplos de cálculos e interpretação dos resultados. Além disso, é apresentado o método da anova para testar a significância da regressão. Ao final, é apresentado um exemplo de estudo sobre a relação entre o número total de horas necessárias à montagem de uma estrutura e o número total de operações de furar e rebitar.

O que você vai aprender

  • Como interpretar os resultados da análise de variância da regressão?
  • Como calcular a equação de regressão linear simples?
  • Como realizar a análise de variância da regressão (ANOVA)?
  • O que é o coeficiente de determinação e como interpretá-lo?
  • Qual é a diferença entre regressão linear e múltipla?

Tipologia: Exercícios

2019

Compartilhado em 10/10/2019

spam-data
spam-data 🇧🇷

3 documentos

1 / 11

Toggle sidebar

Esta página não é visível na pré-visualização

Não perca as partes importantes!

bg1
INF 162 Prof. Luiz Alexandre Peternelli
1
CAPÍTULO 9 - Regressão linear e
correlação
Veremos nesse capítulo os seguintes assuntos nessa ordem:
Correlação amostral
Regressão Linear Simples
Regressão Linear Múltipla
Correlação Amostral
Serve para estudar o comportamento conjunto de duas variáveis quantitativas
distintas. Ou, em outras palavras, mede o grau de associação entre duas variáveis
aleatórias X e Y.
OBS.: não há, nesse caso, preocupação em apresentar alguma forma funcional entre as
variáveis, se houver.
Exemplos: (apresentados em aula)
Para o estudo do comportamento conjunto de duas variáveis poderiam ser
usados:
a) O Diagrama de dispersão
Representação gráfica do conjunto de dados. Nada mais é do que a representação
dos pares de valores num sistema cartesiano. Veja exemplo a seguir.
Em síntese três situações marcantes poderiam acontecer:
Se, quando uma das variáveis “cresce”, a outra, em média, também “cresce”,
dizemos que entre as duas variáveis existe correlação positiva, tanto mais
forte quanto mais perto de uma reta imaginária os pontos estiverem;
Se, quando uma das variáveis “cresce”, a outra, em média, também
“decresce”, dizemos que entre as duas variáveis existe correlação negativa,
tanto mais forte quanto mais perto de uma reta imaginária os pontos
estiverem;
Se os pontos estiverem dispersos, sem definição de direção, dizemos que a
correlação é muito baixa, ou mesmo nula. As variáveis nesse caso são ditas
não correlacionadas.
b) O coeficiente de correlação
É um valor numérico, uma medida, para o grau de associação entre duas
variáveis.
Se for observada uma associação entre as variáveis quantitativas (a partir de um
diagrama de dispersão, por exemplo), é muito útil quantificar essa associabilidade.
pf3
pf4
pf5
pf8
pf9
pfa

Pré-visualização parcial do texto

Baixe Regressão Linear e Múltipla: Modelos e Análise de Variância e outras Exercícios em PDF para Química Farmacêutica, somente na Docsity!

CAPÍTULO 9 - Regressão linear e

correlação

Veremos nesse capítulo os seguintes assuntos nessa ordem:

  • Correlação amostral
  • Regressão Linear Simples
  • Regressão Linear Múltipla

Correlação Amostral

Serve para estudar o comportamento conjunto de duas variáveis quantitativas distintas. Ou, em outras palavras, mede o grau de associação entre duas variáveis aleatórias X e Y.

OBS.: não há, nesse caso, preocupação em apresentar alguma forma funcional entre as variáveis, se houver.

Exemplos: (apresentados em aula)

Para o estudo do comportamento conjunto de duas variáveis poderiam ser usados:

a) O Diagrama de dispersão

Representação gráfica do conjunto de dados. Nada mais é do que a representação dos pares de valores num sistema cartesiano. Veja exemplo a seguir.

Em síntese três situações marcantes poderiam acontecer:

  • Se, quando uma das variáveis “cresce”, a outra, em média, também “cresce”, dizemos que entre as duas variáveis existe correlação positiva, tanto mais forte quanto mais perto de uma reta imaginária os pontos estiverem;
  • Se, quando uma das variáveis “cresce”, a outra, em média, também “decresce”, dizemos que entre as duas variáveis existe correlação negativa, tanto mais forte quanto mais perto de uma reta imaginária os pontos estiverem;
  • Se os pontos estiverem dispersos, sem definição de direção, dizemos que a correlação é muito baixa, ou mesmo nula. As variáveis nesse caso são ditas não correlacionadas.

b) O coeficiente de correlação

É um valor numérico, uma medida, para o grau de associação entre duas variáveis.

Se for observada uma associação entre as variáveis quantitativas (a partir de um diagrama de dispersão, por exemplo), é muito útil quantificar essa associabilidade.

Existem muitos tipos de associação possíveis, e aqui iremos apresentar o tipo de relação mais simples, que é o linear. Iremos julgar o quanto a nuvem de pontos do diagrama de dispersão se aproxima de uma reta.

Sejam duas amostras relativas às variáveis X e Y, dadas a seguir: X (^) i X 1 X 2!^ X (^) n Yi Y 1 Y 2!^ Yn

O coeficiente de correlação entre os valores de X e Y é dado por:

( ) ( ) ( )

, - 1 r 1 . 1

= ≤ XY ≤

X Y

XY X Y

XY

XY SQD SQD

SPD

n

SQD

n

SQD

n

SPD

V X VY

COV X Y

r

em que:

∑ ∑

=

= =

n

i

n

i

i

n

i

i XY i i n

X Y

SPD XY

1

1 1

=

=

n

i

n

i

i X i n

X

SQD X

1

2

(^2 1) e ∑

=

=

n

i

n

i

i Y i n

Y

SQD Y

1

2

2 1

Para o exemplo:

Amostra A 4 8 3 9 7 5 Amostra B 1 5 2 14 3 11

( )( ) 36 6

1

= (^) ∑ −

∑ ∑

=

n = =

i

n

i

i

n

i

i AB i i n

A B

SPD AB

( ) 28 6

2

1

2

(^2 1) = − =

= (^) ∑ −

=

n =

i

n

i

i A i n

A

SQD A

( ) 140 6

2

1

2

(^2 1) = − =

= (^) ∑ −

=

n =

i

n

i

i B i n

B

SQD B

MODELO LINEAR DE 1º GRAU (Regressão Linear Simples)

O modelo estatístico para esta situação seria: Yi = β 0 +^ β 1 Xi + e i

em que: Yi =valor observado para a variável dependente Y no i-ésimo nível da variável

independente X.

β 0 =constante de regressão. Representa o intercepto da reta com o eixo dos Y.

β 1 = coeficiente de regressão. Representa a variação de Y em função da

variação de uma unidade da variável X.

X (^) i =i-ésimo nível da variável independente X ( i = 1 , 2 ,!, n )

ei = é o erro que está associado à distância entre o valor observado Yi e o

correspondente ponto na curva, do modelo proposto, para o mesmo nível i de X.

Para se obter a equação estimada, vamos utilizar o MMQ, visando a minimização dos erros. Assim, tem-se que:

ei = Yi−β 0 − β 1 X i

elevando ambos os membros da equação ao quadrado,

ei^2 = [Y (^) i−β 0 − β 1 X i ]^2

aplicando o somatório,

∑ ∑^ [^ ] = =

n

i

i

n

i

ei X 1

2 0 1 1

(^2) β β Yi (1)

Por meio da obtenção de estimadores de β 0 e β 1 , que minimizem o valor obtido

na expressão anterior (1), é possível alcançar a minimização da soma de quadrados dos erros.

Para se encontrar o mínimo para uma equação, deve-se derivá-la em relação à variável de interesse e igualá-la a zero. Derivando então a expressão (1) em relação a β 0 e β 1 , e igualando-as a zero, poderemos obter duas equações que, juntas, vão

compor o chamado sistemas de equações normais. A solução desse sistema fornecerá:

( ) ∑

∑ ∑

n

x x

n

x y xy

i i

i i i i 2 2

βˆ 1 = x

xy SQD

SPD

e βˆ 0 = Y − βˆ 1 X

Uma vez obtidas estas estimativas, podemos escrever a equação estimada:

Yi (^) 0 1 X i ˆ=βˆ + βˆ

Exemplos:

  1. Para verificar se existe relação linear de primeiro grau entre umidade relativa (UR) do ar de secagem de sementes e a germinação das mesmas, um pesquisador realizou um experimento com 4 valores diferentes para a %UR do ar, obtendo-se os seguintes dados (dados hipotéticos) % UR 20 30 40 50 % germinação 94 96 95 97

a) Verificar se existe efeito da UR do ar de secagem na % de germinação. Usar α = 5%.

b) Qual seria a % de germinação esperada quando UR = 45 %?

c) Como poderia ser apresentada, num relatório técnico, a equação de regressão ajustada para esse exemplo?

R.: a) βˆ 0 = 92,7; βˆ 1 = 0,08. F = 3,55; t = 1,88. b) 95,5 %

  1. Foi realizado uma análise de regressão para investigar a existência de ralação linear simples entre a temperatura superficial de uma estrada (X) medida em graus F e a deformação da pavimentação (Y) medida segundo uma técnica especial. Baseado nas seguintes informações pede-se:

n = 20; (^) ∑ yi = 12,75; (^) ∑ y i^2 = 8,86; (^) ∑ xi = 1478; (^) ∑ x i^2 =143215,8; e (^) ∑ xi yi =

1083,

a) Calcule as estimativas dos parâmetros da regressão. Apresente a equação ajustada num gráfico;

b) Use a equação para estimar qual deformação haveria na pavimentação quando a temperatura superficial fosse de 85 graus F.

c) Qual seria a mudança esperada na deformação da pavimentação para uma mudança de 1 o^ F na temperatura superficial?

d) Suponha que a temperatura seja medida em graus C ao invés de graus F. Qual seria a nova equação ajustada resultante? Lembre-se: C = 5(F – 32)/9.

e) Qual seria a mudança esperada na deformação da pavimentação para uma mudança de 1 o^ C na temperatura superficial?

Exercício Proposto Os dados a seguir provêm de um experimento para testar o desempenho de uma máquina industrial. O experimento utilizou uma mistura de óleo diesel e gás, derivados de materiais destilados orgânicos. O valor da capacidade da máquina em cavalo vapor (HP) foi coletado a diversas velocidades medidas em rotações por minuto (rpm × 100).

X Y X Y X Y X Y 22,0 64,03 15,0 46,85 18,0 52,90 15,0 45, 20,0 62,47 17,0 51,17 16,0 48,84 17,0 51, 18,0 54,94 19,0 58,00 14,0 42,74 19,0 56, 16,0 48,84 21,0 63,21 12,0 36,63 21,0 62, 14,0 43,73 22,0 64,03 10,5 32,05 23,0 65, 12,0 37,48 20,0 62,63 13,0 39,68 24,0 63, X = velocidade Y = capacidade

a) t (^) calc = ˆ(ˆ)

1

1 1 β

β β V

, onde SQD x

V

2 1

σ β =

  • regra de decisão: Se | t (^) calc | ≥ t (^) (α/2, n-2) ⇒ rejeita H 0

b) t (^) calc = ˆ(ˆ )

0

0 0 β

β β V

, onde (^)  

SQD x

X

n

V

2 2 0

ˆ(βˆ ) σˆ

  • regra de decisão: Se | t (^) calc | ≥ t (^) (α/2, n-2) ⇒ rejeita H 0

OBS.: σˆ 2 = estimativa da variância dos erros = 2

Re n

SQ s

2

n

SQD (^) y β SPDxy

Um caso especial muito importante seria: H 0 : β 1 = 0 versus Ha : β 1 ≠ 0. Essas hipóteses estão relacionadas com a significância da regressão. Não rejeitar H 0 é equivalente a concluir que não há relação linear entre X e Y. Por outro lado, se H 0 : β 1 = 0 for rejeitado indicaria que X é importante para explicar a variabilidade em Y. Veja ilustrações apresentadas em aula.

De maneira alternativa poderíamos testar a significância da regressão pelo método da Análise de Variância (ANOVA).

O método da ANOVA consiste em fazer uma partição da variabilidade total da variável resposta Y em outros componentes de acordo com o modelo e o teste a ser feito. Assim a seguinte identidade pode ser verificada:

( )^2 (ˆ )^2 ( ˆ)^2 ∑ Y^ i −^ Y =∑ YiY +∑ YiY ,

ou, em outra palavras,

SQTotal = SQRegressão + SQResíduo.

Onde

SQTotal = variação total em Y = SQDY

SQRegressão = variação em Y explicada pela regressão ajustada = βˆ 1 SPDXY

de modo que

SQResíduo = SQRes = variação não explicada pela regressão = SQD (^) Y - βˆ 1 SPDXY

Baseado nessa identidade o seguinte quadro pode ser montado: FV GL SQ QM F Regressão 1 SQReg QMReg = SQReg QM s

QM g Re

Re

Resíduo, ou Independente da Regressão

n – 2 SQRes QMRes = 2

Re n

SQ s -

Total n – 2 SQTotal

A estatística F obtida no quadro acima serve para testar a significância da regressão, ou seja, testar H 0 : β 1 = 0 versus Ha : β 1 ≠ 0.

  • regra de decisão: Se Fcalc ≥ F(α, 1, n-2) ⇒ rejeita H 0

OBS.: Para H 0 : β 1 = 0 temos que (t (^) calc )^2 = Fcalc

A equação estimada obtida, apenas estabelece uma relação funcional, entre a variável dependente e a variável independente, para representar o fenômeno em estudo. Portanto a simples obtenção da equação estimada não responde ao pesquisador se a variação da variável independente influencia significativamente na variação da variável dependente.

Para se responder a esta pergunta, é necessário realizar um teste estatístico para as estimativas dos coeficientes da equação de regressão estimada. Um teste que pode ser realizado para verificar tal fato é o teste F da análise de variância. Portanto, é necessário realizar uma análise de variância dos dados observados, em função do modelo proposto.

O quadro para a análise de variância para a regressão é do seguinte tipo: FV GL SQ QM F Regressão P SQReg p

SQ (^) Re g QMInd

QM (^) Re gr

Independente da Regressão

n – 1 – p SQInd n p

SQInd − 1 −

Total n – 1 SQTotal

em que:

  • p = no^ de coeficientes de regressão (não inclui o β 0 )
  • n = no^ de observações.

As fórmulas para a obtenção das somas de quadrados total e da soma de quadrados do independente da regressão são as mesmas, tanto para o modelo linear de 1 o^ grau quanto para o de 2o^ grau, as quais são dadas a seguir:

n

Y

SQTotal Y

n

i n i

i

i

2

1 1

2

∑ ∑

=

SQIndependente da Regressão = SQTotal - SQRegressão

Já a soma de quadrados para a regressão varia de acordo com o modelo em teste. Assim tem-se que, para o modelo linear de 1o^ grau, a soma de quadrados da regressão é obtida por:

n

Y

SQ gressão Y YX

n

i n i

i

i i

n

i

i

2

1 1

1 1

Re ˆ 0 ˆ

∑ ∑ ∑

= = =

β β

Para o modelo linear de 2o^ grau, a soma de quadrados da regressão é dada por:

F.V. g.l. SQ QM F Regressão 1 34,59 34, Resíduo 7 8,68 1, Total 8 43, Uma maneira de verificar a significância da regressão ajustada é por meio da ANOVA apresentada acima. Apresente a hipótese a ser testada pela ANOVA e realize o teste apropriado (use α = 5%) para testar essa hipótese. e) Se fosse concluído que podemos considerar β 1 = 0, como deveria ser reescrito o modelo ajustado? Justifique.

Regressão linear múltipla

A regressão múltipla envolve três ou mais variáveis, ou seja, uma única variável dependente (Y) e duas ou mais variáveis independentes ou explanatórias ou covariáveis ou regressoras (Xi , i = 1, 2, ...). A teoria é uma extensão da análise de regressão linear simples. De modo similar a análise tem por objetivo estabelecer uma equação que possa ser usada para predizer valores de Y para valores dados das diversas variáveis independentes. A finalidade das variáveis independentes adicionais é melhorar a capacidade de predição em confronto com a regressão linear simples. A técnica de cálculo é bastante complicada e pode ser facilitada com o auxílio de álgebra de matrizes. O modelo Y = β 0 +β 1 x 1 +β 2 x 2 +#+β k xk + ε

é chamado de modelo de regressão linear múltipla com k variáveis regressoras. Os parâmetros βi (i = 1 a k) são chamados de coeficientes de regressão parciais.

Veremos dois exemplos envolvendo regressão linear múltipla.

MODELO LINEAR DE 2º GRAU

O modelo estatístico para esta situação seria: = + X (^) i + Xi + e i 2 Yi β 0 β 1 β 2

em que: Yi =valor observado para a variável dependente Y no i-ésimo nível da variável

independente X.

β (^0) =constante de regressão.

β 1 =coeficiente de regressão.

β 2 =coeficiente de regressão.

X (^) i =i-ésimo nível da variável independente X ( i = 1 , 2 ,!, n )

X (^) i^2 =i-ésimo nível da variável independente X, elevado ao quadrado

ei =é o erro que está associado à distância entre o valor observado Yi e o

correspondente ponto na curva para o mesmo nível i de X.

Utilizando o MMQ, no modelo de 2º grau, chegar-se-á ao seguinte sistema de equações normais, para se obter as estimativas de β^0 ,β 1 e^ β 2 :

∑ ∑ ∑ ∑

∑ ∑ ∑ ∑

∑ ∑ ∑

= = = =

= = = =

= = =

n

i

n

i

i i

n

i

i

n

i

i i

n

i

n

i

i i

n

i

i

n

i

i i

n

i

i

n

i

i

n

i

i

YX X X X

YX X X X

Y n X X

1 1

4 2

3 1 1

2 0 1

2

1 1

3 2

2 1 1

0 1

1

2 2 1

0 1 1

β β β

β β β

β β β

Uma vez obtidas estas estimativas, podemos escrever a equação estimada: 2 Y ˆ i^ =βˆ 0 +βˆ 1 Xi + βˆ 2 Xi