Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas

resumo inferencia 1, Resumos de Estatística

resumo de principais definicoes

Tipologia: Resumos

2012

Compartilhado em 17/03/2012

berenyce-brandao-12
berenyce-brandao-12 🇧🇷

3 documentos

1 / 20

Toggle sidebar

Esta página não é visível na pré-visualização

Não perca as partes importantes!

bg1
Resumo de Definições e Teoremas Inferência Estatística
Ence
Definição 1.1
População é uma coleção de objetos que possuem uma ou mais características de
interesse.
Definição 1.1-a
População consiste na totalidade das observações possíveis de um fenômeno em estudo.
Definição 1.2
Amostra é um subconjunto de observações selecionadas de uma população.
Uma amostra obtida através de uma seleção aleatória é denominada amostra aleatória.
Uma amostra aleatória pode ser obtida,
(1) Com reposição.
Consiste em selecionar aleatoriamente um objeto populacional, registrar a sua
característica de interesse, e , a seguir, devolver o objeto à população, antes de
selecionar um próximo objeto.
(2) Sem reposição.
Os objetos são selecionados sucessivamente, sem reposição de cada objeto selecionado
à população.
Em quaisquer dos casos, a seleção de uma amostra é uma experiência aleatória e cada
observação na amostra é um valor observado de uma variável aleatória X. O conjunto de
observações da população, conforme Definição 1.1-a, determina a distribuição de
probabilidades da variável aleatória X.
Daí, para seguimento do texto, adotaremos a seguinte definição de amostra aleatória,
Definição 1.3
Uma amostra aleatória de tamanho n de uma variável aleatória X é um conjunto
1 2 n
X ,X ,..., X
, de variáveis aleatórias independentes, todas com a mesma distribuição
de X.
Uma amostra aleatória de tamanho n, considerada como um vetor
( )
1 2 n
X X ,X ,..., X
=
,
define uma variável aleatória n-dimensional, com uma especificada função de distribuição
( )
1 2 n
F x , x ,...., x
, e, por serem independentes as variáveis componentes da amostra,
escrevemos
( ) ( ) ( ) ( )
1 2 n 1 2 n
F x , x ,...., x F x F x ....F x
=
, onde as funções de distribuição
( )
i
F x ,
i= 1,2,3...,n são idênticas à função de distribuição de X.
À n-úpla
( )
n
1 2 n
x , x , ..., x R
denominaremos realização da variável n-dimensional
( )
1 2 n
X ,X ,..., X
, ou simplesmente “realização da amostra”.
2 Estatística Descritiva
Frederico Cavalcanti resumo inferencia 1.doc
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14

Pré-visualização parcial do texto

Baixe resumo inferencia 1 e outras Resumos em PDF para Estatística, somente na Docsity!

Ence

Definição 1.

População é uma coleção de objetos que possuem uma ou mais características de

interesse.

Definição 1.1-a

População consiste na totalidade das observações possíveis de um fenômeno em estudo.

Definição 1.

Amostra é um subconjunto de observações selecionadas de uma população.

Uma amostra obtida através de uma seleção aleatória é denominada amostra aleatória.

Uma amostra aleatória pode ser obtida,

(1) Com reposição.

Consiste em selecionar aleatoriamente um objeto populacional, registrar a sua

característica de interesse, e , a seguir, devolver o objeto à população, antes de

selecionar um próximo objeto.

(2) Sem reposição.

Os objetos são selecionados sucessivamente, sem reposição de cada objeto selecionado

à população.

Em quaisquer dos casos, a seleção de uma amostra é uma experiência aleatória e cada

observação na amostra é um valor observado de uma variável aleatória X. O conjunto de

observações da população, conforme Definição 1.1-a, determina a distribuição de

probabilidades da variável aleatória X.

Daí, para seguimento do texto, adotaremos a seguinte definição de amostra aleatória,

Definição 1.

Uma amostra aleatória de tamanho n de uma variável aleatória X é um conjunto

1 2 n

X , X ,..., X (^) , de variáveis aleatórias independentes, todas com a mesma distribuição

de X.

Uma amostra aleatória de tamanho n, considerada como um vetor ( )

1 2 n

X = X , X ,..., X

define uma variável aleatória n-dimensional, com uma especificada função de distribuição

1 2 n

F x , x ,...., x (^) , e, por serem independentes as variáveis componentes da amostra,

escrevemos ( ) ( ) ( ) ( )

1 2 n 1 2 n

F x , x ,...., x = F x F x ....F x , onde as funções de distribuição

i

F x , (^) i= 1,2,3...,n são idênticas à função de distribuição de X.

À n-úpla ( )

n

1 2 n

x , x ,..., x ∈ R denominaremos realização da variável n-dimensional

1 2 n

X , X ,..., X (^) , ou simplesmente “realização da amostra”.

2 Estatística Descritiva

Ence

Definição 2.

Uma estatística é uma função das observações da amostra.

O termo estatística também se aplica convenientemente, à uma função das variáveis

aleatórias componentes da amostra.

Vários outros exemplos de estatísticas de ordem são importantes. As variáveis

( 1 )^ ( n)

X e X , por exemplo, são por definição, o mínimo e máximo valor obtido na

amostra, respectivamente, e podem ser representados alternativamente pela seguinte

notação:

( )

( )

1 1 2 n^ n^1 2 n 1 i n 1 i n

X min X , X ,..., X e X max X , X ,..., X

≤ ≤ ≤ ≤

Em ambos os casos, a transformação é do tipo

n

R → R.

Uma outra estatística de ordem de grande utilidade é a chamada amplitude da amostra,

definida por ( n^ ) ( 1 )

R = X - X

. No exemplo numérico apresentado, os valores destas

estatísticas de ordem foram: ( 1 )^ ( n)

X = 27 , X =36 e R=

A mediana da amostra é definida pelo valor central (se existe um número ímpar de

observações) ou a média dos dois valores centrais (se existe um número par de

observações), na lista de observações ordenadas. Isto pode ser denotado por,

( )

n 1

2

mediana

n n 1

2 2

X se n é impar

X

X X se n é par

 + 

 

 

   

   

   

 ^ 

A toda amostra, associamos a função de distribuição amostral, calculada por

n

F x número de observações que não excedem a x

n

= ×

Esta função proporciona uma natural estimativa da função de distribuição da população

e tem as propriedades de uma função de distribuição de probabilidades de uma variável

aleatória do tipo discreto. Por exemplo , ( )

n

F x (^) , possui momentos, e pelo menos os dois

primeiros serão muito úteis no decorrer do texto. O primeiro momento é chamado de

média amostral, representado por x^ , e calculado por

n

i

i 1

x x

n

A média amostral é uma observação da estatística “média da amostra”, função das

variáveis aleatórias componentes da amostra, e, definida por

Ence

i

x ∑

n

i i

x f ∑

2

k k

x −x f ∑

Neste caso, o cálculo da média e variância amostral são, respectivamente

k

i i

i 1

x x f

n

∑ e^ (^ )

k

2 2

x i i

i 1

s x x f

n 1

Os dados podem também ser agrupados em intervalos de classe , abrangendo a

amplitude total da amostra. As observações em cada classe são representadas em geral

pelo ponto médio, da respectiva classe.

3 Distribuições de Amostragem

Definição 3.

Uma variável aleatória ( )

n 1 2 n

G = G X , X ,..., X definida como uma função das

variáveis aleatórias componentes de uma amostra é chamada Estatística.

Definição 3.

Se ( )

1 2 n

X , X ,..., X (^) é uma amostra de uma variável aleatória X, chama-se média

da amostra, à estatística n

G (^) definida por

n

i

i 1

X X

n

3.1 - Distribuição de Amostragem da Média da Amostra.

Seja X uma variável aleatória com média μ e variância

2

σ. Definida uma

amostra aleatória de tamanho n de X, as principais características da estatística média da

amostra são

Média da Média da Amostra.

( ) ( )

n n

i i

i 1 i 1

E X E X E X n

n n n = =

= = = μ = μ  

∑ ∑

Obs: o fato de a média da estatística (^) X ser igual a média de X, não significa que a

média amostral x de uma particular amostra seja necessariamente igual a

μ

. A

interpretação correta é a seguinte: fixado um valor de n, se realizarmos todas as

amostras possíveis de tamanho n da variável aleatória X, a média dos x^ ’s encontrados é

igual a

μ .

Ence

Variância da Média da Amostra.

( ) ( )

n n 2

2

i 2 i 2

i 1 i 1

VAR X VAR X VAR X n

n n n n = =

  σ

= = = σ =  

∑ ∑ (3.2)

Obs: Convém registrar que a variância da média da amostra, para n > 1, é sempre

menor que variância de X.

Teorema 3.

Seja X a média da amostra ( )

1 2 n

X , X ,..., X (^) de uma variável aleatória com média

μ e desvio padrão σ. Nestas condições (^) X converge em probabilidade para a média μ de

X.

O teorema é facilmente comprovado, pois ( )

2

n n

lim VAR X lim 0

n

→ ∞ → ∞

σ

= = , e,

aplicando-se a desigualdade de Chebyshev o resultado é imediato.

3.2 - Distribuição da média da amostra quando X é Normal ( μ , σ ).

Determinar a distribuição de (^) X quando X tem distribuição normal de parâmetros

μ e σ.

Se X é N(μ,σ) então sua função característica é dada por

2 2

X

t

t exp it

 σ 

ϕ = μ −  

De acordo com propriedades das funções características, teremos então que

n

X^ X

t

t

n

ϕ = ϕ  ^ 

 ^ 

, e consequentemente, ( )

2 2

X

t

t exp it

2n

 σ 

ϕ = μ −  

. Ora a função

característica encontrada corresponde a de uma variável aleatória normal de parâmetros

e

n

σ

μ .

3.2 - Distribuição Assintótica da Média da Amostra de X.

Se X é a média de uma amostra aleatória ( )

1 2 n

X , X ,..., X (^) , de uma variável X,

então, para n suficientemente grande, de acordo com o Teorema do Limite Central

(TLC), devido a Lindeberg-Lévy, (^) X é assintóticamente normal de média μ e desvio

padrão

n

σ

. Decorrente disto, variável reduzida de (^) X - a qual representaremos por Z

  • tem distribuição assintoticamente normal padrão, isto é

( )

X n

Z é N 0,

− μ

σ

Ence

( )

n 2 2

1 2 i

i=

Y = nZ e Y = Z −Z ∑ são variáveis aleatórias independentes.

A variável 2

Y pode ser escrita como segue

( )

n n n 2 2 2 2

2 i i i 2 1

i 1 i 1 i 1

Y Z Z Z nZ Z Y Y

= = =

∑ ∑ ∑

Recordemos que

n

2

i 1

i 1

Z e Y

=

∑ ~ qui-quadrado com n e 1 gl

2 2

n 1 n 1

2 2 2

Y Y

1 2it t 1 2it t = 1-2it

− − − −

− = ϕ × − ⇒ ϕ

2

Y ~ qui-quadrado com n-1 gl.

( ) (^ )^

( )

n

i (^) i

i

i 1

X^ X

1 X X

Z e Z Z

n

− μ − μ −

σ σ σ

Resumindo, podemos afirmar

(2)

que

i)

X

Z

− μ

σ

é independente de ( )

( ) ( )

2 2 n n (^2) i

i (^2 )

i 1 i 1

X X (^) n 1 S

Z Z

= =

σ σ

∑ ∑

ii)

2

2

n −1 S

σ

é uma variável qui-quadrado com (n-1) graus de liberdade.

Teorema 3.

Se ( )

1 2 n

X , X ,..., X (^) é uma amostra aleatória de uma variável X com distribuição

normal de média μ e desvio padrão σ, então

  • as estatísticas

2

X e S são independentes.

2

2

n −1 S

σ

tem distribuição qui-quadrado com (n-1) graus de

liberdade

3.5 - Distribuição da Estatística de Student com n graus de liberdade

n

i

i 1

X X

n

de uma população X com distribuição N(μ,σ) ~ N^ ;^

n

σ μ  

. Se

conhecemos o valor de μ, mas desconhecemos o valor de σ, então a distribuição de (^) X

na verdade é uma família de distribuições dependendo de um parâmetro σ, pertencente a

um conjunto paramétrico { σ^ >^0 }.

Obviamente não podemos substituir σ (desvio padrão da população) por s (desvio

padrão amostral), pois

2

S = + S

é uma variável aleatória e pode assumir diferentes

valores em diferentes amostras.

Se desejamos deduzir alguma coisa sobre μ, sem o conhecimento de σ, devemos

buscar uma estatística que seja função de μ, mas com distribuição independente de σ.

Ence

Este problema foi resolvido por Gosset (pseudônimo: Student) que definiu chamada

Estatística T de Student.

Definição 3.

Sejam 1 2 n

X, X , X ,..., X (^) variáveis aleatórias independentes, todas com distribuição

N(0,

2

σ ). Dizemos que T tem distribuição de Student com n graus de liberdade se

n

2

i

i 1

X

T

X

n

A variável T pode ser apresentada alternativamente como segue: sabemos que

i

i

X X

Z = e Z =

σ σ

tem distribuição normal padrão, isto é N(0,1), para todo i = 1,2,...,n.

Substituindo-se esses valores em T, obtemos:

n n

(^2 )

i i

i 1 i 1

Z Z

T e T=

Z Z

n n = =

σ

σ ∑ ∑

Observemos que Z é uma variável aleatória N(0,1) e

n

2

i

i 1

Z

=

é uma variável

aleatória qui-quadrado com n graus de liberdade. Face a importância da distribuição T na

Teoria de Inferência Estatística, vale a pena estabelecer uma fórmula simbólica para tal

variável, qual seja

n 2

n

Z

T

n

χ

, onde Z é N(0,1)

A leitura desta fórmula é:

“a variável aleatória T de Student com n graus de liberdade, é a razão

entre uma variável aleatória N(0,1), e a raiz quadrada de uma variável aleatória

qui-quadrado com n graus de liberdade, esta dividida pelo seu parâmetro n, sendo

ambas as variáveis independentes”

n 1

2 2 1 t

f t 1 , - t

n (^1) n

n ,

β  

A densidade de n

T é uma função par, tem média 0 e só tem momentos de ordem

s < n. Se n = 1, por exemplo, a v.a. 1

T é um caso particular e se chama v.a. de Cauchy

cujos momentos não existem

(1)

.

Ence

n ,m

n m n m n 1

2 2 2 2

F

n m 2

f (y) n m y m ny y>

n 2 m 2

− Γ + −

Recordemos que

2 2

n m

n,m 2 m,n 2

m n

n m

F F

m n

χ χ

χ χ

, e desta forma (^) n,m

m,n

F

F

, o

que nos permite obter (^) n,m,1 k

f − , como segue

( ) n,m n,m,k

n,m n,m,k n,m n,m,k

P F f k P k P 1 k

F f F f

m,n m,n,1-k

n,m,k n,m,k

P F 1 k f

f f

3.7 - Distribuição da Diferença entre as Médias de duas amostras

independentes das variáveis X e Y, ambas com distribuição N( μ , σ ).

Sejam 1 2 n 1 2 m

X , X ,..., X , Y , Y ,..., Y (^) va ind ~ ( )

2

N μ ,σ (^).

Temos então definidas duas aa ind com médias (^) X e Y , respectivamente.

As variâncias das duas amostras são respectivamente

( ) ( )

n m 2 2 2 2

x i y i

i 1 i 1

S X X e S Y Y

n 1 m 1 = =

∑ ∑

Consideremos agora estatística ( X^ −^ Y), diferença entre as duas médias em

questão, e calculemos sua média e variância,

E X ( − Y (^) ) = E X( ) − E Y( )= μ − μ = 0

( ) ( ) ( )

2 2

2

n m

VAR X Y VAR X VAR Y

n m nm

σ σ (^)  + 

− = + = + = σ  

Por ser uma combinação de variáveis aleatórias normais, escrevemos então que

( X^ −^ Y) é

( )

( X^ Y)

N 0; n m nm e

n m

nm

σ +

σ  

é N(0,1)

Sendo σ um parâmetro desconhecido, devemos substituí-lo por uma estatística da

amostra que é a média ponderada das variâncias das amostras, ou seja

2 2

2 X Y

p

n 1 S m 1 S

S

n m 2

Notemos que

2 2 2

p X Y

n + m − 2 S = n − 1 S + m −1 S

Dividindo-se ambos os membros da igualdade por

2

σ , temos:

Ence

(^2 2 )

p X Y

2 2 2

n + m − 2 S n − 1 S m −1 S

σ σ σ

Como as amostras são independentes, as variáveis

2 2

n 1 m 1

e − −

χ χ são independentes

e sua soma define uma variável qui-quadrado com (m + n -2) graus de liberdade.

Assim, se

2

σ é desconhecida,^ construímos uma v.a. de Student com n + m -

graus de liberdade, como segue

( )

( )

n m 2 n m 2 2

p p

2

X Y

n m

X Y nm

nm

T T

S n m (n m 2) S

m n 2

  • − + −

σ −

+ − ×

σ + −

que nos permitirá estudar intervalo de confiança e realizar testes de hipótese sobre

a diferença entre as médias de duas populações.

4. Estimação Pontual.

No que se segue, representaremos um simples parâmetro de X, pela letra grega θ.

Se a característica populacional X é contínua, representaremos o modelo por

1 2 k

f x, θ , θ ,...,θ , e, se discreta, por ( )

1 2 k

P x, θ , θ ,...θ (^) , se a distribuição de X depende

de k parâmetros.

Um procedimento geral adotado para estimar um parâmetro θ, de uma população

X, consiste em definir uma função da amostra (^ )

1 2 n

X , X ,...., X (^) da variável aleatória X.

Esta função é uma estatística (^ )

n 1 2 n

G = G X , X ,..., X , que denominaremos

estimador do parâmetro θ e representaremos por

Observemos que ˆ Θ

é uma variável aleatória pois é função de variáveis aleatórias.

Ao valor observado de ˆ Θ

, uma vez realizada a amostra, denominaremos estimativa do

parâmetro θ , a qual representaremos por

θ.

Definição 4.

Uma estimativa pontual de algum parâmetro populacional θ é um valor

numérico

θ de uma estatística^

Como exemplo, suponha que uma variável aleatória X seja normalmente

distribuída com média μ, desconhecida, e variância

2

σ , conhecida. A média da amostra

é um estimador do parâmetro

μ .

Assim, temos

parâmetro

→ μ

estimador (^ )

→ X ou μˆ

estimativa → x

Ence

A função de verossimilhança, muitas vezes representada por (^ )

1 2 n

L x , x ,..., x , θ

nos dá a relativa probabilidade das variáveis 1 2 n

X , X ,..., X , componentes da amostra,

assumirem os valores 1 2 n

x , x ,..., x.

Imaginemos por um momento, que o parâmetro θ seja conhecido, e

representemos seu valor por 0

θ (^). Os valores amostrais mais prováveis de ocorrer

formam a n-úpla ( )

1 2 n

x , x ,..., x′^ ′^ ′^ que maximiza a função ( )

0

L x, θ.

Como o parâmetro θ assume diferentes valores em um conjunto Ω, a função de

verossimilhança ( )

1 2 n

L x , x ,..., x , θ (^) na realidade define uma família F de funções de

densidades (ou probabilidades). Uma vez conhecido θ a distribuição de X, origem da

amostra, é completamente especificada.

Obtidos os valores amostrais (^1 2 n)

x , x ,..., x′ ′ ′ , desejamos saber qual a densidade de

F com a maior “chance” de ter gerado (^1 2 n)

x , x ,..., x′ ′ ′

. Em outras palavras desejamos

encontrar o valor de θ ∈ Ω , o qual representaremos por

θ ,^ que^ maximiza

1 2 n

L x , x ,..., x , θ

. Este valor, em geral, é uma função de (^1 2 n)

x , x ,..., x , isto é ,

1 2 n

θ = g x , x ,..., x e, como já vimos, é a estimativa MV do parâmetro θ, realização

da variável aleatória ( )

1 2 n

Θ = G X , X ,..., X.

Definição 4.

Seja ( )

1 2 n

L x , x ,..., x , θ (^) a função de verossimilhança de uma amostra da variável

aleatória X, com função de densidade (ou probabilidade) f (x,^ θ^ ). Se

θ =^ g

1 2 n

x , x ,..., x

é o valor de θ que maximiza (^1 2 n )

L x , x ,..., x , θ , então

1 2 n

Θ = G X , X ,..., X é o estimador de máxima verossimilhança (EMV) do parâmetro

θ.

Se X é do tipo contínuo - o que segue vale para o caso discreto - a função de

verossimilhança pode ser escrita

n

X 1 2 n X i

i 1

L f x , f x , ... f x , ou L f x ,

=

θ = θ θ θ θ = θ ∏

Em geral, as funções de verossimilhança satisfazem condições de regularidade tais

que o estimador de máxima verossimilhança é a solução da equação

1 2 n

dL x , x ,..., x

d

θ

Ence

Por outro lado, L( ) e lnθ^ ^ L( θ)

têm seu máximo no mesmo valor de θ, e,

muitas vezes é mais fácil encontrar o máximo do logaritmo de L^ ( θ).

Se a distribuição da variável aleatória X depende de vários parâmetros, isto é ,

1 2 k

f x, θ , θ ,...,θ (^) ,sua função de verossimilhança toma a forma

n

1 2 k i 1 2 k

i 1

L , ,..., f x , , ,...,

=

θ θ θ = θ θ θ ∏

Neste caso os estimadores de máxima verossimilhança dos parâmetros 1 2 k

θ , θ ,...,θ

, são as estatísticas ( )

i 1 2 n

Θ = G X , X ,..., X , i = 1,2,...,k, cujas realizações

i 1 2 n

θ = g x , x ,..., x maximizam ( )

1 2 k

L θ , θ ,..., θ.

Se certas condições de regularidade são satisfeitas, o ponto em

k

R que maximiza a

função de verossimilhança é a solução das k equações abaixo

1 2 k

1

L , ,...,

∂ θ θ θ

∂ θ

1 2 k

2

L , ,...,

∂ θ θ θ

∂ θ

1 2 k

k

L , ,...,

∂ θ θ θ

∂ θ

A seguir apresentaremos alguns exemplos tradicionais de estimadores de máxima

verossimilhança. O exemplo inicial, mais uma vez, para fixar a teoria, consiste num caso

numérico extremamente simples.

O método de estimação por máxima verossimilhança permanece válido para

funções do parâmetro, ou seja os EMV’s são invariantes em relação a transformações do

parâmetro. Suponha que ˆ Β

seja o EMV de um parâmetro β e seja uma função θ^ =^ g( β)

. Nós podemos escrever L(β) em função de θ fazendo-se ( )

1

g

β = θ (^) em L(β). A

estimativa de MV do parâmetro θ será obtida substituindo-se

β por β ,na função, isto

é (^) ( )

θ =gβ (^).

4.3 - Propriedades dos Estimadores.

4.3.1 - Estimador Não Tendencioso (não viciado).

Se θ é um parâmetro da distribuição de probabilidades de X e ˆ Θ

o seu

estimador, o mínimo que desejamos é que a variável aleatória ˆ Θ

assuma valores em

torno de θ com alta probabilidade, ou mais simplesmente, desejamos que (^) ( )

E Θ = θ.

Definição 4.

Seja X uma variável aleatória cuja distribuição de probabilidades depende de um

parâmetro θ. Dizemos que

Θ é um estimador não tendencioso (ou não viciado) para o

parâmetro θ^ , se ( )

E Θ = θ .

Ence

Prova:

n n n

s s

S i i s s

i 1 i 1 i 1

E(M ) E X E X X X

n n n = = =

= = = α = α  

∑ ∑ ∑

Qualquer estatística definida pela média de qualquer subconjunto das variáveis

aleatórias i

X (^) , i = 1,2,3...,n constitui um estimador não tendencioso de μ.

Por exemplo,

1 1 (^1 )

10 10

10 i 10 i i 1 i 1

a) X E =

b) X E E X

= =

Θ = ⇒ Θ μ

Θ = ⇒ ^ Θ  = = μ

  ^ 

 

∑ ∑

Desta maneira, no formato média, temos

n

2 − 1

estimadores não tendenciosos para

o parâmetro μ, e em conseqüência, necessitamos portanto, estabelecer um critério para

escolher qual estimador preferível em cada caso.

Se

2

σ é a variância da população, temos que as variâncias de dois dentre os

estimadores citados acima são:

10 2

2

10 i

i 1

15 2

2

15 i

i 1

b.1) Var( ) Var X 10

b.2) Var( ) Var X 15

=

=

  σ

Θ = = × σ =  

  σ

Θ = = × σ =  

Segundo análise já feita anteriormente, é óbvio que escolheremos 15

Θ , se apenas

as duas opções são viáveis, pois que 15 10

Var( Θ ) < Var( Θ ).

Definição 4.

Se considerarmos todos os estimadores não tendenciosos de um parâmetro

θ, aquele com a menor variância é chamado estimador não tendencioso de variância

mínima (MVUE

(1)

de θ^ ).

4.3.2 - Erro Médio Quadrático de um estimador.

Eventualmente, na falta de um estimador não viciado, faz-se necessário adotar

estimador viciado. Em tais casos, o erro médio quadrático - MSE

(2)

  • do estimador

pode ser de grande importância na melhor escolha.

Definição 4.

O erro médio quadrático de um estimador

Θ é definido por^ ( ) ( )

2

MSE Θ = E Θ − θ

O erro médio quadrático pode ser escrito da seguinte forma:

Ence

{ (^ )} { (^ ) }

2

2

2 2

MSE E E E

E E E

E E E 2 E E

Θ = Θ − Θ + Θ − θ

 

= Θ − Θ + Θ − θ

= Θ − Θ + Θ − θ + Θ − Θ Θ − θ

   

De forma que

2 2

2

MSE E E E

MSE Var( ) B

Θ = Θ − Θ + Θ − θ

Θ = Θ + ^ Θ

Isto é, o erro médio quadrático de um estimador é igual à sua variância mais o

quadrado de sua tendenciosidade. Se

é um estimador não viciado de θ, então seu

erro médio quadrático é igual à VAR( )

(1) MVUE - Minimum Variance Unbiased Estimator

(2) MSE - Mean Square Error

O MSE é um valioso critério para a comparação de dois estimadores. Se

1 2

Θ e Θ são dois estimadores quaisquer de um parâmetro θ^ , e se

MSE Θ e MSE Θ (^) são os seus respectivos erros médios quadráticos, chama-se

eficiência relativa entre os estimadores à razão

1

2

MSE

MSE

. Se esta razão for menor do

que 1 concluímos que 1

Θ é um estimador mais eficiente de θ^ do que 2

Θ , no sentido

de que ele tem menor erro médio quadrático.

Embora já discutido anteriormente, vale a pena recordar que: dada uma amostra de

uma variável aleatória X, tanto X

quanto qualquer das i

X , são estimadores não

viciados de μ^ =^ E X(^ ), pois para i=1,2,...,n ( ) (^ )

i

E X = E X = μ. A eficiência relativa de

i

X para X

é

2

1

2

i 2

MSE

Var X 1 n

Var X n MSE

σ Θ

σ Θ

, e, portanto, para amostras de tamanho

n ≥ 2 , concluímos que^ X é um estimador mais eficiente que^ i

X na estimação de μ, pois

a eficiência relativa de i

X para X

, é menor do que 1.

Algumas vezes poderemos preferir estimadores viciados a não viciados se eles têm

menor erro médio quadrático. Isto é possível quando pudermos reduzir

consideravelmente o MSE, com a introdução de uma pequena tendenciosidade. Uma

aplicação de estimação tendenciosa poderá ser estudada em [6] sec. 7.2 (pag. 374) e [9]

sec. 10-13 (pag. 613).

Ence

( )

2

Var

ln f X,

nE

 ∂ θ 

∂ θ  

Definição 4.1 1 - Estimador Eficiente

Seja ( )

1 2 n

X , X ,..., X (^) uma amostra aleatória de uma variável aleatória X, com

função de densidade f(x,θ) - ou função de probabilidade

P(x, θ )

  • e

Θ um estimador

não tendencioso de θ. Dizemos que

Θ é um estimador eficiente na estimação de^ θ, se

ele tem variância mínima dada pela desigualdade de Cramér-Rao.

Definição 4.

Seja X uma variável aleatória cuja distribuição de probabilidades depende de um

parâmetro θ. Se

Θ é um estimador não tendencioso de^ θ, define-se eficiência de^

Θ , e

representa-se por (^) ( )

e Θ (^) à razão ( )

( )

( )

min

Var

e

Var

onde (^) ( ) min

Var Θ (^) é a variância

mínima dada por Cramér-Rao.

Se

Θ é um estimador eficiente de^ θ, então^ ( )

e Θ = (^1). Por outro lado, conforme

Apêndice A2.3, (^) ( )

( ) 2

ln L X,

e ;

∂ θ  

Θ = ρ Θ  

∂ θ    

, e , consequentemente (^) ( )

0 ≤ e Θ ≤1.

Os exemplos 4.17 e 4.18 são esclarecedores: no primeiro

min^ (^ )^ (^ )

pq

ˆ Var Var X

n

Θ = = (^) e no segundo ( ) (^ )

2

min

Var Var X

n

σ

Teorema 4.

Uma condição necessária e suficiente para que um estimador

Θ seja eficiente na

estimação de um parâmetro θ de uma variável aleatória X, é que a função de

verossimilhança de amostra aleatória de X, possa ser escrita da forma

1 { 0 1 2 }

L θ = L exp Θ × θ + θ de forma que 1 0

L e Θ (^) não dependem de θ (^) , enquanto que

1 2

θ e θ (^) podem depender de θ.

Ence

4.3.5 - Distribuição assintótica dos estimadores de máxima verossimilhança.

Os estimadores de máxima verossimilhança não são, em geral, não tendenciosos.

No exemplo 4.9 vimos que os EMV’s dos parâmetros

2

μ e σ (^) de uma distribuição

normal são respectivamente

'

2

X e M (^).

Constatamos também que (^) X é não tendencioso na estimação de μ , o mesmo não

ocorrendo com

'

2

M em relação a

2

σ. Este problema foi resolvido pelo teorema 4.

através de uma simples transformação da estatística

'

2

M , gerando o estimador

2

S , não

tendencioso, na estimação de

2

σ.

Em geral, se a distribuição de X satisfaz certas condições de regularidade, os

estimadores de máxima verossimilhança são consistentes ou então assintoticamente

consistentes quando

n

lim B 0

→ ∞

O teorema abaixo, que não será demonstrado, estabelece uma distribuição

assintótica para estimadores de MV, quando o tamanho da amostra é suficientemente

grande.

Teorema 4.

Se ( )

1 2 n

X , X ,..., X (^) é uma amostra de uma variável aleatória X com função de

densidade f(x) - ou função de probabilidade X

P (x) - dependendo de um único parâmetro

θ, então a distribuição de probabilidades do estimador de máxima verossimilhança

Θ é

assintoticamente normal de parâmetros

( )

E Θ = θ (^) , e

( ) ( ) 2 2

X X

Var ou Var

ln f (X, ) ln P (X, )

nE nE

 ∂^ θ^   ∂^ θ 

 ∂ θ^   ∂ θ 

,respectivamente.