Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad

Análisis Estadístico de Tablas de Contingencia: Pruebas de Independencia y Estadísticas, Apuntes de Estadística

El análisis estadístico de tablas de contingencia, incluyendo pruebas de independencia entre filas y columnas, estadísticas como Pearson's R, Kendall's Tau b y c, y otras métricas relacionadas. Se presentan ejemplos y conceptos básicos para comprender el uso de estas herramientas estadísticas.

Tipo: Apuntes

2021/2022

Subido el 30/11/2022

mariangel-guadalupe-aguayo-ac
mariangel-guadalupe-aguayo-ac 🇲🇽

1 documento

1 / 22

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
STATGRAPHICS – Rev. 9/14/2006
© 2005 por StatPoint, Inc. Tablas de Contingencia - 1
Tablas de Contingencia
Resumen
El procedimiento Tablas de Contingencia esta diseñado para analizar y mostrar datos de
frecuencia contenidos en tablas cruzadas. Tales datos son frecuentemente coleccionados como el
resultado de un examen. Estadísticas son construidas para cuantificar el grado de asociación
entre filas y columnas, y pruebas son corridas para determinar si hay o no una dependencia
estadística significante entre la clasificación de las filas y la clasificación de las. Las frecuencias
son desplegadas ambas en forma tabular y gráficamente como un diagrama de barras, grafico de
mosaico, o diagrama tridimensional.
Para datos que aun no han sido tabulados, use el procedimiento Tabulación Cruzada, el cual crea
salidas similares de los datos de respuesta.
Ejemplo StatFolio: contingency.sgp
Datos del Ejemplo:
El archivo opinion.sf6 contiene los resultados de un sondeo de opinión para n = 200 personas,
107 hombres y 93 mujeres, se les pidió expresar su opinión acerca de si estaban de acuerdo o no
con una declaración. La tabla de abajo muestra los resultados de esta encuesta:
Response
(Respuesta) Men
(Hombre) Women
(Mujer)
Totalmente en Desacuerdo 5 17
Desacuerdo 20 28
Sin Opinión 12 3
Acuerdo 50 35
Totalmente en acuerdo 20 10
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16

Vista previa parcial del texto

¡Descarga Análisis Estadístico de Tablas de Contingencia: Pruebas de Independencia y Estadísticas y más Apuntes en PDF de Estadística solo en Docsity!

Tablas de Contingencia

Resumen

El procedimiento Tablas de Contingencia esta diseñado para analizar y mostrar datos de frecuencia contenidos en tablas cruzadas. Tales datos son frecuentemente coleccionados como el resultado de un examen. Estadísticas son construidas para cuantificar el grado de asociación entre filas y columnas, y pruebas son corridas para determinar si hay o no una dependencia estadística significante entre la clasificación de las filas y la clasificación de las. Las frecuencias son desplegadas ambas en forma tabular y gráficamente como un diagrama de barras, grafico de mosaico, o diagrama tridimensional.

Para datos que aun no han sido tabulados, use el procedimiento Tabulación Cruzada , el cual crea salidas similares de los datos de respuesta.

Ejemplo StatFolio: contingency.sgp

Datos del Ejemplo:

El archivo opinion.sf6 contiene los resultados de un sondeo de opinión para n = 200 personas, 107 hombres y 93 mujeres, se les pidió expresar su opinión acerca de si estaban de acuerdo o no con una declaración. La tabla de abajo muestra los resultados de esta encuesta:

Response (Respuesta)

Men (Hombre)

Women (Mujer) Totalmente en Desacuerdo 5 17 Desacuerdo 20 28 Sin Opinión 12 3 Acuerdo 50 35 Totalmente en acuerdo 20 10

Entrada de Datos

La caja de dialogo de entrada especifica las columnas que contienen los datos en la tabla.

  • Columnas: Dos o más columnas numéricas correspondiendo a las columnas de la tabla.
  • Etiquetas: Etiquetas opcionales que serán asignadas a cada fila de la tabla. Las etiquetas de las columnas son automáticamente generadas de los nombres de las columnas.
  • Puntuación de Filas: Columna numérica opcional con puntuaciones asociados a cada fila o fila. Estas puntuaciones son usadas cuando se generan ciertas estadísticas de resumen y pruebas. Si no se especifican, las puntuaciones filas serán construidos automáticamente usando un algoritmo basado en su orden y los totales de la fila.
  • Puntuación de Columnas: Columna numérica opcional con puntuaciones que son asociados con cada columna. Si no se especifican, las puntuaciones de columna serán construidos automáticamente usando un algoritmo basado en su orden y los totales de la columna.
  • Selección: Selección de un subconjunto de los datos.

r

i

C (^) j Oij 1

  • Total de la Tabla : La esquina inferior derecha contiene la suma de todas las frecuencias:

∑∑ = =

r

i

c

j

n Oij 1 1

Por ejemplo, 5 hombres “Están en desacuerdo fuertemente” con la declaración que se les propuso.

Opciones del Panel Información adicional puede ser adherida a cada celda de la tabla usando Opciones del Panel :

  • Porcentajes de la Tabla: El porcentaje de cada celda es con respecto a el total de toda la tabla, definido por

n

Oij (4)

  • Porcentajes de Fila: El porcentaje de cada celda es con respecto a su fila y es definido por

i

ij R

O

  • Porcentajes de Columna: El porcentaje de cada celda es con respecto a su columna y es definido por

100 % j

ij C

O

  • Frecuencia Esperada: Eij , el numero esperado de veces que el fila i habría aparecido junto con la columna j en le archivo de datos si las clasificaciones del fila y la columna fueron independientes:

n

RC

E

i j ij =^ (7)

  • Desviaciones : La diferencia entre lo esperado y las frecuencias esperadas:

OijE ij (8)

  • Valores Chi-Cuadrada : La contribución de cada celda a la estadística chi-cuadrada, usada para probar independencia entre los filas y las columnas:

( )

ij

ij ij E

O E

2 − (9)

  • Residuos Ajustados: Una forma de estandarizar residuos calculados dividiendo cada desviación de la celda por un estimador de su error estándar:

( )

n

C

n

R

E

O E

i j ij

ij ij ij 1 1

ε (10)

Ejemplo – Información adicional sobre hombre-totalmente en acuerdo

Tabla de Frecuencias Men Women Total por Fila Agree strongly 20 10 30 10.00% 5.00% 15.00% 66.67% 33.33% 18.69% 10.75% 16.05 13. 3.95 -3. 0.97 1. 1.57 -1. Total por Columna 107 93 200 53.50% 46.50% 100.00% Contenido de las celdas: Frecuencia Observada Porcentaje de la tabla Porcentaje de la fila Porcentaje de la columna Fecuencia Esperada Frecuencia Observada - experada Contribución a la chi-cuadrada Residuos Ajustados

De los 20 hombres que respondieron estar totalmente de acuerdo:

Opciones del Panel

  • Tipo de Grafico: Las barras pueden estar conglomeradas como se muestra en el ejemplo o apiladas una sobre otra.
  • Escala : Si la escala del eje muestra las frecuencias Oij o el porcentaje dado por

n

O

p ij ij =^ (11)

  • Dirección : Si las barras se extienden horizontal o verticalmente.\
  • Línea Base : El valor sobre el cual las barras se extienden.

Ejemplo – Diagrama de barras apiladas horizontal por porcentaje

0

10

20

30

40

50

porcentaje

Diagrama de Barras

Disagree strongly Disagree No opinion Agree Agree strongly

Men Women

Ejemplo – Diagrama de barras conglomeradas con una línea base de 5%

0

10

20

30

40

50

frecuencia

Diagrama de Barras

Disagree strongly Disagree No opinion Agree Agree strongly

Men Women

Diagrama Tridimensional

Todas las celdas de frecuencias pueden también ser representadas usando barras verticales.

Gráfico de Rascacielos

0

10

20

30

40

50

frecuencia

Disagree strongly

Disagree No opinion

Agree

Agree strongly

Men

Women

Opciones del Panel

  • Gráfico: escalando para el eje vertical.

Pruebas de Independencia

Una pregunta común acerca de los datos en una tabla es si los filas y columnas son o no independientes, es decir el hecho que un objeto caiga en un fila particular no afecta la probabilidad de que caiga en una columna dada. En el ejemplo actual. Independencia implicaría que ambos géneros responden similarmente a la declaración propuesta.

STATGRAPHICS puede realizar cualquiera de 5 pruebas diferentes, dependiendo de lo fijado en la caja de dialogo Opciones del Panel. Cada una de las pruebas sigue las siguientes hipótesis:

Hipótesis Nula: las clasificaciones de las columnas y filas son independientes Hipótesis Alt.: las clasificaciones de las columnas y filas no son independientes

Asociada a cada prueba esta un P-Valor. P-valores pequeños (menos que 0.05 si se esta operando en un nivel de confianza de 5%) permiten rechazar la hipótesis nula, implicando una dependencia significante entre las columnas y los filas.

Prueba Chi-cuadrada La prueba mas común para independencia es la prueba chi-cuadrada. Esta prueba compara las frecuencias esperadas y observadas calculando:

( ) ∑∑ = =

r

i

c

j (^) ij

ij ij E

O E

1 1

2

STATGRAPHICS despliega los resultados de esta prueba y su correspondiente P-valor:

Pruebas de Independencia Prueba Estadístico Gl Valor-P Chi-Cuadrada 18.369 4 0.

El P-valor es calculando comparando la estadística de prueba a una chi-cuadrada con (r-1)(c-1) grados de libertad. P-valores pequeños (menos de 0.05 si se opera en un nivel de confianza de 95%) indican una dependencia significativa entre las filas y columnas. El P-Valor en la tabla anterior claramente muestra que el tipo de auto y el número de pasajeros que transportan no son independientes.

Si el valor esperado Eij en cualquier celda es menor que 5, una advertencia será desplegada. En tales casos, el cálculo de la estadística Chi-cuadrada puede no estar bien representada por una distribución chi-cuadrada. Es particularmente serio si cualquier valor esperado es menor que 2. Cuando esto ocurre, se debería reconsiderar combinar clases que no contienen muchos datos.

Prueba de Razón de Verosimilitud Una prueba alternativa a la chi-cuadrada es la prueba de razón de verosimilitud. Esta estadística de prueba esta dada por (para este caso)

∑∑ = = ⎟

r

i

c

j (^) ij

ij ij E

O

G O

1 1

(^2 2) log (13)

Pruebas de Independencia Prueba Estadístico Gl Valor-P Razón de Verosimilitud 19.116 4 0.

Esta estadística también es comparada con una distribución chi-cuadrada con (r-1)(c-1) grados de libertad.

Chi-cuadrada con corrección Yates En el caso de tablas de dos por dos solamente, una versión modificada de la prueba chi-cuadrada puede ser realizada usando la corrección de Yates para continuidad:

Respuesta Puntuación Totalmente en Desacuerdo - Desacuerdo - Sin Opinión 0 Acuerdo 1 Totalmente en acuerdo 2

Género Puntuación Hombre 1 Mujer 2

Dadas los puntuaciones filas u 1u 2 ≤ … ≤ ur y las puntuaciones columnas v 1v 2 ≤ … ≤ v (^) c , la suma de los productos cruzados es dada por

∑∑ = =

r

i

c

j

T ui vjOij 1 1

El resultado es estandarizado para crear una correlación r sobre una escala de –1 a 1. La correlación más grande, es la relación lineal más fuerte entre las columnas y filas. Para probar la hipótesis de independencia, la prueba estadística

M^2 = ( n − 1 ) r 2 (16)

es comparada con una distribución chi-cuadrada con 1 grado de libertad.

La salida de la prueba en los datos del ejemplo es mostrada abajo:

Pruebas de Independencia Prueba Correlación Valor-P Prueba de Tendencia Lineal -0.2481 0. Puntuación Fila Puntuación Columna Puntuación Disagree strongly -2.0 Men 1. Disagree -1.0 Women 2. No opinion 0. Agree 1. Agree strongly 2.

La tabla muestra:

  • Correlación – El valor calculado de r. Una correlación negativa tal como la observada anteriormente indica una asociación negativa entre las puntuaciones. En la tabla de la muestra, mujeres, quienes han estado dando arbitrariamente la más alta puntuación, tienden a acordar menos con la declaración.
  • Valor-P – Prueba la significancia estadística de la correlación comparando una versión normalizada de la estadística de prueba con una distribución chi-cuadrada con un grado de libertad. Detalles pueden ser encontrados en Agresti (2002).
  • Puntuación – Las puntuaciones para cada categoría.

Los datos de la muestra exhiben una correlación altamente significante.

Opciones del Panel

  • Prueba^ – el tipo de prueba que será realizada.
  • Cramer’s V - Esta estadística mide el grado de asociación entre los valores de las variables fila y columna en una escala de 0 a 1, es basada en la prueba estadística usual chi-cuadrada. A diferencia de la estadística coeficiente de contingencia , esta puede alcanzar el valor 1 para todas las tablas.
  • Gamma Condicional - Esta estadística varía de -1 a +1 y es basada en el número de pares concordantes y discordantes. Ambas variables deben de ser ordinales. Ninguna corrección es hecha para ambas.
  • R de Pearson - - Esta estadística mide el grado se asociación entre los valores de las variables fila y columna usando el coeficiente de correlación ordinario. Esta estadística varía de -1 a + y es relevante solamente si ambas variables son del tipo intervalo. Valores de filas y columnas son asignadas a cada observación en una forma similar a la descrita para la estadística eta. Si n > 2 y | R | no es igual a 1, un P-valor es probado para probar la hipótesis nula de que la correlación es igual a 0.
  • Tau b de Kendall - Esta estadística varia de -1 a +1 y es basada en el numero de pares concordantes y discordantes, donde 1 corresponde a una concordancia completa y - corresponde a un desacuerdo completo. Ambas variables deben ser ordinales. Una corrección es hecha para los lazos por pares.
  • Tau c de Kendall - Esta estadística es similar a tau b de Kendall excepto en su manejo de los lazos.

Note que no todas las estadísticas son relevantes para todos los tipos de datos.

Razón de Momios

Una manera usual de observar tablas de 2 por 2 cuando un factor corresponde a la ocurrencia o a la no ocurrencia de evento es a través de la razón de momios o riesgo relevante del evento. Por ejemplo, Agresti (2002) presenta los siguientes datos de un estudio la efectividad de la aspirina en la prevención de ataques al corazón:

Tratamiento Ataque del corazón No Ataque del corazón Placebo 189 10, Aspirina 104 10,

La tabla muéstralos resultados de un estudio de n = 22,071 individuos. Para esta tabla, STATGRAPHICS genera la siguiente salida:

Momios y Riesgo Relativo Momios Numerador Denominador Momios 95% LCI 95% LCS Aspirina Placebo 0.545835 0.429041 0.

Los momios de un evento son definidos como la probabilidad de un evento dividida por la probabilidad de que el evento no ocurra En los datos del ejemplo, los momios de tener un ataque al corazón como una función del tratamiento que fue dado, son estimados:

Placebo : 0. 01743 10 , 845

12

n

n (17)

Aspirin : 0. 00951 10 , 933

22

n

n (18)

La razón de momios es la razón de estos dos números:

12 21

n n

n n

Esto implica que los momios de un ataque al corazón son de alrededor de un 83% mas alto para aquellos que tomaron el placebo que la aspirina.

STATGRAPHICS también muestra un intervalo de confianza para la razón de momios, calculado del logaritmo inverso de:

11 12 21 22

/ 2

ˆ^1111

log n n n n

θ ± z (^) α + + + (20)

En los datos del ejemplo, ya que el intervalo de confianza del 95% esta completamente encima de 1, nosotros podemos establecer con 95% de confianza que el momio de un ataque al corazón para aquellos que tomaron placebo es más grande que el momio para los que tomaron aspirina.

Opciones del Panel

  • Desplegar : Si se muestra la razón de momios o el riesgo relativo del evento.
  • Fila para denominador : De las 2 filas, cual fila debería ser usado como el denominador de la razón.
  • Nivel de Confianza: el porcentaje que será usado para el nivel del intervalo de confianza.

Cálculos

Lambda

Filas dependientes:

1

n R

O R

c

j

j

Columnas dependientes:

1

n C

O C

r

i

i

∑ λ = (26)

Simetría:

1

1

2 n R C

O O R C

r

i

i

c

j

j

− −

∑ ∑ = = λ (27)

donde

Oi* =frecuencia mas grande en la fila i

O*j = frecuencia mas grande en la columna j

R* = fila mas grande total

C* = columna mas grande total

Coeficiente de Incertidumbre

Filas dependientes: ( )

U X

U X UY U XY

U

Columnas dependientes: ( )

U Y

U X UY U XY

U

Simetría: (^) ⎥ ⎦

U X UY

U X UY U XY

U (30)

donde

= −∑ = n

R

n

R

U X i

r

i

( ) i^ log 1

= −∑ = n

C

n

C

U Y j

c

j

( ) j^ log 1

= −∑∑ = = n

O

n

O

U XY

r ij

i

c

j

ij ( ) log 1 1

para Oij > 0 (33)

D de Somer

Siendo P el número de pares concordantes y Q el número de pares discordantes:

Filas dependientes:

= (^) c

j

n Cj

P Q

D

1

2 2

Columnas dependientes:

= (^) r

i

n Ri

P Q

D

1

2 2

Simetría:

⎟⎟ ⎠

∑ ∑ = =

c

j

j

r

i

n Ri n C

P Q

D

1

2 2 1

2 2

Eta

T

W SS

SS

η = 1 − (37)

Donde SST es el total de la suma de cuadrados corregidos para Y cuando a cada observación i , i =1,2,… n , es asignado un valor Yi , y SS (^) W es la suma de cuadrados dentro de las categorías de la variable independiente.

Coeficiente de Contingencia

n

C

2

V de Cramer

Para una tabla de 2-por-2:

n

V

χ^2

Usando el valor corregido de χ^2. Para otras tablas: