Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad

Resumen de bioestadística -USMP - II unidad, Resúmenes de Bioestadística

Resumen de bioestadística -USMP - II unidad

Tipo: Resúmenes

2021/2022
En oferta
30 Puntos
Discount

Oferta a tiempo limitado


Subido el 02/09/2022

rosa-diaz-12
rosa-diaz-12 🇵🇪

4.9

(9)

7 documentos

1 / 17

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
TEMA 7: MUESTREO ESTADÍSTICO
El cálculo de la muestra permite a los investigadores conocer cuántos
individuos se necesitan pa ra el estudio, para poder determinar el grado de
confianza deseado o para determinar la comparación entre grupos.
Muestra amplia Costoso y reduce el control de la recogida de datos
Muestra pequeña Parámetro con poca precisión, no se detecta las
diferencias entre los grupos.
No existe el tamaño ideal. Pero, tener en cuenta que el tamaño de la muestra
depende de los objetivos, características de la población y condiciones del
estudio. Es importante, la representatividad de una muestra (sea seleccionada
al azar, todos los sujetos de la población tienen la misma posibilidad de ser
seleccionados en la muestra), que permite extraer y generalizar los resultados
observados.
Criterios de inclusión Características clínicas, demográfica,
temporales y geográficas de los sujetos que componen la población
de estudio.
Criterios de exclusión Características de los sujetos que pu eden
interferir con la calidad de los datos o la interpretación de resultados
CONCEPTOS RELACIONADOS
Estimacn de pametro: Inferencias a valores poblacionales (medidas,
proporciones) a partir de resultados de la muestra.
Contraste de hipótesis: Comparar si las medidas de la muestra son diferentes
Poblacn: Conjunto de unidad de análisis
Finitas: Se conocer el número
Infinitas: No se conoce
Accesible: Conjunto de sujetos disponibles para la investigación
Muestra: Subconjunto de la población
Unidad de análisis: Cada una de los elementos de la muestra o población
(Unidad básica)
Pametros: Valores que resumen información sobre la POBLACIÓN
Estadísticos: Valores que resumen información sobre la MUESTRA
MUESTREO ESTADÍSTICO
Procedimiento para seleccionar una o más muestra estadísticamente
representativas de la población o poblaciones. Ejemplos: Encuestas (ENDES,
ENAHO), diseño y análisis de experimento, control de calidad, etc.
¿Cómo se elige un método de muestreo? El método debe:
1. Proporcionar: Una muestra que tenga mayor representatividad posible.
Esto se logra si en el proceso de selección, cada elemento de la población
tiene una probabilidad conocida, diferente de cero, de conformar la
muestra. Esto es, si la muestra es probabilística.
2. Permitir: El cálculo del error muestral o precisión de la estimación (E). Esto
sólo permiten las muestras probabilísticas / Diferencia entre parámetro y
estadístico.
3. Ser: Viable, económico y eficiente: teoría y práctica deben estar juntas y el
método elegido proporcione la mayor cantidad de información a un costo
menor / mapas catastrales actualizados.
TODOS O TÉCNICAS DE MUESTREO
En los no probabilístico, se utiliza mayormente el intencional (decide el mismo
que personas participan). Tamb ién, el voluntario, se pide a personas que
quieran participar de la investigación.
En los probabilísticos: (Es mejor trabajar con estos)
En poblaciones homogéneas Aleatorio simple y sistemático
En poblaciones heterogéneas Estratificado y de conglomerado (Más
complejo, se necesita mapas catastrales)
Recordar: El tamaño de muestra calculado es el mínimo requerido
Tamaño de muestra para estimar una media:
Necesitaremos:
Error absoluto (Medida de desviación)
Desviación estándar (dispersión de datos)
Nivel de confianza (variabilidad y medida real)
Tamaño de muestra para estimar una proporcn
Error
Proporción esperada
Nivel de confianza
I. MUESTREO PROBABILÍSTICO
a) Muestreo aleatorio simple (MAS) Consiste en la selección de n
elementos, a partir de una población de tamaño N, de modo que cada
elemento de la población tiene la misma probabilidad de conformar
la muestra.
Tamaño de muestra (En una población)
Para estimar una media poblacional
Si se conoce N (total de población, continuar con:
Métodos
No
probabilístico Prácticos y
económicos
-Intencional
-Sin norma (Chunk)
-Accidental (casos)
- De voluntarios
Probabilísticos Dan muestra
representativa
-Aleatorio simple
-Sistemático
-Estratificado
-De conglomerados
Ejemplo:
-Media (X o 𝜇)
-Varianza (𝜎2
o s2)
-Desviación
estándar (s o
𝜎)
Hacer uso
de EPIDAT
Muestreo probabilístico
-Conocemos la probabilidad
de que un individuo sea
elegido para la muestra
-Bases para la estadística
frecuentista.
Muestreo no probabilístico
-No conocemos la probabilidad de que
un individuo sea elegido
-Pueden conducir a sesgo de selección.
-En principio no se puede extrapolar los
resultados a la población
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
Discount

En oferta

Vista previa parcial del texto

¡Descarga Resumen de bioestadística -USMP - II unidad y más Resúmenes en PDF de Bioestadística solo en Docsity!

TEMA 7: MUESTREO ESTADÍSTICO

El cálculo de la muestra permite a los investigadores conocer cuántos individuos se necesitan para el estudio, para poder determinar el grado de confianza deseado o para determinar la comparación entre grupos. ✓ Muestra amplia → Costoso y reduce el control de la recogida de datos ✓ Muestra pequeña → Parámetro con poca precisión, no se detecta las diferencias entre los grupos. No existe el tamaño ideal. Pero, tener en cuenta que el tamaño de la muestra depende de los objetivos, características de la población y condiciones del estudio. Es importante, la representatividad de una muestra (sea seleccionada al azar, todos los sujetos de la población tienen la misma posibilidad de ser seleccionados en la muestra), que permite extraer y generalizar los resultados observados. ✓ Criterios de inclusión → Características clínicas, demográfica, temporales y geográficas de los sujetos que componen la población de estudio. ✓ Criterios de exclusión → Características de los sujetos que pueden interferir con la calidad de los datos o la interpretación de resultados CONCEPTOS RELACIONADOS Estimación de parámetro: Inferencias a valores poblacionales (medidas, proporciones) a partir de resultados de la muestra. Contraste de hipótesis: Comparar si las medidas de la muestra son diferentes Población : Conjunto de unidad de análisis

  • Finitas: Se conocer el número
  • Infinitas : No se conoce
  • Accesible : Conjunto de sujetos disponibles para la investigación Muestra : Subconjunto de la población Unidad de análisis: Cada una de los elementos de la muestra o población (Unidad básica) Parámetros: Valores que resumen información sobre la POBLACIÓN Estadísticos: Valores que resumen información sobre la MUESTRA MUESTREO ESTADÍSTICO Procedimiento para seleccionar una o más muestra estadísticamente representativas de la población o poblaciones. Ejemplos: Encuestas (ENDES, ENAHO), diseño y análisis de experimento, control de calidad, etc. ¿Cómo se elige un método de muestreo? El método debe: 1.Proporcionar: Una muestra que tenga mayor representatividad posible. Esto se logra si en el proceso de selección, cada elemento de la población

tiene una probabilidad conocida, diferente de cero, de conformar la

muestra. Esto es, si la muestra es probabilística. 2.Permitir: El cálculo del error muestral o precisión de la estimación (E). Esto sólo permiten las muestras probabilísticas / Diferencia entre parámetro y estadístico. 3.Ser: Viable, económico y eficiente: teoría y práctica deben estar juntas y el método elegido proporcione la mayor cantidad de información a un costo menor / mapas catastrales actualizados. MÉTODOS O TÉCNICAS DE MUESTREO En los no probabilístico , se utiliza mayormente el intencional (decide el mismo que personas participan). También, el voluntario , se pide a personas que quieran participar de la investigación. En los probabilísticos : (Es mejor trabajar con estos)

  • En poblaciones homogéneas → Aleatorio simple y sistemático
  • En poblaciones heterogéneas → Estratificado y de conglomerado (Más complejo, se necesita mapas catastrales) Recordar: El tamaño de muestra calculado es el mínimo requerido Tamaño de muestra para estimar una media: Necesitaremos:
  • Error absoluto (Medida de desviación)
  • Desviación estándar (dispersión de datos)
  • Nivel de confianza (variabilidad y medida real) Tamaño de muestra para estimar una proporción
  • Error
  • Proporción esperada
  • Nivel de confianza I. MUESTREO PROBABILÍSTICO a) Muestreo aleatorio simple (MAS) Consiste en la selección de n elementos, a partir de una población de tamaño N , de modo que cada elemento de la población tiene la misma probabilidad de conformar la muestra.
  • Tamaño de muestra (En una población) ✓ Para estimar una media poblacional Si se conoce N (total de población, continuar con: Métodos No probabilístico Prácticos y económicos
  • Intencional
  • Sin norma (Chunk)
  • Accidental (casos)
  • De voluntarios Probabilísticos (^) representativaDan muestra
  • Aleatorio simple
  • Sistemático
  • Estratificado
  • De conglomerados Ejemplo:
  • Media (X o 𝜇)
  • Varianza (𝜎 2 o s2)
  • Desviación estándar (s o 𝜎) Hacer uso de EPIDAT Muestreo probabilístico - Conocemos la probabilidad de que un individuo sea elegido para la muestra
  • Bases para la estadística frecuentista. Muestreo no probabilístico - No conocemos la probabilidad de que un individuo sea elegido
  • Pueden conducir a sesgo de selección.
  • En principio no se puede extrapolar los resultados a la población

Dónde: ▪ 𝒁∝/𝟐= coeficiente de confianza = 1,96; para un nivel de confianza del 95% ▪ 𝒔𝒆^ 𝟐= varianza esperada, representa el grado de variabilidad de los elementos de la población de estudio. Se obtiene de: ➢ Revisión bibliográfica ➢ Estudio piloto ▪ E = error absoluto de muestreo o precisión con la que se desea estimar la media poblacional. = debe ser asumido por el investigador = representa (μ - 𝑥̅ ) / parámetro menos estadístico ▪ N = tamaño de la población ▪ 𝒏∞ = tamaño de muestra para población infinita ▪ n = tamaño de muestra final (si se conoce N) El error relativo se define como: 𝑬𝒓 = 𝑬/𝑿̅̅̅𝒆̅ Ejemplo: En una población de 600 pacientes del programa de diabetes de un hospital se desea estimar el nivel promedio de colesterol total con 95% de confianza. En un estudio piloto se encontró: 𝑿̅̅̅𝒆̅ = 175,0 y 𝑠𝑒 =16,6 mg/dl. El investigador asume un error absoluto E = ±3,5 mg/dl, calcular n. Interpretación: El número mínimo de pacientes para realizar el estudio es 76, si se desea estimar el nivel promedio de colesterol total en la población de estudio, con una precisión de ±3,5 mg/dL y un nivel de confianza de 95%. ✓ Para estimar una proporción poblacional Si se conoce N (población) Dónde: ▪ 𝑝𝑒= Proporción esperada de sujetos con la característica de interés en la población de estudio. Se puede obtener de. ➢ Revisión bibliográfica ➢ Estudio piloto ➢ 𝑝𝑒 = 𝑞𝑒= 0,5= 50% ▪ 𝑞𝑒 = 1 − 𝑝𝑒 → Proporción esperada de sujetos sin la característica de interés en la población. ▪ 𝐸 = Error absoluto de muestreo → Representa (π-p), debe ser asumido por el investigador y, para este caso E es más o menos el 5% o 0. ▪ El error relatico se define, 𝐸𝑟 = (^) 𝑝𝐸 𝑒 Ejemplo : En la población de mujeres mayores de 40 años que acude al servicio de reumatología de un hospital nacional, se desea estimar la prevalencia de osteoporosis. En la revisión bibliográfica se encontró una prevalencia de 30%, si se asume un error absoluto de muestreo E = ±5%, calcular el tamaño de muestra, n. Interpretación : Para estimar la prevalencia poblacional, con 95% de confianza y una precisión de ±5%, se debe evaluar a 323 pacientes.

  • Procedimiento de selección ( Para seleccionar un MAS) ✓ La población debe ser homogénea ✓ Debe disponer del marco muestral Para identificar el número de cada elemento poblacional que será parte de la muestra, puede utilizarse la tabla de números aleatorios, una calculadora científica o una computadora. Ejemplo: De la población de 150 sujetos aparentemente normales. a. Seleccionar una MAS de tamaño 10. b. Calcular los estimadores media (𝑥̅ ) y desviación estándar (s). c. Calcular e interpretar el error estándar de la media (EE𝑥̅ ). Solución: (Se tiene: N =150 y n =10) Es decir, necesitamos 10 números aleatorios comprendidos entre 1 y 150 para lo cual, de la tabla de números aleatorios, sabiendo que el tamaño de la población tiene tres dígitos, se seleccionan tres columnas cualesquiera. Por esta vez utilizaremos las tres primeras columnas de dicha tabla. Entonces los 10 números seleccionados son: b) Aleatorio estratificado: ✓Consiste en dividir a la población en grupos, en función de algunas características. Posteriormente, dentro de cada grupo, se selecciona una muestra de probabilidad. / En población heterogénea ✓ GRUPOS = ESTRATO ✓Pueden ser divididos según: Su ubicación, género, edad, etc. y dentro de cada estrato, se selecciona aleatoriamente a los participantes. ✓Se dispone de: o Asignación proporcional (tamaño de muestra de cada estrato es proporcional al t.m del estrato que le dio origen) o Asignación óptima (el tamaño de la muestra de cada estrato, son definidos por quien hace el muestreo) c) Aleatorio sistemático ✓Consiste en crear una lista de cada miembro de la población ✓De ella se selecciona de forma aleatoria el primer elemento de muestra de los primeros elementos de la lista de población. A partir de entonces, se selecciona a cada elemento de la lista. ✓El muestreo sistemático es diferente del muestreo aleatorio simple ya que cada muestra posible de n elementos no es igualmente probable. Siempre hacer un redondeo por exceso Pe es proporción estimada y Qe es su complemento Cuando no dan el nivel de confianza, asumir al 95%- Cuando no nos dan pe, ni qe, considerar 0.5 para pe. Al igual que el error, asumir 0.5. Fig. 5. Muestreo aleatorio estratificado. Se seleccionan al azar una muestra de los 4 centros hospitalarios (estratos), que componen la población total de una región del país (población blanco); y de cada estrato, se selecciona un número de sujetos que lo representan

TEMA 8: ESTIMACIÓN DE PARÁMETROS

A partir de los resultados de la muestra inferimos cuales son los parámetros poblacionales INFERENCIA ESTADÍSTICA:

  • Estimación de parámetros
  • Definición de términos de las pruebas de hipótesis o significancia estadística Definición: Se define como un proceso por medio del cual, se elaboran conclusiones probabilísticas en relación a una población, valiéndose de la información proporcionada por una muestra extraída de esa población.
  • Siendo las poblaciones descritas por medidas numéricas descriptivas llamadas parámetros, la inferencia acerca de una población es posible haciendo inferencias acerca de sus parámetros usando los estadísticos. Áreas de la inferencia estadística a) Estimación de parámetros: Resuelve situaciones en las que se busaca conocer un dato o medida descriptiva de determinada población (parámetro ) a partir de datos o medida descriptiva de una muestra (estadístico) representativa. b) Prueba de hipótesis: Sirve para decidir si se rechaza o no una hipótesis establecida basándose en la información de una muestra. Se realiza una contrastación de información entre la hipótesis estadística existente y los resultados obtenidos de la muestra, para una corrobación / se conoce los valores poblacionales, en base a resultado de muestra si es verdadero o falso, estos valores. ESTIMACIÓN
  • Es el proceso de utilizar datos muestrales para estimar los valores de parámetros desconocidos de una población.
  • La estimación es un instrumento básico para la toma de decisiones. Especialmente en MBE
  • La estimación de parámetro puede adoptar la forma de un solo “punto” o un “intervalo”. Datos cuantitativos continuos , se puede obtener los siguientes datos: En datos dicotómicos (cualitativos) se trabaja con proporción: Tipos de estimación de parámetros a) La estimación por punto de parámetros (PUNTUAL)
  • El parámetro se obtiene directamente de los datos muestrales, como un único valor. Específicamente, los estadísticos son introducidos en la fórmula establecida como estimador para obtener el parámetro:
  • n = # de muestra
  • z = desviación normal (según grado de confianza) Ejemplo: Se desea estudiar el salario promedio anual de los profesionales de salud de una compañía farmacéutica. Para ello se tomó una muestra de n=100 profesionales de la compañía, se registra el salario anual de cada profesional de salud en la muestra y se calculan la media y la desviación estándar muestral de los salarios obteniéndose: b) Estimación por intervalos
  • Consiste en determinar, mediante un estimador, 2 valores numéricos llamados límite inferior (L1) y límite superior (L2). Con un cierto grado de confianza, se espera que estos límites contengan el valor del parámetro que se quiere hallar. Es decir, el valor del parámetro debería encontrarse entre el límite inferior y límite superior obtenidos de la estimación.
  • Cabe mencionar que no todos los intervalos obtenidos de un estimador incluirán realmente al parámetro. Es por ello que se aplica el concepto de nivel de confianza. INTERVALOS DE CONFIANZA La amplitud del intervalo de confianza basado en el valor muestral depende:
  • Del error estándar (EE) de ese valor
  • Del grado de confianza que queramos asociar con el intervalo Interpretación: Intervalo de confianza al 95%. Hay 95% de confianza de que el valor de la población (parámetro) se halle dentro del intervalo. CASO 1.- Intervalos de confianza para la media μ en muestras grandes
  • Los valores de los límites, inferior (𝐿 1 ) y superior (𝐿 2 ), se encuentra aplicando la fórmula general: IC valor 90 % 1. 95% 1. 99% 2. No se da mucho, ya que en la vida real hay mucha variabilidad. Esta queda más como información descriptiva Tener en cuenta: ➢ Los estimadores de intervalo se denominan comúnmente intervalos de confianza ➢ Los extremos superior e inferior de un intervalo de confianza se llaman límites de confianza superior e inferior respectivamente ➢ Un intervalo de confianza nos lleva de un solo valor estimado (la media muestral, proporción muestral, diferencias entre medias y proporciones, etc.) a un recorrido de valores.

EE =  /  n EE = S /^ ^ n

OJO: Un IC del 95% nos permite estimar entre qué valores inaccesible real de la población a partir del que podemos obtener nuestra muestra, con una probabilidad de equivocarnos del 5%.

  • Por consiguiente, los límites del intervalo se obtienen sumando o restando el error estándar al valor de la media muestral (_). Específicamente, para hallar el límite inferior (𝐿 1 ) se resta el error estándar y para hallar el límite superior (𝐿 2 ) se suma el error estándar.
  • Para explicar el uso de esta forma de estimación se resolverán los ejemplos planteados anteriormente y otros. Ejemplo 1: Estimación de la media aritmética Se tiene interés en estimar la altura media de los alumnos de la Facultad de Medicina de la USMP. Se recurre a una muestra aleatoria de n=36 alumnos y se obtienen los siguientes resultados: 𝑥̅ = 170 cm; s= 20 cm / n>30 se trabaja con NC con z/
  • Si no se especifica el grado de confianza, se utiliza por lo general 95%, lo cual corresponde a z= 1.96. Conociendo los datos. Se puede aplicar la fórmula:
  • Por lo tanto, la estatura promedio de los estudiantes de la facultad de medicina de la USMP está comprendida entre 163.5 y 176.5 cm , con un grado de confianza del 95%.
  • → I.C. 95% (163.5; 176.5 cm) CASO 2.- Intervalos de confianza de una sola muestra en caso de variable cuantitativa en muestras pequeñas (n≤30) Cambia el z por t. También, nos va a pedir un grado de libertad, es una medida de variabilidad de la distribución t (n-1). Ejemplo 2: Suponga que se desea estimar el peso promedio de los enfermos de hipotiroidismo. En una muestra de 30 pacientes se encontró un 𝑥̅ = 71Kg y una S=5Kg.Para el 95% de confianza, los límites del intervalo serían: Interpretación: Con un 95% de nivel de confianza, el promedio del peso de los hipotiroideos en la población se encuentra entre 69.133 Kg y 72.867 Kg CASO 3.- Intervalo de confianza para la proporción P (muestra>30)
  • Los valores de los límites, inferior (𝐿 1 ) y superior (𝐿 2 ), se encuentra aplicando la fórmula general:
  • Por consiguiente, los límites del intervalo se obtienen sumando o restando el error estándar al valor de la proporción muestral (p). Específicamente, para hallar el límite inferior (L1) se resta el error estándar y para hallar el límite superior (L2) se suma el error estándar.
  • Para explicar el uso de esta forma de estimación se resolverán los ejemplos planteados anteriormente. INTERVALO DE CONFIANZA DE UNA SOLA MUESTRA EN CASO DE VARIABLE CUALITATIVA Ejemplo 1: Se tiene interés en estimar la proporción de niños desnutridos menores de 5 años e una determinada comunidad. Se selecciona una muestra de 100 niños menores de 5 años y se determina que 45 están desnutridos. Solución: Como fue mencionado, se utiliza un valor de z = 1.96. Con los datos conocidos, se aplica la fórmula: Por lo tanto, la proporción de niños menores de 5 años desnutridos en dicha comunidad está entre 0.352 y 0.548, con un intervalo de confianza del 95%. PRUEBA DE HIPÓTESIS Es una técnica estadística que se sigue para decidir si se rechaza o no una hipótesis estadística en base a la información de una muestra. Es llamada también docimasia de hipótesis o prueba de significación estadística. Hipótesis estadística Es una afirmación de lo que se cree sobre una población, es decir, es un supuesto. Por lo general, esta hipótesis se refiere a los parámetros de la población o a una situación existente en la población. Tipos: Existen 2 tipos a) Hipótesis nula ( 𝑯𝒐 ): También llamada hipótesis de la no diferencia, pues plantea que los grupos comparados no difieren en la característica (parámetro) en estudio. Por lo tanto, la diferencia observada en la investigación es consecuencia del error de muestreo. La hipótesis nula (Ho) se plantea para ser rechazada o desacreditada, por lo general. (siempre negación) b) Hipótesis alternativa (𝑯𝟏 ): Son todas las alternativas o suposiciones para contrastar la hipótesis nula (Ho), es decir, aquellas que plantean una diferencia entre los parámetros involucrados y proponen que la diferencia observada es consecuencia efectiva entre las poblaciones de origen. La hipótesis alterna puede ser uni o bilateral. Se busca, un margen de error 5%, no buscar 0,05. Este se divide entre 2 = 0.025. El valor de t es 2.045.

TEMA S9: “Aplicación de la prueba de hipótesis” PRUEBA DE HIPÓTES PARA VARIABLES CUANTITATIVAS: Comparación de dos medias Investigar la veracidad de una hipótesis, existen o no diferencias en algunas características de dos o más muestras. Si existe diferencia entre las muestras, ¿también hay diferencias entre las poblaciones? Si se puede extrapolar los resultados a la población. Etapas de una prueba de significación estadística:

  1. Planteamiento de hipótesis
  2. Nivel de significación (alfa=0.05)
  3. Estadístico de prueba
  4. Determinación de la región de rechazo de la hipótesis nula → 𝐻 0
  5. Interpretación de los resultados 1)Planteamiento de la hipótesis:
  • Hipótesis nula 𝐻 0 → Los grupos comparados no difieren en la característica (parámetro) en estudio. Por lo tanto, la diferencia observada en la investigación es consecuencia del error de muestreo. Las variables son iguales entre los dos grupos.
  • Hipótesis alternativa 𝐻 1 → Los grupos difieren en la característica (parámetro) en estudio. Por lo tanto, la diferencia observada es consecuencia efectiva entre las poblaciones de origen. Las variables son diferentes entre los grupos. 2)Nivel de significación:
  • Se define como la probabilidad de tomar la decisión de rechazar la hipótesis nula cuando ésta es verdadera (decisión conocida como error de tipo I, o falso positivo).
  • La decisión se toma con el valor-p : si el valor p es menor al nivel de significación, entonces la hipótesis nula es rechazada.
  • Cuanto menor sea el valor p, más significativo será el resultado. α=nivel de significación (decide el investigador)
  • Lo decide el investigador, (0.05 o 5% / 0.01 o 1%).
  • Si no se dice nada → a = 0.
  • Valor-p: se define como la probabilidad de que un valor estadístico calculado sea posible DADO QUE la hipótesis nula es cierta (primero, que la hipótesis nula es cierta). p ≤ αSe rechaza Ho (Podemos rechazar la hipótesis nula)
  • Si la prueba da un valor-p muy pequeño (p<0.05)
  • Se asume que la probabilidad de obtener esa diferencia, dado que Ho es cierta, es muy pequeña.
  • Por lo tanto, esa hipótesis nula se debería de rechazar.
  • Una p < 0,05 quiere simplemente decir que es poco probable que la 𝐻 0 sea cierta, luego nos queda la alternativa, pero siempre tenemos cierta probabilidad de cometer lo que se denomina un error de tipo 1 : rechazar la hipótesis nula cuando en realidad es verdadera.
  • Por otra parte, el valor de p > 0,05 no afirma que la 𝐻 0 sea verdadera, ya que puede ocurrir que la diferencia sea real y el estudio no tenga potencia para detectarla.
  • Eso sería el error de tipo 2 : No rechazar la hipótesis de nulidad (y afirmar que no existe el efecto) cuando en realidad sí que existe en la población (pensad, por ejemplo, que el tamaño muestra no sea el suficiente)” Tipos de errores Debido a que una hipótesis se rechaza o no en base a los resultados de una muestra, siempre existe la posibilidad de no decidir acertadamente, cometiendo un error. Se pueden cometer dos tipos de errores: ✓ α= P (Error Tipo I) = P (Rechazar 𝐻 0 /𝐻 0 es verdadera) ✓ β = P (Error Tipo II ) = P (No rechazar 𝐻 0 /𝐻 0 es falsa) OJO: Podemos rechazar 𝐻 0 , PERO NUNCA podemos afirmar lo contrario : NO SE PUEDE Aceptar la 𝑯𝟎. 𝐻 0 solo es falsable, nunca podemos afirmar que sea cierta. 3) Estadístico de prueba:
  • Prueba t independencia → Diferencia de dos medias independientes. Normalmente, se obtiene cuando tengo 2 grupos diferentes de persona (EJ. Un grupo placebo y el otro recibe el medicamento).
  • Prueba t pareada → Diferencia de dos medias relacionadas (pareadas) / (A un mismo grupo de personas una medición, medicamento; luego se vuelve a medir lo mismo [mismos sujetos, con antes y después])
  • Prueba Z → Diferencia de dos proporciones independientes 4)Determinación de la región de rechazo de la hipótesis nula → 𝑯𝟎
  • La localización de la región de rechazo es afectada por la naturaleza de 𝐻 1
  • Si indica la dirección de la diferencia (H1:m1 > m2[D] ó H1: m1 < m2 [I]) entonces se requiere de una prueba unilateral;
  • Si no indica la dirección de la diferencia específica, (H1: m1 m2) entonces se requiere de una prueba bilateral. Zona de rechazo Derecha →Tiene 5% del área bajo la curva Abajo → Ambas colas deben tener el 5% del área bajo la curva: Por lo que cada triángulo mide 0.025 del área bajo la curva. Hipótesis nula unilateral a derecha Tiene la región de rechazo a la derecha, el triángulo tiene 5% del área bajo la curva, el resto es el 95%. “siempre nos movemos en el terreno de la probabilidad” ¡y nos podemos equivocar!

**Hipótesis nula unilateral a la izquierda Hipótesis nula bilateral

  1. Interpretación de los resultados: DIFERENCIAS ESTADISTICA SIGNIFICATIVA** (Lo encontramos en la región de rechazo o p<0.05)
  • Hay evidencia de una diferencia significativa. Deberán decir ustedes: Hay evidencia de___(lo que diga la Ha)_____
  • Con el nivel de significación escogido si la hipótesis nula fuera verdadera, es improbable (probabilidad muy pequeña <a), que se hubiera obtenido una diferencia igual o mayor a la diferencia observada. Por lo tanto, aceptamos que lo encontrado se origina en el efecto de un factor diferencial entre los grupos. DIFERENCIA ESTADÍSTICA NO SIGNIFICATIVA
  • No hay evidencia de una diferencia significativa. Deberán decir ustedes: No hay evidencia de___(lo que diga la Ha)_____
  • De acuerdo al nivel de significación escogido, no hay suficiente evidencia para rechazar la posibilidad de que la diferencia observada se debe a error de muestreo o falta de poder. APLICACIÓN DE LA PRUEBA DE HIPÓTESIS Medias independientes Para muestras diferentes, se utiliza t de independencia. Sc: desviación común. Ej. Se dice que las personas que hacen ejercicio tienen niveles de creatinina más elevados (G1: mujeres no deportista y G2: mujeres no deportistas) Diferencia de dos promedios Se contrastará alguna de las hipótesis que sigue: Ejemplo: Queremos comparar la cantidad de creatinina en la sangre en mujeres deportistas y no deportistas. Se tomaron dos muestras independientes de 10 personas cada una, de una población de mujeres de 30 años clínicamente sanas. Procedimiento 1.Hipótesis: Es bilateral ✓ 𝐻 0 : 𝜇 1 = 𝜇 2 ✓ 𝐻 1 : 𝜇 1 ≠ 𝜇 2 2.Nivel de significancia → 5% (0.05 = representa la columna) 3.Estadística a usar: Se utiliza la t de independencia. 4.Región de rechazo Tenemos que ubicar donde cae – 3.27 en el gráfico, este va más a la izquierda de - 2.10, es decir, cae en la zona de rechazo. 5.Decisión: Se rechaza 𝐻 0 R R n n s s T calculado T tabla

La distribución t, cuando una muestra es muy grande se parece mucho a la distribución z; pero, estas van cambiando conforme tengamos grados de libertad diferente; más tamaño de muestra la distribución t se acerca a la z. ANOVA ANOVAAnálisis de varianza. Se usa para comprobar la hipótesis de comparación cuándo tenemos variables cuantitativas. Permite comparar más de dos promedios a la vez. ¿Por qué ANOVA? En la vida real, las cosas normalmente no resultan en dos grupos que se comparan. Suele haber más de 2 grupos. Tendríamos que hacer la prueba T varias veces.

  • Las pruebas t de dos muestras son problemáticas ✓ Aumenta el riesgo de error Tipo I (rechazar la Ho cuando no hay diferencia real) ✓ Con un nivel de significancia de 0.05, si hacemos 100 comparaciones, 5 mostrarán una diferencia cuando no existe realmente (error experimental) ✓ Por lo tanto, cuantas más pruebas t realice, mayor será el riesgo de un error Tipo I
  • ANOVA nos permite ver si hay diferencias entre medias con una sola prueba. Responde a¿Son iguales todas las medias de las poblaciones (de dónde provienen las muestras)? ¿Cuándo se usa ANOVA de un factor?
  • Los datos suelen ser experimentales
  • Solo se relacionan dos variables: ✓ Una variable dependiente (o a explicar) cuantitativa y ✓ Una variable independiente (se suele llamar factor) cualitativa (nominal u ordinal) Condiciones:
  • Aleatoriedad → Los datos son elegidos al azar de una población normal
  • Normalidad → Los errores que intervienen en las calificaciones estén distribuidos normalmente.
  • Independencia → No existe correlación entre los datos de los distintos grupos
  • Homocedasticidad → Las varianzas de los distintos grupos son similares / homogéneos (es decir, provienen de la misma población o de poblaciones similares) ¿Cuándo usar ANOVA de un factor? Cuando queremos saber si las medias de una variable son diferentes entre los niveles o grupos de otra variable.
  • Si comparamos número de hijos entre los grupos de clase social. Tendremos → clase baja, clase trabajadora, clase media-baja, clase media-alta y clase alta.
  • Se comprueba mediante ANOVA si la variable “número de hijos” está relacionada con la variable “clase social”
  • El análisis es: ¿la media del número de hijos varía según el nivel de clase social a la que pertenece la persona? Varianza / ¿Por qué varían los puntajes?
  • Una representación de la extensión (separación de puntajes)
  • ¿Qué contribuye a las diferencias en los puntajes? ✓ Diferencias individuales (dentro de grupos - error) ✓ En qué grupo estás (entre grupos – tratamiento)
  • Estamos aplicando el concepto de varianza a los promedios (medias) para compararlas. ¿Cómo se comparan los promedios de diferentes grupos con el promedio general? Entre/Dentro de Grupos La varianza se puede separar en dos componentes principales:
  • Dentro de los grupos → Variabilidad o diferencias en grupos particulares (diferencias individuales) / Ej. Pacientes que tomaron el medicamento A responden diferente, valores distintos.
  • Entre grupos → Diferencias según en qué grupo se encuentra o qué tratamiento se recibe/ depende del fármaco que han tomado; A, B o C
  • Se examina el ratio de diferencias (variaciones) entre tratamientos con las variaciones de las diferencias individuales. 𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝑙𝑜𝑠 𝑔𝑟𝑢𝑝𝑜𝑠 𝑉𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 𝑑𝑒𝑛𝑡𝑟𝑜 𝑑𝑒 𝑔𝑟𝑢𝑝𝑜𝑠 (𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑎𝑙)
  • Si la relación es grande hay un impacto significativo del tratamiento que recibió cada grupo (entre) / hizo que la variación sea más importante. Conceptos fundamentales:
  • Podemos comparar MULTIPLES medias
  • La varianza entre grupos refleja las diferencias en tratamiento que recibió (intervención) a los grupos
  • La varianza dentro del grupo refleja las diferencias individuales.
  • Hipótesis nula → no hay diferencia entre las medias
  • Hipótesis alternativa → hay diferencia entre las medias Diseños y sus fórmulas ANOVA:
  • Un factor: DISEÑO COMPLEMENTARIO ALEATORIO ( vamos a utilizar) SS total = SS Tratamiento + Error SS Suma de cuadrados (Total) = Suma de cuadrados (ENTRE) + suma de cuadrados (DENTRO) Otros tipos de diseño como:
  • Diseño randomizado en bloque SS Total = SS Tratamiento + SS Bolque + Error SS SS(Total) = SST + SSB + SSE
  • Dos-Factores - Experimeto Factorial SS Total = Principal efecto SS Factor A + Principal efecto SS Factor B + SS Interacción AB + Error SS SS(Total) = SS(A) + SS (B) + SS (AB) + SSE Finalmente … Sabremos que ese ratio es “lo suficientemente grande” (estadísticamente significativo). Para eso realizamos otra proporción más → al calcular de MCT (Total) con MCE (entre grupos) y realizar una prueba F.

El estadístico F o F-test En conclusión: La significación de F, es la probabilidad de que este valor de F se deba al azar. Siguiendo un nivel de confianza del 95% cuando la s ignificación de F es menor que 0.05 , se puede concluir que → Hay evidencia para decir que las dos variables están relacionadas. Interpretación:

  • Significación : si es menor de 0,05 es que las dos variables están relacionadas y por tanto que hay diferencias significativas entre los grupos.
  • Valor de F: cuanto más alto sea F, más están relacionadas las variables. Generalmente los datos de este tipo de diseño se resumen en el siguiente esquema de matriz de datos por K grupos y de tamaño diferente para cada grupo. La suma de cuadrados total de los datos está compuesta por dos componentes: PASOS (prueba F), de la hipótesis: A. Planteamiento de las hipótesis estadísticas Hipótesis nula → μ1 = μ2 = μ3 = ..... = μk Hipótesis alterna → Al menos dos grupos son diferentes B. Nivel de significación Para un nivel de significación α asumido por el investigador, le corresponderá un valor tabular F con (K-1) y (N-K) grados de libertad. ✓ N: Número de observaciones en general. ✓ K: Número de grupos C. Estadístico de prueba: ANOVA D. Decisión: Se rechazará la hipótesis nula si: Fcal ≥ Ftab. E. Conclusión: Después de los pasos anteriores. EJEMPLO: En un estudio del efecto de la glucosa sobre la liberación de insulina, se trataron muestras de tejido pancreático de animales de laboratorio con cinco estimulantes distintos, luego determinó la cantidad de insulina liberada (asumiendo que tiene una distribución normal). SE TIENE INTERÉS SI EXISTE DIFERENCIA SIGNIFICATIVA ENTRE LOS CINCO ESTIMULANTES. Tabla 1.- Insulina liberada En este estudio la unidad de análisis es un animal. La variable dependiente (respuesta): Cantidad de insulina liberada La variable Independiente (o factor): Estimulante A.- Planteamiento de las hipótesis estadísticas Hipótesis nula : El nivel promedio de insulina liberada es similar en los diferentes tipos de estimulantes (μ1 = μ2 = μ3 = μ4 = μ5) Hipótesis alterna : El nivel promedio de insulina liberada no son similar en los diferentes tipos de estimulantes. (al menos dos son diferentes) B.- Nivel de significación Para un nivel de significación α = 0.05, entonces, Ftab (n-1/k-1) = F (5-1; 32-5) = F (4,27) Según la tabla de la distribución Ftab. = 2. C. Estadístico de prueba F calculado = 19. N: Número de observaciones en general. K: Número de grupos Ft (4,27) = 2.

TEMA 9: CORRELACIÓN Y REGRESIÓN

TEMA S10: Prueba Chi2 y sus aplicaciones

Parte 1

Chi cuadrado se utiliza para encontrar la asociación entre dos variables cualitativas para pruebas de Independencias y homogeneidad. OJO: Tener en cuenta que para cuantitativas se utiliza el análisis de correlación y regresión simple lineal. DISTRIBUCIÓN CHI – CUADRADA ( 𝑿𝟐) Características:

  • Se lee con grado de libertad g.l = (fila-1) (columna-1)
  • No tiene valores negativos → El valor mínimo es 0
  • Todas las curvas son asimétricas
  • Cuando aumentan los grados de libertad las curvas son menos elevadas y más extendidas a la derecha.
  • Se utiliza para variables medidas en escala nominal u ordinal.
  • La observación tiene que ser mayor a 30 (n>30) **1) Se lee con grados de libertad
  1. No tiene valores negativos, el mínimo es 0
  2. Todas las curvas son asimétricas** Más grande es el grado de liberta, la curva se hace más chata y más hacia la derecha. **4) Cuando aumentan los grados de libertad las curvas son menos elevadas y más extendidas a la derecha.
  3. Se utiliza para variables medidas en escala nominal u ordinal.** →Tener en cuenta que las variables cuantitativas se convierten en cualitativas, si estas se categorizan.

CHI CUADRADO

Fórmula de trabajo Mide el grado de concordancia entre los pares de frecuencias observadas y esperadas de las celdas, dado que la Ho sea verdadera. (Es algo que ya pasó, en cada celda tenemos dos valores, una que encontré y otra que hallo si es que la hipótesis nula fuera verdadera)

  • Frecuencia Observada: Número de objetos o individuos en la muestra que caen dentro de cada categoría de la variable de interés.
  • Frecuencia Esperada: Número de objetos o individuos en la muestra que se espera observar si la hipótesis nula respecto a la variable de interés es verdadera. Cálculo del Chi cuadrado: El 11 indica → celda uno uno 5.8 es el chic cuadrado calculado

2. Nivel de significación → p<0. **3. Prueba de homogeneidad

  1. Valor de p** Consultando la tabla de 𝑥^2 = 59. con g.l.= 2 se observa p =?: 59.34 cae en la zona de rechazo, y para hallar p, vemos que va en la izquierda menor de 0. 6. Decisión y conclusión Decisión: Siendo p < 0.05; H0 → rechazo se rechaza la hipótesis nula. Conclusión: las muestras no provienen de poblaciones homogéneas → Es decir, la presencia de hipertensión arterial es distinta en los tres distritos de la ciudad.

Más ejemplos de Chi cuadrado – PRACTICA

Ejemplo 1: En un estudio se busca si hay relación entre consumo de tabaco y cáncer pulmonar n=60. OJITO:

  • Independencia → 1 muestra y 2 variables (Sería esta)
  • Homogeneidad → 2 muestras Ei= ¿? El 8.074 cae en la zona de rechazo, por lo cual se rechaza la Ho y concluyo que si existe relación entre las variables. ▪ Chi2 calculado = 8.078 Vs. Chi2 table = 3. ▪ 0.0025 < p < 0.005 / Rechazo Ho ▪ H0 = V1 y V2 no están relacionadas; al rechazarla → Si hay una relación entre el consumo de tabaco y la presencia de cáncer pulmonar. Ejemplo 2: Evaluar si el estado nutricional y el desempeño académico están asociados en 500 niños de un colegio primaria. →También sería de Independencia. 1. Planteamiento de la hipótesis
  • Ho → El desempeño académico es independiente del estado nutricional.
  • H1 → El desempeño académico está asociado al estado nutricional.
  1. Nivel de significación → p<0. 3. Frecuencias esperadas E1: 44.4 E2: 75. E3: 140.6 E4: 239. 4. Cálculo del chi cuadrado

5. Valor de p Consultando la tabla de 𝑥^2 == 172. con g.l.= 1; se observa p < 0. 6. Decisión y conclusión:

  • Decisión: Siendo p <0.05; H0 → se rechaza la hipótesis nula.
  • Conclusión: El desempeño académico está asociado al estado nutricional. Ejemplo 3: Evaluar el grado de consumo de fármacos en 4to y 5to año de un colegio secundaria Se trataría de uno de homogeneidad, ya que son varias muestras (2 grupos de niños distintos, 4to y 5to. 1. Planteamiento de la hipótesis
  • Ho → Las muestras provienen de poblaciones homogéneas según el grado de consumo de FÁRMACOS
  • H1 → Las muestras no provienen de poblaciones homogéneas según el grado de consumo de FARMACOS. 2. Nivel de significación: p < 0. **3. Frecuencias esperadas:
  1. Cálculo de chi cuadrado:**
  2. Valor de p. Consultando la tabla de 2 = 7. con g.l.= 2; se observa p = 0.01 < p < 0.
  3. Decisión y conclusión:
  • Decisión: Siendo p  0.05; H 0 → se rechaza la hipótesis nula.
  • Conclusión : las muestras no provienen de poblaciones homogéneas con respecto al grado de uso de fármacos.