





Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Los mejores documentos en venta realizados por estudiantes que han terminado sus estudios
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Descubre las mejores universidades de tu país según los usuarios de Docsity
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Apuntes sobre correlación y regresión. Estadística, 7mo semestre USM Comunicación Social
Tipo: Monografías, Ensayos
1 / 9
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!
Correlación Trata de establecer la relación o dependencia que existe entre las dos variables que intervienen en una distribución bidimensional. Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra. En caso de que suceda, diremos que las variables están correlacionadas o que hay correlación entre ellas. Dos variables están asociadas cuando una variable nos da información acerca de la otra. Por el contrario, cuando no existe asociación, el aumento o disminución de una variable no nos dice nada sobre el comportamiento de la otra variable. Dos variables se correlacionan cuando muestran una tendencia creciente o decreciente. Para estudiar la relación lineal existente entre dos variables continuas es necesario disponer de parámetros que permitan cuantificar dicha relación. Uno de estos parámetros es la covarianza , que indica el grado de variación conjunta de dos variables aleatorias. siendo x¯¯¯x¯ e y¯¯¯y¯ la media de cada variable y xixi e yiyi el valor de las variables para la observación ii. La covarianza depende de las escalas en que se miden las variables estudiadas, por lo tanto, no es comparable entre distintos pares de variables. Para poder hacer comparaciones se estandariza la covarianza, generando lo que se conoce como coeficientes de correlación. Existen diferentes tipos, de entre los que destacan el coeficiente de Pearson , Rho de Spearman y Tau de Kendall.
Todos ellos varían entre +1 y -1. Siendo +1 una correlación positiva perfecta y -1 una correlación negativa perfecta. Se emplean como medida de fuerza de asociación (tamaño del efecto): 0: asociación nula. 0.1: asociación pequeña. 0.3: asociación mediana. 0.5: asociación moderada. 0.7: asociación alta. 0.9: asociación muy alta. Las principales diferencias entre estos tres coeficientes de asociación son: La correlación de Pearson funciona bien con variables cuantitativas que tienen una distribución normal. En el libro Handbook of Biological Statatistics se menciona que sigue siendo bastante robusto a pesar de la falta de normalidad. Es más sensible a los valores extremos que las otras dos alternativas. La correlación de Spearman se emplea cuando los datos son ordinales, de intervalo, o bien cuando no se satisface la condición de normalidad para variables continuas y los datos se pueden transformar a rangos. Es un método no paramétrico. La correlación de Kendall es otra alternativa no paramétrica para el estudio de la correlación que trabaja con rangos. Se emplea cuando se dispone de pocos datos y muchos de ellos ocupan la misma posición en el rango, es decir, cuando hay muchas ligaduras. Además del valor obtenido para el coeficiente de correlación, es necesario calcular su significancia. Solo si el p-value es significativo se puede aceptar que existe correlación, y esta será de la magnitud que indique el coeficiente. Por muy cercano que sea el valor del coeficiente de correlación a +1+1 o −1−1, si no es significativo, se ha de interpretar que la correlación de ambas variables es 0, ya que el valor observado puede deberse a simple aleatoriedad. El test paramétrico de significancia estadística empleado para el coeficiente de correlación es el t-test. Al igual que ocurre siempre que se trabaja con muestras, por un lado está el parámetro estimado (en este caso el coeficiente de correlación) y por otro su significancia a la hora de considerar la población entera. Si se calcula el coeficiente de correlación entre XX e YY en diferentes muestras de
Correlación inversa: ocurre cuando al aumentar una de las variables la otra disminuye. La recta correspondiente a la nube de puntos de la distribución es una recta decreciente. Correlación nula: se da cuando no hay dependencia de ningún tipo entre las variables. En este caso se dice que las variables son incorreladas y la nube de puntos tiene una forma redondeada.
Regresión La regresión lineal simple consiste en generar un modelo de regresión (ecuación de una recta) que permita explicar la relación lineal que existe entre dos variables. A la variable dependiente o respuesta se le identifica como YY y a la variable predictora o independiente como XX. El modelo de regresión lineal simple se describe de acuerdo a la ecuación:
aleatorio. Este último representa la diferencia entre el valor ajustado por la recta y el valor real. Recoge el efecto de todas aquellas variables que influyen en YY pero que no se incluyen en el modelo como predictores. Al error aleatorio también se le conoce como residuo.
desconocidos, por lo que, a partir de una muestra, se obtienen sus
de regresión o least square coefficient estimates , ya que toman aquellos valores que minimizan la suma de cuadrados residuales, dando lugar a la recta que pasa más cerca de todos los puntos. (Existen alternativas al método de mínimos cuadrados para obtener las estimaciones de los coeficientes).
puede calcular su significancia ( p-value ) y su intervalo de confianza. El test estadístico más empleado es el t-test (existen alternativas no paramétricas). El test de significancia para la pendiente (β 1 ) del modelo lineal considera como hipótesis:
del modelo lineal es cero. β 1 =
del modelo lineal es distinta de cero. β 1 ≠
Intervalos de confianza
calcular el error estándar del modelo. Como consecuencia, la exactitud de los coeficientes de regresión estimados se reduce. Esto tiene importancia sobretodo en la regresión múltiple. En R, cuando se genera el modelo de regresión lineal, se devuelve junto con el valor de la pendiente y la ordenada en el origen el valor del estadístico tt obtenido para cada uno y los p-value correspondientes. Esto
distintos de 0. Condiciones para la regresión lineal Linealidad: La relación entre ambas variables debe ser lineal. Para comprobarlo se puede recurrir a: o Graficar ambas variables a la vez ( scatterplot o diagrama de dispersión), superponiendo la recta del modelo generado por regresión lineal. o Calcular los residuos para cada observación acorde al modelo generado y graficarlos ( scatterplot ). Deben distribuirse de forma aleatoria en torno al valor 0. Distribución Normal de los residuos: Los residuos se tiene que distribuir de forma normal, con media igual a 0. Esto se puede comprobar con un histograma, con la distribución de cuantiles ( qqnorm() + qqline() ) o con un test de hipótesis de normalidad. Los valores extremos suelen ser una causa frecuente por la que se viola la condición de normalidad. Varianza de residuos constante (homocedasticidad): La varianza de los residuos ha de ser aproximadamente constante a lo largo del eje XX. Se puede comprobar mediante gráficos ( scatterplot ) de los residuos de cada observación (formas cónicas son un claro indicio de falta de homocedasticidad) o mediante contraste de hipótesis mediante el test de Breusch-Pagan. Valores atípicos y de alta influencia: Hay que estudiar con detenimiento los valores atípicos o extremos ya que pueden generar una falsa correlación que realmente no existe, u ocultar una existente. (Ver descripción detallada en la sección de apuntes varios).