Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad

Regresión y cotrelacion, Guías, Proyectos, Investigaciones de Metodología de Investigación

Material de estudio de metodología de la investigación

Tipo: Guías, Proyectos, Investigaciones

2019/2020

Subido el 03/03/2022

majo-rendon-1
majo-rendon-1 🇲🇽

2 documentos

1 / 29

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
Universidad Nacional Autónoma de México
Facultad de Estudios Superiores Cuautitlán
Regresión y Correlación Lineal Simple
http://www.cuautitlan.unam.mx
Regresión y Correlación lineal simple es el noveno fascículo, de una serie de
guías de estudio en las que se desarrollan los temas de los programas de las
asignaturas del área de Probabilidad y Estadística, así como temas selectos
que complementan el aprendizaje de de esta disciplina. Tienen la
característica de que el estudiante adquiera sólo aquella que trate el tema
que necesite reforzar o el que sea de su propio interés.
Estas guías de estudio pretenden reorientar y actualizar el enfoque con el que
se debe abordar el estudio de los métodos estadísticos, despertando la
inquietud por aprender y resolver los problemas y casos planteados.
Cada guía integra el desarrollo del tema con ejercicios, casos de estudio y con
la sección llamada Aprendiendo.com. En esta última sección se le proporciona
al estudiante un ambiente interactivo, utilizando los recursos disponibles en
Internet, de tal forma que los casos planteados los desarrolle en ambientes
de aprendizaje que le permitan encontrarse con el conocimiento,
“manipularlo”, hacerlo suyo. Con esta filosofía se utilizan applets, sitios de
internet con acceso a bases de datos reales, software de uso libre y en
general los recursos de la Web 2.0, que se refieren a una segunda generación
en la historia de la Web basada en comunidades de usuarios, que fomentan la
colaboración y el intercambio ágil de información entre los mismos.
Nuestro reconocimiento a la Dirección General de Asuntos del Personal
Académico de nuestra Casa de Estudios, que a través del Programa de Apoyo
a Proyectos para la Innovación y Mejoramiento de la Enseñanza (PAPIME) ha
apoyado nuestro proyecto “Implantación de un Laboratorio Virtual de
Estadística y Elaboración de las Guías de Estudio con Soporte Multimedia”
clave PE302709.
Los Autores
PRESENTACIÓN
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d

Vista previa parcial del texto

¡Descarga Regresión y cotrelacion y más Guías, Proyectos, Investigaciones en PDF de Metodología de Investigación solo en Docsity!

Facultad de Estudios Superiores Cuautitlán

Regresión y Correlación lineal simple es el noveno fascículo, de una serie de guías de estudio en las que se desarrollan los temas de los programas de las asignaturas del área de Probabilidad y Estadística, así como temas selectos que complementan el aprendizaje de de esta disciplina. Tienen la característica de que el estudiante adquiera sólo aquella que trate el tema que necesite reforzar o el que sea de su propio interés.

Estas guías de estudio pretenden reorientar y actualizar el enfoque con el que se debe abordar el estudio de los métodos estadísticos, despertando la inquietud por aprender y resolver los problemas y casos planteados.

Cada guía integra el desarrollo del tema con ejercicios, casos de estudio y con la sección llamada Aprendiendo.com. En esta última sección se le proporciona al estudiante un ambiente interactivo, utilizando los recursos disponibles en Internet, de tal forma que los casos planteados los desarrolle en ambientes de aprendizaje que le permitan encontrarse con el conocimiento, “manipularlo”, hacerlo suyo. Con esta filosofía se utilizan applets, sitios de internet con acceso a bases de datos reales, software de uso libre y en general los recursos de la Web 2.0, que se refieren a una segunda generación en la historia de la Web basada en comunidades de usuarios, que fomentan la colaboración y el intercambio ágil de información entre los mismos.

Nuestro reconocimiento a la Dirección General de Asuntos del Personal Académico de nuestra Casa de Estudios, que a través del Programa de Apoyo a Proyectos para la Innovación y Mejoramiento de la Enseñanza (PAPIME) ha apoyado nuestro proyecto “Implantación de un Laboratorio Virtual de Estadística y Elaboración de las Guías de Estudio con Soporte Multimedia” clave PE302709.

Los Autores

PRESENTACIÓN

Facultad de Estudios Superiores Cuautitlán

REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE

Es común que las personas tomen decisiones personales y profesionales basadas en predicciones de sucesos futuros. Para hacer estos pronósticos, se basan en la relación intuitiva y calculada entre lo que ya se sabe y lo que se debe estimar. Si los responsables de la toma de decisiones pueden determinar cómo lo conocido se relaciona con un evento futuro, pueden ayudar considerablemente al proceso de toma de decisiones.

Cualquier método estadístico que busque establecer una ecuación que permita estimar el valor desconocido de una variable a partir del valor conocido de una o más variables, se denomina análisis de regresión.

Los análisis de regresión y correlación mostrarán como determinar la naturaleza y la fuerza de una relación entre dos variables.

El término regresión fue utilizado por primera vez por el genetista y estadístico inglés Francis Galton (1822-1911) en 1877 Galton efectúo un estudio que demostró que la altura d los hijos de padres altos tendía a retroceder, o “regresar”, hacia la talla media de la población. Regresión fue el nombre que le dio al proceso general de predecir una variable,(la talla de los niños) a partir de otra (la talla de los padres).

Hoy en día, esta tendencia de miembros de cualquier población que están en una posición extrema (arriba o debajo de la media poblacional) en un momento, y luego en una posición menos extrema en otro momento, (ya sea por sí o por medio de sus descendientes), se llama efecto de regresión.

El análisis de regresión se desarrolla una ecuación de estimación, es decir, una formula matemática que relaciona las variables conocidas con las desconocidas. Luego de obtener el patrón de dicha relación, se aplica el análisis de correlación para determinar el grado de relación que hay entre las variables.

Facultad de Estudios Superiores Cuautitlán

VARIABLE INDEPENDIENTE (X)

En el análisis de regresión una variable cuyo valor se suponga conocido y que se utilice para explicar o predecir el valor de otra variable de interés se llama variable independiente ; se simboliza con la letra X.

Otros nombres alternativos para la variable independiente (X), son variable explicatoria, variable predictora y en ocasiones variable regresora.

VARIABLE DEPENDIENTE (Y)

En el análisis de regresión una variable cuyo valor se suponga desconocido y que se explique o prediga con ayuda de otra se llama variable dependiente y se simboliza con la letra Y.

La variable dependiente, al igual que la variable independiente es llamada de diferentes maneras algunas de ellas son: variable explicada o variable pronosticada.

Facultad de Estudios Superiores Cuautitlán

DIAGRAMAS DE DISPERSIÓN

Un diagrama de dispersión es una ilustración gráfica que se usa en el análisis de regresión. Consta de una dispersión de puntos tal que cada punto representa un valor de la variable independiente (medido a lo largo del eje horizontal), y un valor asociado de la variable dependiente (medido a lo largo del eje vertical).

El diagrama de dispersión, también llamado nube de puntos, brinda dos tipos de información, visualmente se pueden determinar los patrones que indican como las variables están relacionadas (lineal o mediante una curva) y por otro lado si existe una relación entre ellas visualizando la clase de línea o ecuación de estimación que describe a dicha relación.

A continuación se ilustran algunas relaciones en los diagramas de dispersión:

Facultad de Estudios Superiores Cuautitlán

ERROR ESTANDAR DE ESTIMACIÓN

El siguiente proceso que se necesita en el análisis de la regresión lineal simple es cómo medir la confiabilidad de la ecuación de estimación que hemos desarrollado.

El error estándar de estimación mide la variabilidad o dispersión de los valores observados alrededor de la línea de regresión y se representa como S e. Su formula es la siguiente:

( ) ( ) 2

2

− • − •

∑ ∑ ∑ n

y a y b xy S (^) e

Cuanto mayor sea el error estándar de la estimación, más grande será la dispersión (o esparcimiento) de puntos alrededor de la línea de regresión. Por el contrario, si S e = 0, se espera que la ecuación de estimación sea un estimador “perfecto” de la variable dependiente, en este caso todos los puntos caerían directamente sobre la línea de regresión y no habría puntos dispersos, como se muestra en la siguiente figura:

El error estándar de estimación tiene la misma aplicación que de la desviación estándar que se vio en los temas anteriores. Esto es, suponiendo que los puntos observados tienen una distribución normal alrededor de la recta de regresión, podemos esperar que:

Facultad de Estudios Superiores Cuautitlán

  • 68% de los puntos están dentro de ± 1se
  • 95.5% de los puntos están dentro de ± 2 se
  • 99.7% de los puntos están dentro de ± 3 se

El error estándar de la estimación se mide a lo largo del eje “Y”, y no perpendicularmente desde la recta de regresión.

Las suposiciones son:

  1. Los valores observados para Y tienen distribución normal alrededor

de cada valor estimado de y ˆ

  1. La varianza de las distribuciones alrededor de cada valor posible de y ˆ es la misma.

Si esta segunda suposición no fuera cierta, entonces el error estándar en un punto de la recta de regresión podría diferir del error estándar en otro punto.

PROCEDIMIENTO PARA REALIZAR UN ANÁLISIS DE REGRESIÓN LINEAL

SIMPLE

  1. Obtención de los datos muestrales.

Facultad de Estudios Superiores Cuautitlán

  1. Se obtiene la ecuación que mejor se ajusta a la información obtenida.

y ˆ = a + bx

  1. Se traza la línea estimada en el diagrama de dispersión.
  2. Se calcula el error estándar de estimación.

( ) ( ) 2

2

− • − • = ∑^ ∑ ∑ n

y a y b xy S (^) e

Por ejemplo:

Una cadena de Pizzerías toma una muestra de diez de sus sucursales para tratar de encontrar un modelo matemático que le permita predecir sus ventas y obtuvo los siguientes datos: la población de personas en miles fue de 2, 6, 8, 8, 12, 16, 20, 20, 22, 26; y las ventas trimestrales en miles de pesos fue de: 58, 105, 88, 118, 117, 137, 157, 169, 169, 149, 202.

 Realice una regresión para estimar las ventas de dos sucursales que tienen 14,000 y 30,000 personas como potenciales clientes respectivamente.

Solución

Datos n=

Facultad de Estudios Superiores Cuautitlán

X: Población de personas en miles Y: Ventas trimestrales en miles de pesos

  1. Tabular los datos obtenidos: Sucursal X Y 1 2 58 2 6 105 3 8 88 4 8 118 5 12 117 6 16 137 7 20 157 8 20 168 9 22 149 10 26 202
  2. Graficar los datos en un diagrama de dispersión y determinar la posible relación entre las variables X Y.

Se puede observar una relación lineal directa.

Facultad de Estudios Superiores Cuautitlán

  1. Trazar la línea estimada.
  2. Calcular el error estándar de estimación.

( ) ( )

  1. 21 10 2

Se =

Tiene un error de estimación de 12,210 pesos.

 Para una N = 14,000^1

ˆ^60514130 ∴

y = + =

 Para una N = 30,

( ) ( 30 , 210 )

ˆ 60 530 210 ∴

y = + =

(^1) Recuerda que estamos trabajando con miles de pesos, en este ejercicio.

Facultad de Estudios Superiores Cuautitlán

CORRELACIÓN SIMPLE

Mientras que el análisis de regresión simple establece una ecuación precisa que enlaza dos variables, el análisis de correlación es la herramienta estadística que podemos usar para describir el grado o fuerza en el que una variable esta linealmente relacionada con otra.

Dependiendo del tamaño de esta medida cuantitativa se puede decir, que tan cercanamente se mueven dos variables, y por lo tanto, con cuanta confiabilidad se puede estimar una variable con ayuda de la otra.

Una técnica estadística que establece un índice que proporciona, en un solo número, una medida de la fuerza de asociación entre dos variables de interés, se llama análisis de correlación simple.

El análisis de correlación es la herramienta estadística de que nos valemos para describir el grado de relación que hay entre dos variables.

A menudo el análisis de correlación simple se utiliza junto con el análisis de regresión lineal simple para medir la eficacia con que la línea de regresión explica la variación de la variable dependiente, Y.

Diagramas de dispersión con correlación débil y fuerte.

Existen dos medidas para describir la correlación entre dos variables: el coeficiente de determinación y el coeficiente de correlación.

Facultad de Estudios Superiores Cuautitlán

El siguiente esquema representa adecuadamente la intensidad y la dirección del coeficiente de correlación muestral.

 El calculo del coeficiente de correlación muestral se lleva a cavo con la siguiente formula:

r = r

INTERVALO DE CONFIANZA

Debido a que la recta estimada de regresión, no es del todo real, es necesario elaborar un intervalo de confianza que le de seguridad a nuestros cálculos.

Como se ha visto, cuando se utilice el método de mínimos cuadrados, los coeficientes de regresión, a y b son estimadores insesgados, eficientes y consistentes de α y β, también aquí es muchas ocasiones es deseable establecer intervalos de confianza.

 Los intervalos de confianza se calculan con la siguiente fórmula:

n

S

y c y ˆ t α/ 2 , gln 2 e

Facultad de Estudios Superiores Cuautitlán

INTERVALO DE PREDICCIÓN

El intervalo de predicción, como su nombre lo indica, se utiliza para predecir un intervalo de valores de Y, dado un valor de X.

 El intervalo de predicción se calcula con la siguiente fórmula:

( ( )) (^ ) ∑ −^ ( )

= ± − • • + + − 2 2

2 2 2 1 1 ˆ x nx

X x n

y (^) p y t α n Se

PROCEDIMIENTO PARA REALIZAR UN ANÁLISIS DE CORRELACIÓN LINEAL

SIMPLE

  1. Obtención y tabulación de los datos muestrales.
  2. La información se gráfica en un diagrama de dispersión.
  3. Calcular la pendiente y ordenada al origen.
  4. Se obtiene la ecuación que mejor se ajusta a la información obtenida.
  5. Se traza la línea estimada en el diagrama de dispersión.
  6. Calcular el error estándar de estimación.
  7. Calcular el coeficiente de determinación.
  8. Determinar el coeficiente de correlación.
  9. Determinar el intervalo de confianza.
  10. Determinar el intervalo de predicción.

Facultad de Estudios Superiores Cuautitlán

  1. Realizar los cálculos correspondientes y determinar la pendiente y ordenada al origen.

Vendedor X Y XY X 2 Y^2 1 1 80 80 1 6400 2 3 97 291 9 9409 3 4 92 368 16 8464 4 4 102 408 16 10404 5 6 103 618 36 10609 6 8 111 888 64 12321 7 10 119 1190 100 14161 8 10 123 1230 100 15129 9 11 117 1287 121 13689 10 13 136 1768 169 18496 ∑= 70 1080 8128 632 119082

( )( ) ( )

108 4 ( ) 7 80

4 632 107

8128 107 108

7 10

70

108 10

1080

2

= − =

= −

= =

= =

a

b

x

y

  1. Ecuación que mejor se ajusta.

y ˆ = 80 + 4 ( ) x

 Para un vendedor con 7 años de experiencia, sus ventas estimadas serían:

y ˆ = 80 + 4 ( ) 7 = 108 ventasanuales

Facultad de Estudios Superiores Cuautitlán

  1. Trazo de la línea estimada en el diagrama de dispersión
    1. Calcular el error estándar de estimación.

( ) ( )

  1. 61 10 2

Se =

  1. Calcular el Coeficiente de Determinación.

( ) ( ) ( ) ( )

  1. 03 %

119082 10 108

80 1080 4 8128 10 108

2

2

2 2

=

= − ×

× + × − ×

r

r

El 93% de las ventas anuales se deben a la experiencia de los vendedores y el 7% restante de debe a otros factores.

  1. Calcular el Coeficiente de Correlación

r = 0. 9303 = 0. 9645

Este número nos indica que las variables X Y tienen una correlación positiva intensa.