









Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Los mejores documentos en venta realizados por estudiantes que han terminado sus estudios
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Descubre las mejores universidades de tu país según los usuarios de Docsity
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Este documento abarca los principales conceptos y técnicas de la estadística descriptiva, incluyendo la recolección de datos, las propiedades de los datos numéricos (tendencia central, dispersión y forma), las medidas de tendencia central y dispersión para datos agrupados y no agrupados, las distribuciones de frecuencia, los gráficos como histogramas y polígonos de frecuencia, y las medidas de forma como la asimetría y curtosis. También se discute el manejo de grandes cantidades de datos y la minería de datos. Este material sería útil para estudiantes universitarios de cursos relacionados con estadística, análisis de datos y métodos de investigación.
Tipo: Apuntes
1 / 17
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!
INDICE. ➢ ¿Qué es la Estadística moderna? ¿Por qué estudiarla? ➢ Partes en que se divide la estadística moderna para su estudio ➢ El método científico en la Estadística ➢ Métodos para la obtención de datos ➢ ¿En qué consiste el principio “BEBS” (Basura Entra, Basura Sale) ➢ ¿Cómo recolectar datos? ➢ Tipos de datos estadísticos ➢ Propiedades que describen una serie numérica de datos ➢ Datos no agrupados, medidas de tendencia central Media aritmética, Media ponderada, Mediana, Moda ➢ Comparación entre la Media, Mediana y moda (ventajas y desventajas) ➢ Datos no agrupados, medidas de dispersión Rango, Varianza, Desviación estándar, Coeficiente de variación ➢ El manejo de grandes cantidades de datos ➢ Datos agrupados, medidas de tendencia central ➢ Datos agrupados, medidas de dispersión ➢ Datos agrupados, medidas de posición Cuantiles: Cuartiles, Deciles, Percentiles ➢ Las distribuciones de frecuencias, frecuencias relativas y de porcentajes ➢ Los histogramas, el polígono de frecuencias o de porcentajes y la curva de porcentaje acumulado u ojiva Importancia de la forma de los datos ➢ Importancia de la forma de los datos. Simétrica, asimétrica o sesgada ¿Cómo se ubican las medidas de tendencia central dependiendo de la forma? Uso de polígonos para comparar grupos datos Medidas de forma: Curtosis y asimetría ➢ Teorema de Chebyshev ➢ Gráficas para datos cualitativos ó categóricos ➢ Gráfica de barras y gráfica de pastel. ➢ Videos ➢ Mapa conceptual ➢ Bibliografías.
Los datos de características cualitativas son aquellos que no se pueden expresar numéricamente. Estos datos se deben convertir a valores numéricos antes de que se trabaje con ellos. Los datos de características cualitativas se clasifican en: 1 - Datos nominales: Comprenden categorías, como el sexo, carrera de estudio, material de los pisos, calificaciones, etc. Propiedades que describen una serie numérica de datos. Las tres mejores propiedades que describen una serie numérica son: 1 -. Tendencia Central. 2 -. Variación. 3 -. Forma. Propiedades que describen una serie numérica de datos. ROPIEDADES DE LOS DATOS NUMERICOS - 16 DE ABRIL DE 2010 - Las tres propiedades principales que describen un conjunto de datos numéricos son:
Media aritmética, Media ponderada, Mediana, Moda. La media es un concepto estadístico básico que representa en un valor las características que presenta una variable de un conjunto de datos, y sólo puede usarse con variables cuantitativas. La media puede considerarse un concepto base para la comprensión de variable aleatoria y sus distribuciones, ya que la distribución se caracteriza principalmente por las medidas de tendencia central y de dispersión, siendo frecuentemente la media uno de los parámetros de las distribuciones. (Estrella 2016) La media aritmética, o promedio aritmético, es la suma de los valores del grupo de datos dividida entre la cantidad de valores. Su fórmula se puede describir de la siguiente manera:
Una medida que intenta incorporar en una única cifra el rendimiento sobre la inversión prevista (medida como tipo medio de rendimiento) y el riesgo de la inversión (medido como la dedicación típica del tipo de rendimiento) el coeficiente de variación o CV se calcula como la desviación típica dividida por la media. El coeficiente de variación permite comparar la dispersión entre dos poblaciones distintas e incluso comparar la variación producto de dos variables diferentes (que pueden provenir de una misma población) El manejo de grandes cantidades de datos. El proceso de KDD se inicia con la identificación de los datos. Para ello hay que imaginar qué datos se necesitan, donde se pueden encontrar y como conseguirlos. Una vez que se dispone de datos, se deben seleccionar aquellos que sean útiles para los objetivos propuestos. Se preparan, poniéndolos en un formato adecuado. Una vez se tienen los datos adecuados se procede a la minería de datos, proceso en el que se seleccionaran las herramientas y técnicas adecuadas para lograr los objetivos pretendidos. Y tras este proceso llega el análisis de resultados, con lo que se obtiene el conocimiento pretendido. Minería de Datos es un término genérico que engloba resultados de investigación, técnicas y herramientas usadas para extraer información útil de grandes bases de datos. Si bien Minería de Datos es una parte del proceso completo de KDD, en buena parte de la literatura los términos Minería de Datos y KDD se identifican como si fueran lo mismo. Concretamente, el termino Minería de Datos es usado comúnmente por los estadísticos, analistas de datos, y por la comunidad de administradores de sistemas informáticos como todo el proceso del descubrimiento, mientras que el término KDD es utilizado más por los especialistas en Inteligencia Artificial. Medidas de tendencia central para datos agrupados
Para elaborar una distribución de frecuencia con estos datos, se cuenta el número de veces que aparece cada refresco en la tabla de arriba. La Coca cola clásica (Coke classic) aparece 19 veces, la Coca cola de dieta (Diet coke) 8 veces, Dr. Pepper 5 veces, Pepsi 13 veces y Sprite 5 veces. Esto queda resumido en la distribución de frecuencia en la siguiente tabla DISTRIBUCION DE FRECUENCIA DE LAS BENTAS DE REFRESCOS Refrescos Frecuencia
Esta distribución de frecuencia proporciona un resumen de cómo se distribuyen las 50 ventas entre los cinco refrescos. El resumen aporta más claridad que los datos originales que la primera tabla. Al observar esta distribución de frecuencia, es claro que la Coca cola clásica es el refresco que más se vende, Pepsi en el segundo, Coca cola de dieta en el tercero y Sprite y Dr. Pepper están empatados en el cuarto lugar. La distribución de frecuencia resume la información sobre la popularidad de los cinco refrescos. Datos agrupados, medidas de dispersión. Rango intercuartílico Una medida que no es afectada por los valores extremos es el rango intercuartílico (RIC). Es la medida de variabilidad es la diferencia entre el tercer cuartil Q3 y el primer cuartil Q1. En otras palabras, el rango intercuartílico es el rango en que se encuentra el 50% central de los datos.
Los histogramas, el polígono de frecuencias o de porcentajes y la curva de porcentaje acumulado u ojiva Importancia de la forma de los datos Histogramas Una presentación gráfica usual para datos cuantitativos es el histograma. Esta gráfica se hace con datos previamente resumidos mediante una distribución de frecuencia, de frecuencia relativa o de frecuencia porcentual. Un histograma se construye colocando la variable de interés en el eje horizontal y la frecuencia, la frecuencia relativa o la frecuencia porcentual en el eje vertical. La frecuencia, frecuencia relativa o frecuencia porcentual de cada clase se indica dibujando un rectángulo cuya base está determinada por los límites de clase sobre el eje horizontal y cuya altura es la frecuencia, la frecuencia relativa o la frecuencia porcentual correspondiente. Véase el ejemplo de la derecha es un histograma de las duraciones de las auditorías. Observe que la clase con mayor frecuencia se indica mediante el rectángulo que se encuentra sobre la clase 15 – 19 días. La altura del rectángulo muestra que la frecuencia de esta clase es 8.
Los histogramas, el polígono de frecuencias o de porcentajes y la curva de porcentaje acumulado u ojiva. Polígonos de Frecuencias Al igual que con los histogramas, al graficar polígonos el fenómeno de interés se despliega a lo largo del eje horizontal y el eje vertical representa el número, proporción o porcentaje de observaciones por intervalo de clase. Debido a que los puntos medios consecutivos son conectados por una serie de líneas rectas, el polígono algunas veces este dentado en apariencia. Sin embrago al tratar con una serie de datos muy grande, si tuviéramos que crear los límites de las clases en su distribución de frecuencia más juntos, las líneas dentadas del polígono se “suavizarían” Abajo polígono de porcentaje de colegiaturas de residentes fuera del estado en 60 escuelas de Texas. Curva de % acumulado u Ojiva La gráfica de una distribución acumulada, llamada ojiva, es una gráfica que muestra los valores de los datos en el eje horizontal y las frecuencias acumuladas, las frecuencias relativas acumuladas o las frecuencias porcentuales acumuladas en el eje vertical. Véase abajo ejemplo de una Ojiva.
Cuando sucede una distribución normal, se sabe que al menos un 68% de los datos es una desviación estándar de la media. Por otro lado, el 95% son dos desviaciones están de la media, y el 99% aproximadamente se encuentra dentro de las tres desviaciones estándar de la media. Sin embargo, si el conjunto de estos datos no se logra distribuir adecuadamente, en forma de curva de campana, entonces la cantidad diferente podría encontrarse dentro de una desviación estándar. El Teorema de Chebyshev es el encargado de explicar una manera de saber qué fracción de datos se encuentra dentro de las desviaciones estándar K de la media para cualquier conjunto de datos en específico. La desigualdad tambié n se puede emplear con la frase de ‘datos de una muestra’ cuando se encuentra en una distribución de probabilidad. Lo anterior ocurre porque la desigualdad de Chebyshev es el resultado de la probabilidad, que luego se aplica en la estadística.
Videos: https://www.youtube.com/watch?v=buKDQZG5phM https://www.youtube.com/watch?time_continue=2&v=lJT4- OmnPPY&feature=emb_logo Mapa conceptual.
Bibliografías. https://economipedia.com/definiciones/estadistica-descriptiva.html https://www.questionpro.com/blog/es/estadistica-descriptiva/ http://132.248.164.227/publicaciones/docs/apuntes_matematicas/34.%20Estadistica%20Descript iva.pdf http://www.economia.unam.mx/profesor/barajas/estadis/parte2.pdf