
















Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Los mejores documentos en venta realizados por estudiantes que han terminado sus estudios
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Descubre las mejores universidades de tu país según los usuarios de Docsity
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
BIG-DATA-Evidencia-1-Grupo-9-01J-Ayma-AquinoAcevedoMariñasVislao.
Tipo: Ejercicios
1 / 24
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!
En oferta
“Trabajo de investigación sobre el Uso de los Datos en Big Data y las herramientas más principales” Ayma Margod, Aquino Madeline, Acevedo Kinner, Mariñas Nancy, Vislao Daira y Lazo William Instituto Superior Tecnológico Certus 10023 – Big Data Aplicada a los Negocios Juan Kevin Masquez Jiménez 20 de abril de 2022
Estas herramientas se implementan en programas y aplicaciones grandes ya que de alguna manera será mucho más fácil observar y encontrar una solución al problema. En los siguientes párrafos detallaremos un poco más sobre la utilidad, funcionalidad y desarrollo que tienen estas herramientas.
El Data Pipeline, entender el ciclo con el que trabaja nos permitirá dividir el proceso en una serie de pasos y acciones, cada uno con su complejidad correspondiente, este nos permitirá secuenciar, programar y cargar (ETL). La metodología que se debe seguir es: a) Buscar información : “Mientras la fase de definición del problema te sugiere qué datos necesitarás, buscar estos datos es otro paso, con mucha o poca dificultad, dependiendo del problema. Hay muchas herramientas y técnicas para hacer eso: desde una simple pregunta en tus redes sociales, hasta usar herramientas como un buscador, portales de datos abiertos o una solicitud de acceso a la información pidiendo datos que están disponibles en esa institución del gobierno”. (Hewlett William, 2018).
b) Extraer: “Tener datos sin procesar de una fuente (como una base de datos, un archivo XML o una plataforma en la nube que contiene datos para sistemas como herramientas de marketing, sistemas CRM o sistemas transaccionales)”. (Vecchione Bob, 2020). c) Limpiarla: “Es muy común que los datos que se obtienen y validan estén en desorden y tengan problemas de formato: filas duplicadas, nombres de columna que no combinan con los registros, valores que contienen caracteres raros o que impiden el procesamiento de la computadora y otros más. En este paso, necesitamos habilidades y herramientas que nos permitan tener los datos en un formato legible para analizarlo por computadora”. (Hewlett Wiliam, 2018). d) Verificarla: “Obtener los datos no significa que el problema está resuelto. Es necesario verificar si su información es válida, así como revisar los metadatos y la metodología con la que se recolectó este conjunto de información. Es importante también conocer quién organizó este conjunto de datos y si es una fuente con credibilidad en el tema y en la técnica de recolección”. (Cárdenas Luis, 2018) e) Analizarla: “Convertir el formato o la estructura del conjunto de datos para que coincida con el del sistema de destino”. (Vecchione Bob, 2020).
Liberando a los desarrolladores de las tareas de implementación técnica para el movimiento y mantenimiento de datos, lo que les permite concentrarse en un trabajo más útil. Migración de datos de sistemas heredados a un almacén de datos. Análisis más profundos después de agotar los conocimientos proporcionados por la transformación básica.
El cambio empresarial a los servicios de software creados en la nube combinado con canalizaciones ETL mejoradas ofrece a las organizaciones el potencial para simplificar su procesamiento de datos. Las empresas que actualmente dependen del procesamiento por lotes ahora pueden implementar metodologías de procesamiento continuo sin interrumpir sus procesos actuales. En lugar de la costosa extracción y reemplazo, la implementación puede ser incremental y evolutiva, comenzando con ciertos tipos de datos o áreas del negocio. Permiten a las empresas obtener una ventaja competitiva al momento de tomar decisiones, para que esto tenga buenos resultados debe cumplir una serie de requisitos. Proporcione un procesamiento de datos continuo Ser elástico y ágil. Utilice recursos de procesamiento aislados e independientes Aumentar el acceso a los datos Ser fácil de configurar y mantener
Que mejor manera de entender las herramientas del Big Data, teniendo una visión distinta con cada concepto que nos brindan los especialistas. Ellos se juntaron y mediante la página Afies, escuela de finanza podemos tener esta información. PYTHON: “ Es uno de los lenguajes avanzados de programación más conocidos y utilizados en la actualidad. Esto se debe a que su usabilidad es bastante sencilla con respecto a otros lenguajes de programación”. (Manchón Pilar, 2020). SCALA: “ Scala es un lenguaje de programación multi-paradigma diseñado para expresar patrones comunes de programación en forma concisa, elegante y con tipos seguros”. (Hidalgo Cesar, 2020). APACHE SPARK: “ Es uno de los motores de procesamiento de datos más rápido del mercado. Al igual que las anteriores herramientas Big Data, también dispone de una licencia de código abierto, lo que permite que esté en constante mejor y ofrezca soluciones creadas por los propios usuarios de Spark.” (Peña Nonny, 2020) HADDOP: “Es considerada como el framework estándar para el almacenamiento de grandes volúmenes de datos. Además, esta herramienta se utiliza para analizar y procesar datos. (Cerriteño Alberto, 2020). ELASTICSEARCH: “ Elasticsearch es una de las herramientas Big Data más potentes para la búsqueda de grandes cantidades de datos. Además, se trata de un
b) IBM c) Adobe d) Salesforce HADOOP: a) Amazon b) Facebook c) Yahoo d) Microsoft ELASTICSEARCH: a) Wikipedia b) Foursquare c) Github MONGODB a) Foursquare b) LinkedIn c) Orange d) Telefónica
Tabla 1
Comparaciones de las Herramientas Utilizadas en la Fase de Entendimiento de Negocio Hadoop Phyton Cuenta con un flexible, debido a que los datos almacenados no son procesados previamente, dando paso al almacenamiento de todo tipo de datos. Su lenguaje de programación es versátil multiplataforma y multiparadigma, destacando por contar con un código legible y limpio. Es una estructura de bajo coste, ya que es gratuita y de código abierto. Al ser un lenguaje de programación de código abierto, cualquier usuario puede crear y contribuir para su desarrollo. Tabla 2
(datos recolectados a partir de transacciones). reduce. Puede manejar datos estructurados, semiestructurados, no estructurados, sin embargo, no puede manejar imágenes. Cuenta con el manejo de cualquier tipo de dato ya sea estructurado, semiestructurado, no estructurado o imágenes. Los nodos tienen el mismo valor, entonces si algún nodo presenta un fallo, los demás pueden manejar el problema. En caso de algún fallo, Hadoop es muy vulnerable, debido a que, si el nodo maestro sale mal, habrá un fallo total. Tabla 4 Comparación de las Herramientas Utilizadas en las Fases de Modelamiento y Evaluación Power BI Lenguaje R Es una herramienta que puede unificar más de 65 fuentes de datos diferentes en la nube. Es un lenguaje de programación interpretado, ejecutando instrucciones sin necesidad de un programa. Produce una vista de datos trascendente, así también, permite visualizar el estado de los datos a través de paneles dinámicos e informes interactivos. Contiene una amplia variedad de técnica de estadística (modelos lineales y no lineales, pruebas estadísticas clásicas, análisis de series de tiempo, clasificación, agrupamiento, etc.) y gráficas. Se puede editar y compartir la información que brinda la herramienta en base a los informes que analiza. Los usuarios no programan propiamente, en realidad la herramienta puede ensayar, equivocarse y volver a probar, hasta que
el resultado sea satisfactorio. Tabla 5 Comparación de las Herramientas Utilizadas en la Fase Interpretación Hadoop Elasticsearch Al basarse en la tecnología NoSQL, tiene una mejor facilidad al Argar datos de cualquier formato – valor. Se recomienda que los datos si estén en un formato clave – valor genérico antes que sean cargados. Se usa una variedad limitada de lenguajes de programación. Cuenta con una gran variedad de lenguajes de programación como: Ruby, Lua,Go, etc. Puede controlar una carga masiva. Cuenta con un límite de búfer, el búfer es un espacio de memoria donde se pueden almacenar datos de manera temporal. La configuración se basa al entorno de producción, que es sencilla y ampliable. A comparación de Hadoop, se tiene que cambiar una gran variedad de configuraciones, además de pasar por un método de éxito y prueba.
Tabla 6
clasificación y el agrupamiento de los datos, facilitando así su posterior interpretación. Los diversos operadores permiten realizar cálculos con matrices más rápidamente. Su uso es gratuito. Solo es necesario descargarse el programa en su web oficial. incompatibilidad Tabla 8 Ventajas y desventajas de la herramienta de Big Data: Hadoop HADOOP VENTAJAS DESVENTAJAS Capacidad para almacenar y procesar grandes cantidades de cualquier tipo de datos al instante. Poder de cómputo que permite procesar Big Data a gran velocidad. Tolerancia a los fallos del hardware. Es decir, si falla un nodo los trabajos son redirigidos a otros modos para asegurarse de que no falle el No es adecuado para el acceso a datos de baja latencia. No puede almacenar una gran cantidad de archivos pequeños de manera eficiente. No admite la escritura multiusuario y la modificación arbitraria de archivos.
procesamiento. Almacenamiento de copias de forma automática. Flexibilidad en el almacenamiento y procesamiento de datos. Tabla 9 Ventajas y desventajas de la herramienta de Big Data: Apache APACHE VENTAJAS DESVENTAJAS Software estable y confiable. Código abierto y gratuito, incluso para uso comercial. Parches de seguridad actualizados regularmente. Estructura basada en módulos. Configuración apta para principiantes. Servidor multiplataforma, compatible con Unix y Windows. Problemas de rendimiento Pueden generar vulnerabilidades de seguridad.
Tiene una gran documentación. Es un complemento perfecto para JavaScript. No tiene Joins para consultas.
Tabla 12 Similitudes y diferencias de la herramienta de Big Data: Apache Spark VS Hadoop APACHE SPARK Vs HADOOP SIMILITUDES DIFERENCIAS Ambos son frameworks para el procesamiento de Big Data que tienen arquitectura. Son escalables y tolerantes a fallos. Spark es mucho más rápido que hadoop. Los apis de spark son más sencillas de entender. Spark dispone de componentes específicos. Tabla 13 Similitudes y diferencias de la herramienta de Big Data: Elasticsearch VS Mongodb ELASTICSEARCH VS.MONGODB SIMILITUDES DIFERENCIAS Mongodb, tiene como propósito general la base de datos. Elasticsearch, es un motor de Elasticsearch no tiene concepto de transiciones. El modelo de base de datos es el
búsqueda de textos. almacén de documentos de Mongodb. Elasticsearch implementa Java Mongodb implementa el lenguaje de C++ Tabla 14 Similitudes y diferencias de la herramienta de Big Data: Python VS Lenguaje R PYTHON Y LENGUAJE R SIMILITUDES DIFERENCIAS Son flexibles, gratuitos y tienen códigos abiertos. Permite grandes conjuntos de datos. Crea visualizaciones de datos amplios. Lenguaje R, se usa principalmente para análisis estadísticos. Python, es un lenguaje de programación con un propósito general. Lenguaje R, es un poco más complicado de aprender ya que es más amplio. Tabla 15 Similitudes y diferencias de la herramienta de Big Data: Mongodb VS Hadoop MONGODB VS. HADOOP SIMILITUDES DIFERENCIAS MongoDB es más flexible Hadoop, es un proyecto de código