Prepara tus exámenes
Consigue puntos
Orientación Universidad

Vende en Docsity

Inicia sesión Regístrate

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Orientación Universidad

Vende en Docsity

Inicia sesión Regístrate

Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity

Busca documentos

Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity

Busca documentos en el Store

Los mejores documentos en venta realizados por estudiantes que han terminado sus estudios

Video Cursos

Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades

Quiz

Responde a preguntas de exámenes reales y pon a prueba tu preparación

Busca entre todos los recursos para el estudio

Docsity AINEW

Resume tus documentos, hazles preguntas, conviértelos en quiz y mapas conceptuales

Ver preguntas

Despeja tus dudas leyendo las respuestas a las preguntas que realizaron otros estudiantes como tú

Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium

Compartir documentos

20 Puntos

Por cada documento subido

Responde a las preguntas

5 Puntos

por cada respuesta dada (máx. 1 al día)

Todos los modos para conseguir puntos gratis

Consigue puntos de inmediato

Elige un plan Premium con todos los puntos que necesitas.

Oportunidades de estudio

Elige tu próximo programa de estudio

Ponte en contacto inmediatamente con las mejores universidades del mundo. Busca entre miles de universidades en todo el mundo. Busca entre miles de universidades partner oficiales

Comunidad

Pregúntale a la comunidad

Pide ayuda a la comunidad y resuelve tus dudas de estudio

Ranking de las universidades

Descubre las mejores universidades de tu país según los usuarios de Docsity

Ebooks gratuitos

¡Nuestros e-books salva-estudiantes!

Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity

Del blog

Actualidad

Becas y ayuda

Ve al blog

BIG-DATA-Evidencia-1-Grupo-9-01J-Ayma-AquinoAcevedoMariñasVislao., Ejercicios de Contabilidad

Instituto de Formación Bancaria - IFB CERTUS Contabilidad

BIG-DATA-Evidencia-1-Grupo-9-01J-Ayma-AquinoAcevedoMariñasVislao.

Tipo: Ejercicios

2021/2022

En oferta

~~30 Puntos~~

Oferta a tiempo limitado

Subido el 04/06/2022

ximena-ayma 🇵🇪

(2)

3 documentos

1 / 24

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

“Trabajo de investigación sobre el Uso de los Datos en Big Data y las herramientas más

principales”

Ayma Margod, Aquino Madeline, Acevedo Kinner, Mariñas Nancy, Vislao Daira y Lazo

William

Instituto Superior Tecnológico Certus

10023 – Big Data Aplicada a los Negocios

Juan Kevin Masquez Jiménez

20 de abril de 2022

En oferta

Documentos relacionados

BIG-DATA-Evidencia-1-Grupo-9-01J-Ayma-AquinoAcevedoMariñasVislao-y-Lazo

Innovando en la salud - Prof. Eduardo

Vista previa parcial del texto

¡Descarga BIG-DATA-Evidencia-1-Grupo-9-01J-Ayma-AquinoAcevedoMariñasVislao. y más Ejercicios en PDF de Contabilidad solo en Docsity!

“Trabajo de investigación sobre el Uso de los Datos en Big Data y las herramientas más principales” Ayma Margod, Aquino Madeline, Acevedo Kinner, Mariñas Nancy, Vislao Daira y Lazo William Instituto Superior Tecnológico Certus 10023 – Big Data Aplicada a los Negocios Juan Kevin Masquez Jiménez 20 de abril de 2022

INDICE DE CONTENIDO

1. Introducción.................................................................................................................................
1. Marco teórico:..............................................................................................................................
1. Beneficios de usar etl pipelines....................................................................................................
1. Características etl pipelines..........................................................................................................
1. Descripción general de las herramientas......................................................................................
1. Usos de las herramientas de Big Data..........................................................................................
1. Comparativa de las herramientas de Big Data...........................................................................
1. Ventajas y desventajas de las herramientas de Big Data...........................................................
1. Diferencias entre las herramientas del Big Data........................................................................
1. Beneficios de las herramientas del Big Data:..........................................................................
1. Conclusiones............................................................................................................................
1. Referencias bibliográficas........................................................................................................
1. Introducción................................................................................................................................. ÍNDICE DE TABLAS
1. Marco teórico:..............................................................................................................................
1. Beneficios de usar etl pipelines....................................................................................................
1. Características etl pipelines..........................................................................................................
1. Descripción general de las herramientas......................................................................................
1. Usos de las herramientas de Big Data..........................................................................................

Estas herramientas se implementan en programas y aplicaciones grandes ya que de alguna manera será mucho más fácil observar y encontrar una solución al problema. En los siguientes párrafos detallaremos un poco más sobre la utilidad, funcionalidad y desarrollo que tienen estas herramientas.

2. Marco teórico:

El Data Pipeline, entender el ciclo con el que trabaja nos permitirá dividir el proceso en una serie de pasos y acciones, cada uno con su complejidad correspondiente, este nos permitirá secuenciar, programar y cargar (ETL). La metodología que se debe seguir es: a) Buscar información : “Mientras la fase de definición del problema te sugiere qué datos necesitarás, buscar estos datos es otro paso, con mucha o poca dificultad, dependiendo del problema. Hay muchas herramientas y técnicas para hacer eso: desde una simple pregunta en tus redes sociales, hasta usar herramientas como un buscador, portales de datos abiertos o una solicitud de acceso a la información pidiendo datos que están disponibles en esa institución del gobierno”. (Hewlett William, 2018).

b) Extraer: “Tener datos sin procesar de una fuente (como una base de datos, un archivo XML o una plataforma en la nube que contiene datos para sistemas como herramientas de marketing, sistemas CRM o sistemas transaccionales)”. (Vecchione Bob, 2020). c) Limpiarla: “Es muy común que los datos que se obtienen y validan estén en desorden y tengan problemas de formato: filas duplicadas, nombres de columna que no combinan con los registros, valores que contienen caracteres raros o que impiden el procesamiento de la computadora y otros más. En este paso, necesitamos habilidades y herramientas que nos permitan tener los datos en un formato legible para analizarlo por computadora”. (Hewlett Wiliam, 2018). d) Verificarla: “Obtener los datos no significa que el problema está resuelto. Es necesario verificar si su información es válida, así como revisar los metadatos y la metodología con la que se recolectó este conjunto de información. Es importante también conocer quién organizó este conjunto de datos y si es una fuente con credibilidad en el tema y en la técnica de recolección”. (Cárdenas Luis, 2018) e) Analizarla: “Convertir el formato o la estructura del conjunto de datos para que coincida con el del sistema de destino”. (Vecchione Bob, 2020).

Liberando a los desarrolladores de las tareas de implementación técnica para el movimiento y mantenimiento de datos, lo que les permite concentrarse en un trabajo más útil. Migración de datos de sistemas heredados a un almacén de datos. Análisis más profundos después de agotar los conocimientos proporcionados por la transformación básica.

4. Características etl pipelines

El cambio empresarial a los servicios de software creados en la nube combinado con canalizaciones ETL mejoradas ofrece a las organizaciones el potencial para simplificar su procesamiento de datos. Las empresas que actualmente dependen del procesamiento por lotes ahora pueden implementar metodologías de procesamiento continuo sin interrumpir sus procesos actuales. En lugar de la costosa extracción y reemplazo, la implementación puede ser incremental y evolutiva, comenzando con ciertos tipos de datos o áreas del negocio. Permiten a las empresas obtener una ventaja competitiva al momento de tomar decisiones, para que esto tenga buenos resultados debe cumplir una serie de requisitos.  Proporcione un procesamiento de datos continuo  Ser elástico y ágil.  Utilice recursos de procesamiento aislados e independientes  Aumentar el acceso a los datos  Ser fácil de configurar y mantener

5. Descripción general de las herramientas

Que mejor manera de entender las herramientas del Big Data, teniendo una visión distinta con cada concepto que nos brindan los especialistas. Ellos se juntaron y mediante la página Afies, escuela de finanza podemos tener esta información.  PYTHON: “ Es uno de los lenguajes avanzados de programación más conocidos y utilizados en la actualidad. Esto se debe a que su usabilidad es bastante sencilla con respecto a otros lenguajes de programación”. (Manchón Pilar, 2020).  SCALA: “ Scala es un lenguaje de programación multi-paradigma diseñado para expresar patrones comunes de programación en forma concisa, elegante y con tipos seguros”. (Hidalgo Cesar, 2020).  APACHE SPARK: “ Es uno de los motores de procesamiento de datos más rápido del mercado. Al igual que las anteriores herramientas Big Data, también dispone de una licencia de código abierto, lo que permite que esté en constante mejor y ofrezca soluciones creadas por los propios usuarios de Spark.” (Peña Nonny, 2020)  HADDOP: “Es considerada como el framework estándar para el almacenamiento de grandes volúmenes de datos. Además, esta herramienta se utiliza para analizar y procesar datos. (Cerriteño Alberto, 2020).  ELASTICSEARCH: “ Elasticsearch es una de las herramientas Big Data más potentes para la búsqueda de grandes cantidades de datos. Además, se trata de un

b) IBM c) Adobe d) Salesforce  HADOOP: a) Amazon b) Facebook c) Yahoo d) Microsoft  ELASTICSEARCH: a) Wikipedia b) Foursquare c) Github  MONGODB a) Foursquare b) LinkedIn c) Orange d) Telefónica

7. Comparativa de las herramientas de

Big Data

Tabla 1

Comparaciones de las Herramientas Utilizadas en la Fase de Entendimiento de Negocio Hadoop Phyton Cuenta con un flexible, debido a que los datos almacenados no son procesados previamente, dando paso al almacenamiento de todo tipo de datos. Su lenguaje de programación es versátil multiplataforma y multiparadigma, destacando por contar con un código legible y limpio. Es una estructura de bajo coste, ya que es gratuita y de código abierto. Al ser un lenguaje de programación de código abierto, cualquier usuario puede crear y contribuir para su desarrollo. Tabla 2

(datos recolectados a partir de transacciones). reduce. Puede manejar datos estructurados, semiestructurados, no estructurados, sin embargo, no puede manejar imágenes. Cuenta con el manejo de cualquier tipo de dato ya sea estructurado, semiestructurado, no estructurado o imágenes. Los nodos tienen el mismo valor, entonces si algún nodo presenta un fallo, los demás pueden manejar el problema. En caso de algún fallo, Hadoop es muy vulnerable, debido a que, si el nodo maestro sale mal, habrá un fallo total. Tabla 4 Comparación de las Herramientas Utilizadas en las Fases de Modelamiento y Evaluación Power BI Lenguaje R Es una herramienta que puede unificar más de 65 fuentes de datos diferentes en la nube. Es un lenguaje de programación interpretado, ejecutando instrucciones sin necesidad de un programa. Produce una vista de datos trascendente, así también, permite visualizar el estado de los datos a través de paneles dinámicos e informes interactivos. Contiene una amplia variedad de técnica de estadística (modelos lineales y no lineales, pruebas estadísticas clásicas, análisis de series de tiempo, clasificación, agrupamiento, etc.) y gráficas. Se puede editar y compartir la información que brinda la herramienta en base a los informes que analiza. Los usuarios no programan propiamente, en realidad la herramienta puede ensayar, equivocarse y volver a probar, hasta que

el resultado sea satisfactorio. Tabla 5 Comparación de las Herramientas Utilizadas en la Fase Interpretación Hadoop Elasticsearch Al basarse en la tecnología NoSQL, tiene una mejor facilidad al Argar datos de cualquier formato – valor. Se recomienda que los datos si estén en un formato clave – valor genérico antes que sean cargados. Se usa una variedad limitada de lenguajes de programación. Cuenta con una gran variedad de lenguajes de programación como: Ruby, Lua,Go, etc. Puede controlar una carga masiva. Cuenta con un límite de búfer, el búfer es un espacio de memoria donde se pueden almacenar datos de manera temporal. La configuración se basa al entorno de producción, que es sencilla y ampliable. A comparación de Hadoop, se tiene que cambiar una gran variedad de configuraciones, además de pasar por un método de éxito y prueba.

8. Ventajas y desventajas de las herramientas de Big Data

Tabla 6

clasificación y el agrupamiento de los datos, facilitando así su posterior interpretación.  Los diversos operadores permiten realizar cálculos con matrices más rápidamente.  Su uso es gratuito. Solo es necesario descargarse el programa en su web oficial. incompatibilidad Tabla 8 Ventajas y desventajas de la herramienta de Big Data: Hadoop HADOOP VENTAJAS DESVENTAJAS  Capacidad para almacenar y procesar grandes cantidades de cualquier tipo de datos al instante.  Poder de cómputo que permite procesar Big Data a gran velocidad.  Tolerancia a los fallos del hardware. Es decir, si falla un nodo los trabajos son redirigidos a otros modos para asegurarse de que no falle el  No es adecuado para el acceso a datos de baja latencia.  No puede almacenar una gran cantidad de archivos pequeños de manera eficiente.  No admite la escritura multiusuario y la modificación arbitraria de archivos.

procesamiento.  Almacenamiento de copias de forma automática.  Flexibilidad en el almacenamiento y procesamiento de datos. Tabla 9 Ventajas y desventajas de la herramienta de Big Data: Apache APACHE VENTAJAS DESVENTAJAS  Software estable y confiable.  Código abierto y gratuito, incluso para uso comercial.  Parches de seguridad actualizados regularmente.  Estructura basada en módulos.  Configuración apta para principiantes.  Servidor multiplataforma, compatible con Unix y Windows.  Problemas de rendimiento  Pueden generar vulnerabilidades de seguridad.

 Tiene una gran documentación.  Es un complemento perfecto para JavaScript.  No tiene Joins para consultas.

9. Diferencias entre las herramientas del Big Data

Tabla 12 Similitudes y diferencias de la herramienta de Big Data: Apache Spark VS Hadoop APACHE SPARK Vs HADOOP SIMILITUDES DIFERENCIAS  Ambos son frameworks para el procesamiento de Big Data que tienen arquitectura.  Son escalables y tolerantes a fallos.  Spark es mucho más rápido que hadoop.  Los apis de spark son más sencillas de entender.  Spark dispone de componentes específicos. Tabla 13 Similitudes y diferencias de la herramienta de Big Data: Elasticsearch VS Mongodb ELASTICSEARCH VS.MONGODB SIMILITUDES DIFERENCIAS  Mongodb, tiene como propósito general la base de datos.  Elasticsearch, es un motor de  Elasticsearch no tiene concepto de transiciones.  El modelo de base de datos es el

búsqueda de textos. almacén de documentos de Mongodb.  Elasticsearch implementa Java  Mongodb implementa el lenguaje de C++ Tabla 14 Similitudes y diferencias de la herramienta de Big Data: Python VS Lenguaje R PYTHON Y LENGUAJE R SIMILITUDES DIFERENCIAS  Son flexibles, gratuitos y tienen códigos abiertos.  Permite grandes conjuntos de datos.  Crea visualizaciones de datos amplios.  Lenguaje R, se usa principalmente para análisis estadísticos.  Python, es un lenguaje de programación con un propósito general.  Lenguaje R, es un poco más complicado de aprender ya que es más amplio. Tabla 15 Similitudes y diferencias de la herramienta de Big Data: Mongodb VS Hadoop MONGODB VS. HADOOP SIMILITUDES DIFERENCIAS  MongoDB es más flexible  Hadoop, es un proyecto de código