Big Data es un término que describe el gran volumen de datos, tanto estructurados como no estructurados, que son tan rápidos y complejos que es difícil o imposible procesarlos con los métodos tradicionales. Su importancia no gira en torno a la cantidad de datos que una organización tiene, sino en su uso intensivo para identificar nuevas oportunidades de negocio y tomar las decisiones empresariales más acertadas.
Pre-requisitos: Conocimientos básicos de Python, SQL y Linux.
Objetivo General: Desarrollar habilidades tecnológicas para el manejo de soluciones de Big Data que permitan almacenar, procesar y analizar grandes volúmenes de datos, tanto estructurados como no estructurados.
Objetivos Específicos:
- Aprender los conceptos introductorios de Big Data y su impacto en las organizaciones.
- Aprender a utilizar Apache Hadoop como almacenamiento distribuido en Big Data.
- Aprender a utilizar Apache Spark como motor de procesamiento en un ecosistema de Big Data.
- Conocer la tecnología necesaria para el desarrollo de datalakes
- Revisar las tecnologías de cloud computing que existen para implementar soluciones de Big Data.
- Mostrar casos de usos reales en donde puede aplicar Big Data.
Resumen del contenido:
- Introducción al Big Data.
- Almacenamiento distribuido con Apache Hadoop 1.
- Almacenamiento distribuido con Apache Hadoop 2.
- Procesamiento distribuido con Apache spark.
- Patrones de acceso en Data lake.
- Procesamiento de datos en real time.
- Big data en Cloud.
- Proyecto integrador.