¿Qué es Apache Hadoop?

El software Apache Hadoop es un framework de código abierto que admite el almacenamiento y el procesamiento distribuidos de conjuntos de datos grandes en clústeres de computadoras que usan modelos de programación simples. Hadoop está diseñado para escalar verticalmente desde una computadora hasta miles de computadoras agrupadas en clústeres, y cada máquina ofrece procesamiento y almacenamiento local. De esta manera, Hadoop puede almacenar y procesar de manera eficiente conjuntos de datos grandes que varían en tamaño desde gigabytes hasta petabytes de datos.

Obtén más información para usar Dataproc a fin de ejecutar clústeres de Apache Hadoop en Google Cloud de una manera integrada, simple y rentable.

Descripción general de Apache Hadoop

El framework principal de Hadoop consta de cuatro módulos que funcionan en conjunto para formar el ecosistema de Hadoop:

Sistema de archivos distribuido de Hadoop (HDFS): Como componente principal del ecosistema de Hadoop, HDFS es un sistema de archivos distribuido que proporciona acceso de alta capacidad de procesamiento a datos de aplicaciones sin necesidad de definir esquemas con anterioridad.

Yet another resource negotiator (YARN): YARN es otra plataforma de administración de recursos que se encarga de administrar los recursos de procesamiento en clústeres y usarlos para programar las aplicaciones de los usuarios. Programa y asigna recursos en el sistema Hadoop.

MapReduce: Es un modelo de programación para el procesamiento de datos a gran escala. Mediante algoritmos de procesamiento distribuido y paralelo, MapReduce hace que sea posible ejecutar la lógica de procesamiento y ayuda a escribir aplicaciones que transforman conjuntos de datos grandes en conjuntos manejables.

Hadoop Common: Incluye las bibliotecas y las utilidades que usan y comparten otros módulos de Hadoop.

Todos los módulos de Hadoop están diseñados con la suposición fundamental de que las fallas de hardware de máquinas individuales o en bastidores son comunes y que el framework debe administrarlas de forma automática en el software. Originalmente, los componentes MapReduce y HDFS de Apache Hadoop se derivaron de los artículos de Google MapReduce y Google File System (GFS).

El ecosistema de código abierto de Hadoop continúa creciendo más allá de HDFS, YARN y MapReduce e incluye muchas herramientas y aplicaciones para ayudarte a recolectar, almacenar, procesar, analizar y administrar macrodatos. Entre estas se incluyen Apache Pig, Apache Hive, Apache HBase, Apache Spark, Presto y Apache Zeppelin.

¿Cuáles son los beneficios de Hadoop?

Tolerancia a errores

En el ecosistema de Hadoop, incluso si los nodos individuales experimentan una gran cantidad de errores cuando ejecutan trabajos en un clúster grande, los datos se replican en un clúster a fin de que puedan recuperarse con facilidad si se produce un error de disco, nodo o bastidor.

Control de costos

Para controlar costos, Hadoop almacena los datos de manera más rentable por terabyte que cualquier otra plataforma. En lugar de gastar entre miles y decenas de miles de dólares por terabytes en hardware, Hadoop brinda procesamiento y almacenamiento en hardware genérico, estándar y asequible por cientos de dólares por terabyte.

Innovación en framework de código abierto

Hadoop está respaldado por comunidades globales unidas con el objetivo de presentar conceptos y funciones nuevas con mayor rapidez y de manera más efectiva que los equipos internos que desarrollan soluciones propias. El poder colectivo de una comunidad de código abierto proporciona más ideas, un desarrollo más rápido y solución de problemas cuando se presenta uno, lo que se traduce en un menor tiempo de salida al mercado.

¿Por qué necesitas Hadoop?

Apache Hadoop surgió de la necesidad de procesar una avalancha de macrodatos con mayor rapidez y de manera más confiable. Hadoop permite un ecosistema completo de software de código abierto que cada vez más empresas basadas en datos usan para almacenar y analizar macrodatos. En lugar de depender de hardware a fin de entregar alta disponibilidad fundamental, la naturaleza distribuida de Hadoop está diseñada para detectar y administrar fallas en la capa de la aplicación. De esta manera, se entrega un servicio de alta disponibilidad y un clúster de computadoras para reducir los riesgos de que se produzcan fallas en máquinas independientes.

En lugar de usar una computadora grande a fin de almacenar y procesar datos, Hadoop usa clústeres de varias computadoras para analizar en paralelo conjuntos de datos de gran tamaño. Hadoop puede administrar varias formas de datos estructurados y no estructurados, lo que brinda a las empresas mayor velocidad y flexibilidad para recolectar, procesar y analizar macrodatos de la que puede obtenerse con almacenes y bases de datos relacionales.

¿Para qué se usa Apache Hadoop?

Estos son algunos casos de uso comunes de Apache Hadoop:

Estadísticas y macrodatos

Una gran variedad de empresas y organizaciones usan Hadoop para investigaciones, procesamiento de datos de producción y estadísticas que requieren procesar terabytes o petabytes de macrodatos, almacenar diversos conjuntos de datos y procesar datos en paralelo.

Mercado vertical

Empresas en un sinnúmero de industrias, incluidas tecnología, educación, salud y servicios financieros, dependen de Hadoop para tareas con un aspecto en común: tienen una gran variedad, volumen y velocidad de datos estructurados y no estructurados.

IA y aprendizaje automático

Los ecosistemas de Hadoop desempeñan un papel clave en el desarrollo de inteligencia artificial y aplicaciones de aprendizaje automático.

Computación en la nube

A menudo, las empresas eligen ejecutar clústeres de Hadoop en recursos de nube pública, privada o híbrida en lugar de hacerlo en hardware local para obtener flexibilidad, disponibilidad y control de costos. Muchos proveedores de soluciones en la nube ofrecen servicios completamente administrados para Hadoop, como Dataproc de Google Cloud. Con este tipo de servicio ya preparado para Hadoop nativo de la nube, las operaciones que solían tardar horas o días pueden completarse en segundos o minutos, y las empresas solo deben pagar por los recursos usados.

Dataproc es un servicio en la nube rápido, fácil de usar y completamente administrado para ejecutar clústeres de Apache Spark y Apache Hadoop de forma más simple, integrada y rentable. Se integra completamente a servicios de Google Cloud que cumplen con los requisitos fundamentales de seguridad, administración y compatibilidad. Esto te permite obtener una plataforma completa y potente para el procesamiento de datos, las estadísticas y el aprendizaje automático.

Las herramientas de análisis de macrodatos de Google Cloud, como Dataproc, BigQuery, Notebooks y Dataflow, te permiten compilar aplicaciones ricas en contexto, crear soluciones de análisis nuevas y convertir datos en estadísticas prácticas.