Última Actualización abril 20th, 2021 12:07 PM
Mar 27, 2021 NGuerrero base de datos 0
Es un Framework que permite el procesamiento distribuido de grandes cantidades de datos usando modelos de programación simple sobre un cluster de máquina.
La idea de Hadoop es poder distribuir los datos, teniendo la capacidad de paralelizar el tratamiento de los datos de forma que cada nodo de nuestro cluster de máquina procese una parte de los datos porque de esta forma ganamos velocidad.
También es un proceso eficiente porque consigue procesar los datos en poco tiempo.
Es un framework económico porque es fácilmente escalable de manera horizontal por si se nos queda pequeño podamos añadir un nuevo nodo que lo agragaremos a nuestro cluster de máquina y no tengamos problema.
Es un sistema tolerante a fallos porque usa la alta disponibilidad y además usa la replicación; los datos suelen estar replicados con replicación 3 en el HDFS que es el sistema de almacenamiento de Hadoop, de forma que si un nodo cae, tendremos los datos en el resto de los nodos configurados.
Por último, es un proyecto Open source un proyecto de código abierto.
En Hadoop se distinguen cuatro nodos principales:
El Commom Utilities lo forman todos los hardware y las librerías que son necesarias para ejecutar Hadoop.
El YARN es el gestor de recursos de Hadoop. Ya que como hemos dicho Hadoop es un sistema distribuido en distinta máquinas, por lo cual debe haber un gestor de recursos que vaya gestionando el sistema distribuido en todas las máquinas.
Luego tenemos el HDFS este es el sistema de archivo distribuido en todo Hadoop. Este sistema de archivo está instalado en cada uno de los nodos de nuestras máquinas y los procesos MapReduce siempre se apoyarán en el HDFS para poder paralelizar el procesamiento de los datos.
Por último, los procesos MapReduce son un sistema o una manera de implementar el sofware que nos permitan paralelizar los datos, este es nuestro fin, la paralelización de los datos. Así que tenemos que crear unos procesos Mapy luego unos procesos Reduce de forma que nos permiten reagrupar los datos y luego estos datos nos permitan hacer cálculos para determinar la información que necesitamos.
Todo esto los veremos en pronfundidad en el curso.
La configuración habitual de Hadoop es tenerlo en un cluster de máquinas. De manera que debemos tener una máquina “maestra” y “n” cantidad de máquinas “esclavas”. La idea principal es que la máquina maestra gestionará todas las tareas y las enviará a las máquinas “esclavas”. Esas máquinas realizarán todo el procesamiento de los datos y a continuación volverían a informar a la máquina “maestra”.
Tenemos tres opciones:
Click en su enlace: https://www.cloudera.com/downloads.html
Esto es todo en esta breve introducción, te animo a que entres en nuestro curso de Big Data en Openwebinars en donde aprenderemos a crear procesos de Big data y crear procesos de MapReduce.
Te esperamos en los siguientes artículos en donde hablaremos mas acerca de estos temas, los cuales hoy en día son de vital importancia en el mundo de la tecnología.
Powered by Facebook Comments
No related posts.
Abr 20, 2021 0
Abr 19, 2021 0
Abr 17, 2021 0
Abr 16, 2021 0
Abr 06, 2021 0
Mar 25, 2021 0
Mar 17, 2021 0
Feb 25, 2021 0
Abr 20, 2021 0
Abr 19, 2021 0
Abr 17, 2021 0