Implementación de Rackspace Cloud Big Data


Cloud Big Data Platform de Rackspace brinda clúster Hadoop escalable, robusto y completo con unos pocos clics. Todas las implementaciones de Cloud Big Data están respaldadas por Hortonworks Data Platform (HDP). El uso de HDP le permite a Cloud Big Data aprovechar los parches y paquetes Hadoop que ofrece Hortonworks, así como un camino de expansión para algunos de los principales colaboradores de los proyectos centrales de Hadoop.

Hay dos implementaciones disponibles: HDP 1.3 y HDP 2.1. Ambas incluyen los componentes principales de Hadoop (por ejemplo: MapReduce y HDFS) así como Pig y Hive. La implementación 2.1 también incluye Tez. Pig y Hive usarán Tez para el procesamiento de datos, de manera predeterminada.

Construir un clúster

Hay múltiples métodos para implementar y expandir el clúster Hadoop: la API, el panel de control de la nube y la línea de comando Lava. Se puede acceder a recorridos de API y Lava para clientes en Utilizar el Python Lava Client en la Guía de inicio.

Se puede construir un clúster a través del panel de control de la nube, de la siguiente forma:

  1. En la sección Servidores del panel de control, haga clic en Grandes volúmenes de datos.

  2. Haga clic en Crear clúster.

  3. Complete los campos que aparecen a continuación, y luego haga clic en Crear clúster:

    • Nombre del clúster: ingrese un nombre para identificar y distinguir al clúster
    • Región: especifique la región donde desea crear el clúster.
    • Tipo de clúster: seleccione el tipo de implementación de HDP. Para obtener más información, consulte .
    • Tamaño del nodo: especifique la variedad de nodos de datos que se utilizarán en el clúster.
    • Cantidad de nodos: la cantidad de nodos de datos dentro del clúster.
    • Nombre de usuario: especifique un usuario que se creará en todos los nodos para acceder al clúster y administrarlo.
    • Contraseña: ingrese una contraseña para el usuario.
    • (Opcional) Nombre clave SSH: si desea acceder al clúster utilizando una clave SSH, proporcione un nombre para la clave.
    • (Opcional) Clave SSH: si opta por utilizar una clave SSH, indique la clave SSH pública.
    • (Opcional) Script posinstalación: ingrese el URL de un script a la medida para descargar y ejecutar en cada nodo luego de que la implementación del nodo se haya completado.
    • (Opcional) Almacenamiento alternativo: si desea tener la opción de acceder y almacenar datos en Cloud Files desde su clúster, marque esta casilla.
    • Nombre de usuario: si utiliza almacenamiento alternativo, indique el nombre de usuario de su cuenta de nube de Rackspace.
    • Clave de API: si utiliza almacenamiento alternativo, indique la clave de API asociada a su cuenta de nube de Rackspace.

  4. Luego de que el estado cambie a Activo, utilice SSH para ingresar a la dirección de IP PublicNet del nodo de puerta de enlace, utilizando el nombre de usuario y la contraseña que ingresó en el perfil de usuario.

Elegir un clúster

Le recomendamos que utilice la implementación HDP 2.1, pero si su flujo de trabajo requiere versiones más antiguas de Hadoop, puede utilizar la HDP 1.3. Una diferencia que notará es que la implementación de HDP 2.1 incluye un nodo de nombre secundario, mientras que la implementación HDP 1.3 tiene solo uno.

Elegir el tamaño del nodo de datos

Cloud Big Data ofrece variedades pequeñas (1.25 TB) y extragrandes (10 TB). Para ver todas las especificaciones y precios, visite http://www.rackspace.com/cloud/big-data/pricing/

 

Para un desempeño óptimo, elija nodos de datos extragrandes, que ocupan un servidor físico completo para ofrecer un desempeño constante del clúster. Si prefiere expandir su ambiente de forma más granular o tiene necesidades de almacenamiento y procesamiento más bajas, puede elegir nodos de datos pequeños.

Más información

A continuación, encontrará enlaces muy útiles con información sobre procesamiento de datos y métodos de introducción de datos impulsados por Rackspace:

Apache Pig:

http://hortonworks.com/hadoop-tutorial/how-to-process-data-with-apache-pig/

Apache Hive:

http://hive.apache.org

Rackspace Swiftfs :

http://www.rackspace.com/knowledge_center/article/swift-filesystem-for-hadoop

Introducir datos al clúster:

http://www.rackspace.com/knowledge_center/article/getting-data-into-your-big-data-cluster

Apache Tez :

http://hortonworks.com/hadoop/tez/



¿Este contenido fue útil?




© 2011-2013 Rackspace US, Inc.

Excepto cuando se indique lo contrario, el contenido de este sitio está bajo una licencia Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License


Ver especificaciones de licencia y DESCARGO DE RESPONSABILIDAD