comenzando con big data - intel | soluciones de data ... · ... y los cambios en la manera en que...

Guía de planificación

Comenzando con Big DataCómo avanzar con una implementación exitosa

Junio de 2014

Por qué debería leer este documentoEsta guía de planificación proporciona información valiosa y medidas prácticas para los administradores de TI que quieran planificar e implementar iniciativas de análisis de Big Data, incluyendo:

• El panorama de TI de hoy para Big Data y los desafíos y oportunidades asociados con esta fuerza disruptiva.

• Tecnologías de Big Data, con foco en el marco Apache Hadoop* y en el análisis en memoria.

• La importancia de colocar la infraestructura correcta en su lugar para una implementación óptima de Big Data.

• Tres “próximos pasos” básicos y una lista de verificación para ayudar a los administradores de TI a avanzar con la planificación y la implementación de su propio proyecto de Big Data.

Contenido 3 El panorama de TI actual para el análisis de Big Data

4 Comprender las tecnologías de Big Data

6 Implementar las soluciones de Big Data

11 Comience con el análisis de Big Data: Tres pasos básicos

14 Recursos Intel para conocer más

3 Intel IT Center Guía de planificación | Comenzando con Big Data

El panorama de TI de hoy para el análisis de Big Data

El interés por Big Data ha pasado del entusiasmo desmedido a ser una conversación más focalizada. Las tecnologías que están aún madurando, la falta de destrezas, y los cambios en la manera en que TI y la empresa trabajan juntas son la nueva realidad: Explotar Big Data no es fácil.

Sin embargo, el caso de negocios para Big Data sigue siendo contundente. A pesar de las reacciones negativas de los escépticos que se desilusionaron con las promesas económicas de Big Data, las organizaciones siguen avanzando. Por ejemplo, la encuesta de 200 administradores de TI en los Estados Unidos realizada en 2013 por Intel sobre Big Data descubrió que más de la mitad de los encuestados ya habían implementado o están implementando actualmente una distribución Apache Hadoop*.1 Si se mantiene el status quo se corre el riesgo demasiado grande de ser superado por la competencia.

Hoy día, los proveedores ofrecen un número creciente de plataformas y soluciones listas para la empresa e integrales que construyen sobre las innovaciones tecnológicas. La conversación ha pasado de concentrase en: “¿Hay valor en Big Data?” a “¿Cómo puedo usarlo para crear valor y ventajas competitivas para mi organización?”

Qué es lo próximo para Big Data: Análisis predictivo y la Internet de las cosasBig Data deriva la mayoría de su valor de la información que produce cuando se lo analiza; lo que ayuda a las organizaciones a descubrir patrones, encontrar significados, tomar decisiones, y responder en última instancia al mundo con inteligencia. A medida que madure la tecnología y la conversación continúe evolucionando, las organizaciones desarrollarán nuevas formas de obtener información adoptando nuevos enfoques respecto de Big Data que solían estar fuera del alcance de la empresa tradicional.

Por ejemplo, las organizaciones se están volcando al análisis predictivo porque las ayuda a profundizar su interacción con los clientes, a optimizar los procesos, y a reducir los costos operativos. La combinación de flujos de datos en tiempo real y el análisis predictivo -al que suele denominarse procesamiento sin fin- tiene el potencial de

ofrecer una ventaja competitiva significativa a la empresa. Para una descripción del análisis predictivo, incluyendo por qué es importante y cómo las empresas pueden ponerlo en funcionamiento, ver Análisis predictivo 101: Inteligencia de Big Data de próxima generación (en inglés).

La Internet de las cosas (IoT)—dispositivos con Internet habilitada que se conectan y comunican entre sí y la nube—también está impulsando la innovación en el análisis de Big Data. IDC estima que IoT incluirá 212.000 millones de “cosas” para fines de 2020,2 generando cantidades masivas de datos en un flujo de datos de rápido movimiento. La mayoría de estos datos serán generados por máquinas mediante sensores y actuadores incorporados conectados por redes alámbricas e inalámbricas que se comunican usando el mismo protocolo que conecta a la Internet. Los datos generados por humanos desde dispositivos como teléfonos móviles y tabletas también serán parte de la combinación. Este dato puede utilizarse para desbloquear correlaciones entre eventos, automatizar sistemas inteligentes, y proporcionar la información necesaria para resolver problemas empresariales y sociales más complejos. Conozca más sobre la perspectiva de Intel sobre datos generados por máquinas en Data Mining y Big Data distribuidos (en inglés).

¿Qué es “Big Data” exactamente?

Big Data se refiere a grandes conjuntos de datos que son más grandes en términos de orden de magnitud (volumen); son más diversos, incluyendo datos semiestructurados, y no estructurados (variedad); y que llegan más rápido (velocidad) que lo que usted o su organización ha tenido que procesar antes. Este flujo de datos está generado por dispositivos conectados, desde PCs y teléfonos inteligentes a sensores como lectores RFID y cámaras de tráfico. Además, es heterogéneo y viene en muchos formatos, incluyendo textos, documentos, imágenes, videos, registros web, transacciones, y más.

mailto:?subject=Getting%20Started%20with%20Big%20Data%20Planning%20Guide&body=Thought%20you%20might%20be%20interested%20in%20this%20big%20data%20planning%20guide%20from%20Intel%3A%20%20http%3A%2F%2Fintel.ly%2F1glmlgp%20%23ITCenter

http://www.linkedin.com/shareArticle?mini=true&url=http%3A%2F%2Fintel.ly%2F1glmlgp&title=Getting%20Started%20with%20Big%20Data&source=&summary=Great%20insights%20in%20this%20big%20data%20planning%20guide%20and%20checklist%20from%20the%20Intel%20IT%20Center.%20%23ITCenter

http://twitter.com/intent/tweet?text=Get%20started%20with%20%23BigData%20with%20this%20planning%20guide%20from%20%40Intel%20%23ITCenter%3A%20%20http%3A%2F%2Fintel.ly%2F1glmlgp

https://www.facebook.com/dialog/feed?app_id=123050457758183&link=http%3A%2F%2Fintel.ly%2F1glmlgp&picture=&name=Getting%20Started%20with%20Big%20Data&caption=%20&description=Great%20insights%20in%20this%20big%20data%20planning%20guide%20and%20checklist%20from%20the%20Intel%20Business%20Center.%20%23ITCenter&redirect_uri=http%3A%2F%2Fwww.facebook.com%2F

http://www.intel.com/content/www/us/en/big-data/big-data-predictive-analytics-overview.html

http://www.intel.com/content/www/us/en/big-data/big-data-predictive-analytics-overview.html

http://www.intel.com/content/www/xa/en/big-data/distributed-data-mining-paper.html

http://www.intel.com/content/www/xa/en/big-data/distributed-data-mining-paper.html


Mayor presión sobre TICon tanto en juego para la empresa, las iniciativas de Big Data no pueden sucederse aisladamente. TI debe forjar una asociación fuerte con los líderes empresariales para identificar las oportunidades de Big Data y avanzar con la asistencia necesaria. Big Data también requiere nuevas destrezas empresariales, técnicas y analíticas para ayudar a modelar problemas empresariales complejos y descubrir información, integrar sistemas, construir bases de datos masivas, y administrar marcos de software distribuido.

La adopción completa del análisis de Big Data involucra tres pasos básicos de alto nivel. El orden es importante, aunque las actividades se superpondrán a medida que usted avance:

1. Trabaje con los líderes empresariales para determinar las fronteras culturas de su implementación, interna y externamente.

2. Adquiera el conjunto de destrezas empresariales, tecnológicas y analíticas que necesita, como científicos de datos, arquitectos de sistemas, e ingenieros de datos.

3. Identifique los requerimientos de tecnología e implemente el grupo de soluciones.

A pesar de que los 3 pasos son igualmente críticos para el éxito, esta guía se concentra en el paso 3: implementar las soluciones de Big Data. El International Institute for Analytics es una excelente fuente de recursos para los primeros dos pasos.

Comprender las tecnologías de Big DataLas herramientas e infraestructura tradicionales no son eficientes funcionando con conjuntos de datos más grandes, variados y que se generan con rapidez. Para que las organizaciones puedan realizar el potencial completo de Big Data, deben encontrar un nuevo enfoque para capturar, almacenar, y analizar datos.

Las tecnologías de Big Data usan la potencia de la red distribuida de los recursos de computación y “arquitectura que no comparte nada”, marcos de procesamiento distribuido, y bases de datos no relacionales para redefinir la forma en que los datos se administran y analizan. Las innovaciones en los servidores y las soluciones de análisis en memoria escalables facilitan la optimización de la potencia de computación, escalabilidad, confiabilidad, y costo total de propiedad para las cargas de trabajo de análisis más exigentes.

El grupo de soluciones de Big DataDependiendo del caso de uso, su grupo de soluciones de Big Data incluye una infraestructura de alto desempeño que da vida a alguna combinación de marcos de procesamiento distribuido como el software Apache Hadoop, bases de datos de análisis relacionales y no relacionales, y aplicaciones analíticas.

Desde un punto de vista funcional, estas tecnologías se complementan y trabajan juntas como una plataforma flexible de Big Data que también puede aprovechar la arquitectura existente de administración de datos. Por ejemplo, el análisis histórico de Hadoop* puede trasportarse a bases de datos analíticas o integrarse con datos estructurados en los almacenes de datos empresariales tradicionales (enterprise data warehouses, EDW) para mayor análisis.

Software Apache Hadoop* El software Apache Hadoop es un marco completo de código abierto para Big Data y ha surgido como uno de los mejores enfoques para procesar conjuntos de datos grandes y variados. El marco Hadoop proporciona un modelo de programación simple para el procesamiento distribuido de grandes conjuntos de datos. Incluye Apache* Hadoop Distributed File System (HDFS*), un marco para programación de trabajos llamado Apache Hadoop YARN, y un marco de procesamiento paralelo llamado Apache Hadoop MapReduce. Varios componentes respaldan la ingestión de datos (el servicio Apache Flume*), consultas y análisis (software Apache Pig*, Apache Hive*,y Apache HBase*), y coordinación de flujos de trabajo (Apache Oozie), así como también administración y monitoreo del cluster de servidores subyacente (software Apache Ambari*).

Escuche de los expertos Apache Hadoop*

Una forma de conocer sobre el software Apache Hadoop* y sus componentes es escuchar directamente a los expertos muy comprometidos con la comunidad de código abierto y su trabajo de desarrollo. Escuche los podcasts de entrevistas de los líderes de la comunidad para Apache Hadoop MapReduce, Apache* Hadoop* Distributed File System (HDFS*), Apache Hive*, Apache Pig*, y HCatalog, describiendo cómo funciona cada uno, dónde se ubican dentro del grupo Hadoop, y los planes de desarrollo continuo. Archivos PDF acompañan cada podcast.





http://hadoop.apache.org/


Combinados, los componentes del software Apache son un marco poderoso para el procesamiento y análisis de datos distribuidos en lote para análisis históricos.

El marco Hadoop está disponible a través de la comunidad de código abierto o como un paquete de distribución de proveedores que incluyen software y servicios con valor agregado (como administración, capacitación, y soporte). Muchas de estas distribuciones pueden integrarse con EDW, sistemas de administración de bases de datos relacionales (relational database management systems, RDBM), y otros sistemas de administración de datos de modo que los datos pueden moverse entre clusters de Hadoop y otros ambientes para expandir el conjunto de datos a procesar o consultas.

Análisis en memoria La computación en memoria tiene el potencial de impactar significativamente la potencia y la velocidad del análisis de Big Data. Gartner reconoce su valor estratégico, identificando la computación en memoria como una de las 10 tendencias tecnológicas estratégicas de 2013.3 Con la computación en memoria, es posible tomar decisiones en tiempo real, impulsadas por los datos.

La computación en memoria elimina una de las principales limitaciones a muchas soluciones de Big Data: la alta latencia y los cuellos de botella de E/S causados por acceder a los datos desde el almacenamiento basado en disco. La computación en memoria mantiene a todos los datos relevantes en la memoria principal del sistema de computación. Se puede acceder a los datos con órdenes de magnitud más rápidas, de modo que están disponibles para un análisis inmediato; y la información empresarial está disponible casi instantáneamente. Con la computación en memoria, grandes bloques de datos funcionales y almacenes de datos completos pueden enviarse a DRAM para el análisis inmediato de todo el conjunto de datos.

El análisis en memoria integra aplicaciones de análisis y bases de datos en memoria en servidores dedicados. Esto es ideal para escenarios analíticos con requerimientos de computación pesada y procesamiento de datos en tiempo real. Ejemplos de soluciones de bases de datos en memoria incluyen la plataforma SAP HANA* (desarrollada conjuntamente por Intel y SAP), Opción en memoria de base de datos Oracle* para Oracle 12c, sistemas en memoria IBM* con Aceleración BLU, y análisis en memoria SAS*.

Para obtener más información sobre cómo las soluciones en memoria actuales de proveedores están cambiando la forma en la que las empresas analizan Big Data, lea el documento técnico Cambiando la forma en la que las empresas hacen computación y compiten con análisis (en inglés).

Intel y Cloudera unen fuerzas

En marzo de 2014, Intel anunció una inversión sustancial en capital (USD 740 millones) y en propiedad intelectual en Cloudera, proveedor de la versión de software más popular de Apache Hadoop* en el mercado. Intel también anunció que saldría del mercado de software de análisis de Big Data con su propia distribución y trabajo con Cloudera para integrar optimizaciones de la Distribución Intel® para Apache Hadoop (también conocida como Plataforma de datos de Intel) en la distribución de Cloudera incluyendo Apache Hadoop (CDH).

Juntos, Intel y Cloudera continúan impulsando la innovación a través de las tecnologías de código abierto, concentrándose en la seguridad, el desempeño, la administración, y las aplicaciones. Cloudera también está trabajando estrechamente con Intel para asegurarse de que sus productos aprovechen al máximo las tecnologías de centro de datos de Intel. La colaboración tecnológica entre Intel y Cloudera también combina esfuerzos en las tecnologías fundacionales Hadoop* para ayudar a avanzar el marco de software y alentar a los desarrolladores de código abierto a innovar en y sobre la plataforma.

Para obtener más información sobre CDH, visite cloudera.com.

Computación en memoria: Más potencia y velocidad

La computación en memoria ha existido durante un tiempo como redes de datos distribuidas e instalaciones grandes y costosas. Sin embargo, los sistemas en memoria de hoy son más rápidos, más poderosos, y más económicos. ¿Por qué? Como lo predijo la Ley de Moore, el costo de la memoria continúa cayendo -los costos de la memoria flash DRAM y NAND han bajado dramáticamente—al mismo tiempo que el número de procesadores por chip está aumentando. Con la familia de procesadores Intel® Xeon® E7 v2, un servidor de cuatro sockets puede configurarse con hasta 6 terabytes (TB) de memoria y un servidor de ocho sockets con hasta 12 TB, suficiente para alojar muchas de las bases de datos actuales dentro de la memoria de un único servidor.

Esto, combinado con las innovaciones de servidores como las mejoras de desempeño (por ejemplo, tecnología hyper-threading) y la madurez de las plataformas de software de análisis, hace que las arquitecturas de bases de datos en memoria sean más asequibles.





http://www.intel.com/content/www/us/en/big-data/big-data-xeon-e7-v2-in-memory-computing-paper.html

http://cloudera.com


Bases de datos NoSQL Estas bases de datos no relacionales vienen con cuatro tipos diferentes de almacenamiento -valor clave, columnar, gráficos, o documentos- y proporcionan almacenamiento de alto desempeño y alta disponibilidad a escala Web. Son útiles para manejar flujos de datos masivos y esquemas flexibles y tipos de datos con tiempos de respuesta rápidos. Las bases de datos NoSQL usan una arquitectura distribuida y tolerante a fallos, que proporciona dependencia y escalabilidad de sistemas. Ejemplos de bases de datos NoSQL incluyen Apache HBase, Apache Cassandra*, MongoDB*, y software Apache CouchDB*.

Bases de datos analíticas columnares Las bases de datos basadas en grids almacenan datos usando columnas en lugar de filas, reduciendo el número de elementos de datos que se deben leer mientras se procesan las consultas, y proporcionando desempeño rápido para ejecutar un gran número de consultas simultáneas. Las bases de datos analíticas columnares son ambientes de solo lectura que ofrecen ventajas de desempeño y de escalabilidad en términos de precio sobre los sistemas convencionales de RDBMS. Se utilizan para EDW y otras aplicaciones

intensivas en consultas y optimizadas para almacenamiento y recuperación de análisis avanzado. SAP* Sybase* IQ, ParAccel* Analytic Platform, y HP* Vertica* Analytics Platform dependen de bases de datos analíticas columnares.

Bases de datos gráficas y herramientas analíticas

Las bases de datos gráficas son un tipo de base de dato NoSQL que está aumentando en importancia. Estas bases de datos son particularmente útiles para datos altamente conectados en los cuales las relaciones son más numerosas o más importantes que las entidades individuales. Las estructuras de datos gráficos son flexibles y facilitan la conexión y modelado de datos. Son más rápidas para consultar, y más intuitivas para modelar y visualizar. La mayoría del crecimiento en Big Data es gráfico por naturaleza.

Las bases de datos gráficas funcionan solas o junto con otras herramientas gráficas, como visualizaciones gráficas, análisis gráficos, y aprendizaje automático. Por ejemplo, con el aprendizaje automático, las bases de datos gráficas pueden usarse para analizar y predecir relaciones a fin de solucionar una gama de problemas.

Implementar soluciones de Big Data Las implementaciones de Big Data pueden tener requerimientos de gran infraestructura. Las opciones de hardware y software realizadas al momento del diseño pueden tener un impacto significativo sobre el desempeño y el costo total de propiedad. TI puede aprovechar al máximo la implementación de Big Data asegurándose de que la infraestructura correcta esté implementada para el caso de uso particular y que Hadoop y el software analítico estén optimizados y ajustados para el mejor desempeño.

Una plataforma de Big Data flexible y extensible Con una plataforma de Big Data flexible y extensible, TI puede construir las capacidades que necesita la empresa y elegir al mismo tiempo los sistemas más económicos para manejar cada caso de uso. Los siguientes tres modelos de uso se fortalecen mutuamente para proporcionar mayor valor.

Extraer, transformar y cargar (extract, transform and load, ETL) El modelo de extraer, transformar y cargar (ETL) agrega, preprocesa, y almacena datos, pero las soluciones tradicionales de ETL no pueden manejar el volumen, la velocidad, y la variedad que caracteriza Big Data. Dado que la plataforma Hadoop

almacena y procesa datos en un ambiente distribuido, Hadoop separa los datos entrantes en partes y maneja el procesamiento de volúmenes grandes en paralelo. La escalabilidad inherente de Hadoop acelera los trabajos ELT de modo que se reduce significativamente el tiempo de análisis. Conozca más sobre ETL usando el software Hadoop en el documento técnico Extraer, transformar y cargar Big Data con Apache Hadoop* (en inglés).

Consultas interactivas Combinar el marco Hadoop con un EDW moderno basado en arquitectura de procesamiento masivamente paralelo (massively parallel processing, MPP) extiende su plataforma de Big Data para manejar consultas interactivas y más análisis avanzados. Hadoop puede ingerir y procesar grandes volúmenes de datos en streaming y cargarlos en el EDW para consultas, análisis e informes ad hoc en lenguaje de consulta estructurado (Structured Query Language, SQL). Dado que Hadoop procesa una amplia variedad de tipos de datos, EDW está enriquecido con datos que no son generalmente factibles de almacenar en EDW tradicionales. Además, los datos almacenados en la infraestructura Hadoop pueden persistir a lo largo de una duración mucho mayor, permitiéndole proporcionar datos más granulares y detallados mediante el EDW para análisis de alta fidelidad.





http://software.intel.com/sites/default/files/article/402274/etl-big-data-with-hadoop.pdf

http://software.intel.com/sites/default/files/article/402274/etl-big-data-with-hadoop.pdf


Análisis predictivo El análisis predictivo extrae mayor valor de los datos usando datos históricos para predecir qué puede ocurrir en el futuro. TI de Intel recomienda combinar un EDW basado en la arquitectura MPP que puede realizar análisis predictivo complejo rápidamente con un cluster Hadoop para un ETL rápido, escalable y económico. El cluster Hadoop puede también extenderse con herramientas y otros componentes para realizar funciones adicionales de procesamiento y análisis de datos. Para obtener más detalles sobre el modelo de uso, lea la arquitectura de referencia Realizar análisis predictivo y consultas interactivas sobre Big Data (en inglés).

Plataforma de Big Data de TI de Intel Gracias a que TI de Intel ha trabajado con la empresa para desarrollar caso de uso de Big Data, se han combinado elementos de los dos primeros modelos de uso con análisis predictivo para una infraestructura de análisis híbrido y flexible.

TI de Intel usa Hadoop para administrar la ingestión, transformación, e integración de datos no estructurados de redes sociales, tráfico Web, y registros de sensores en un EDW basado en arquitectura MPP. La ventaja aquí es que al agregar estructura a los datos heterogéneos en Hadoop durante la extracción y la transformación, y luego al cargarlos en el EDW, los usuarios pueden aplicar inteligencia de negocios tradicional (BI) y herramientas analíticas para consultas interactivas y otros análisis avanzados.

TI de Intel implementa el software Hadoop con la familia de procesadores Intel® Xeon® E5 para ingestión de datos heterogéneos, indexación Web, y análisis de redes sociales. El software Hadoop filtra los datos como fuera necesario para el análisis y los envía al sistema de almacenamiento de datos.

El sistema de almacenamiento de datos está basado en la arquitectura MPP y se usa para realizar análisis predictivo complejo

con rapidez y exploración interactiva de datos con resultados en tiempo real. El sistema de almacenamiento de datos es una solución de terceros construida sobre la familia del procesador Intel Xeon E7 v2 para ofrecer alto desempeño y disponibilidad a un costo relativamente bajo. El dispositivo se integra con las soluciones existentes de BI y brinda soporte para herramientas analíticas avanzadas como el paquete estadístico R.

TI de Intel extendió más su plataforma de Big Data desarrollando un motor analítico predictivo interno para proporcionar servicios predictivos continuos. Un primer caso de uso es la implementación de un servicio de recomendación en tiempo real. Para este servicio, el equipo de BI desarrolló algoritmos predictivos usando la biblioteca de data mining Apache Mahout*. Estos algoritmos actúan en los datos históricos almacenados en Hadoop, y luego transfieren los resultados a la base de datos NoSQL Cassandra*. El software Cassandra proporciona la recuperación de datos rápida y de baja latencia requerida para los escenarios de uso en tiempo real. Durante una interacción de usuario en línea, los resultados se recuperan de la base de datos Cassandra y se combinan con datos contextuales (datos ingresados y ubicación del usuario, por ejemplo) para brindar las recomendaciones más adecuadas en tiempo real.

Para brindar la capacidad de respuesta extrema a consultas requerida para el análisis en tiempo real de conjuntos de datos de alto volumen, TI de Intel condujo pruebas para determinar la plataforma óptima para una solución BI en memoria, de alto desempeño y económica. Ver en Configurar una plataforma BI en memoria para desempeño extremo mejores prácticas relacionadas con la combinación de la velocidad del servidor, el número de núcleos por procesador, tamaño de la caché, y memoria para los servidores basados en procesadores Intel Xeon estándar de la industria.





http://software.intel.com/sites/default/files/managed/f4/78/wp-perform-predictive-analytics-and-interactive-queries-on-big-data.pdf

http://www.intel.com/content/www/us/en/it-management/intel-it-best-practices/configuring-in-memory-bi-platform-for-extreme-performance.html

http://www.intel.com/content/www/us/en/it-management/intel-it-best-practices/configuring-in-memory-bi-platform-for-extreme-performance.html


Infraestructura para el marco Hadoop*Servidores El marco Hadoop funciona sobre el principio de acercar la computación a donde residen los datos, y el marco típicamente se ejecuta en grandes clusters de servidores usando hardware estándar. El marco se escala fácilmente en servidores basados en procesadores Intel Xeon. La combinación del marco Hadoop con las plataformas de servidores estándar proporciona la base para una plataforma de análisis de alto desempeño para aplicaciones paralelas.

Desde una perspectiva de costo/beneficio, los servidores de dos sockets basados en la familia del procesador Intel Xeon E5 son la elección óptima para la mayoría de las cargas de trabajo Apache Hadoop. Estos servidores son generalmente más eficientes para ambientes de computación distribuida que las plataformas multiprocesador a gran escala. Brindan desempeño excepcional y proporcionan mayor eficiencias en balanceo de carga y rendimiento paralelo que los servidores más pequeños y de único socket. Las tecnologías para acelerar la encripción, reducir la latencia, y aumentar el ancho de banda están integradas en los procesadores.

Algunas cargas de trabajo ETL, como la clasificación de datos simples, no requieren la potencia de procesamiento de los procesadores Intel Xeon. En ese caso, usted podrá ejecutar dichas cargas de trabajo livianas más eficientemente en los microservidores basados en la familia de productos del procesador Intel Atom™ C2000. Estos procesadores de clase de servidor proporcionan consumo de energía extremadamente bajo (de tan solo 6 vatios) y alta densidad.

Tanto los procreadores Intel Xeon como los procesadores Intel Atom son compatibles con la memoria de código de corrección de errores (error-correcting code, ECC) que automáticamente detecta y corrige errores de memoria, una fuente común de corrupción de datos e inactividad del servidor. Un cluster Apache Hadoop tiene mucha memoria (típicamente 64 gigabytes [GB] o más por servidor), convirtiendo a la memoria ECC en una característica crítica.

Conexión de red y almacenamiento Las plataformas de servidores para Big Data se benefician de las mejoras significativas en la computación tradicional y los recursos de almacenamiento y están complementadas por soluciones de Ethernet de 10 gigabits (10 GbE) para un sistema balanceado.

Plataforma flexible de Big Data de TI de IntelA medida que se desarrollan nuevos casos de uso, TI de Intel pueden extender la plataforma de Big Data de la compañía. A medida que aumenten las capacidades, TI de Intel tiene la flexibilidad de ejecutar cargas de trabajo sobre la arquitectura de más bajo costo.

Plataforma de procesamientomasivamente paralelo

Marco Apache Hadoop*

Motor de análisispredictivo

• Solución de terceros• Procesamiento más veloz que los sistemas tradicionales• Construida sobre la familia del procesador Intel® Xeon® E7

• Desarrollado internamente• Permite servicio predictivo continuo en tiempo real

• Construido sobre la familia del procesador Intel Xeon E7

• Optimizado para la familia del procesador Intel Xeon E5, unidades Intel Solid-State Drives,e Intel Ethernet de 10 gigabits

• Sistema de archivo distribuido que puede escalarse linealmente • Base de datos NoSQL Apache HBase





http://www.intel.com/content/www/us/en/servers/microservers.html


Procesador Intel® para el marco Apache Hadoop*

Familia del procesador Xeon® E5 v2

• Construida sobre la microarquitectura Ivy Bridge usando la tecnología Intel de transistores 3D Tri-Gate de 22 nanómetros (nm) líder de la industria para un desempeño y eficiencia energética superiores

• Escalamiento elástico para adaptarse a la carga de trabajo fluctuante y mayores demandas de red y almacenamiento

• Mejoras de desempeño y de E/S para mejorar y equilibrar el desempeño general del sistema y aumentar la eficiencia de los servidores

• Alto ancho de banda, baja latencia para aplicaciones de computación de alto desempeño

• Permite una rápida encripción y desencripción para alentar la protección persistente de datos

• Memoria de código de corrección de errores (ECC)

• Compatible con conexión integrada de Ethernet de 10 gigabits (10 GbE) e infraestructura de centro de datos simplificada

• Monitoreo y administración de energía a nivel de servidor y de centro de datos para optimizar el consumo de energía

• Desempeño para aplicaciones de uno y múltiples subprocesos, incluyendo computación de alto desempeño

• Compatible con soluciones abiertas e interoperables

Familia del procesador Intel Atom™

• Desempeño para cargas de trabajo livianas escalables

• El sistema sobre el chip (SoC) ofrece densidad extrema que maximizar el espacio en rack

• Muy bajo consumo de energía, con rangos de potencia de tan solo 6 vatios

• Memoria ECC

Intel ofrece opciones flexibles para implementaciones Apache Hadoop* económicas y de alto desempeño.

El mayor ancho de banda asociado con 10 GbE es crítico para importar y replicar grandes conjuntos de datos entre servidores. Las soluciones Intel 10 gigabit Ethernet proporcionan conexiones de alto rendimiento, y las unidades de estado sólido Intel (Intel Solid-State Drives, SSDs) son discos rígidos de alto desempeño, y alto rendimiento para almacenamiento sin procesar.

Para mejorar la eficiencia, el almacenamiento necesita ser compatible con las capacidades avanzadas como la compresión, la encripción, la jerarquización automática de datos, la deduplicación de datos, la codificación de borrado, y el aprovisionamiento delgado; todo lo cual es compatible con la familia del procesador Intel Xeon E5. Conozca más sobre construir clusters Hadoop en 10 GbE, que sean balanceados y económicos.

Intel ha hecho pruebas considerables usando servidores basados en la familia del procesador Intel Xeon E5 como la plataforma de servidor básica para los clusters Hadoop. Un equipo de expertos de Intel en Big Data, redes y almacenamiento midió los resultados de desempeño de Apache Hadoop para diferentes combinaciones de componentes de red y almacenamiento. Balancear los recursos de computación, almacenamiento, y redes proporcionó una ventaja de desempeño significativa -de acuerdo con los benchmarks TeraSort, el tiempo de procesamiento se redujo de 4 horas a 12 minutos—resultados en tiempo casi real.4, 5, 6 Para obtener más información sobre los clusters Hadoop de alto desempeño sobre tecnologías Intel, ver el documento técnico Tecnología de Big Data para resultados en tiempo casi real (en inglés).





http://www.intel.com/network/connectivity/resources/technologies/10_gigabit_ethernet.htm

http://www.intel.com/content/www/us/en/solid-state-drives/solid-state-drives-ssd.html

http://www.intel.com/content/www/us/en/solid-state-drives/solid-state-drives-ssd.html

www.intel.com/content/dam/www/public/us/en/documents/white-papers/10gbe-10gbase-t-hadoop-clusters-paper.pdf

www.intel.com/content/dam/www/public/us/en/documents/white-papers/10gbe-10gbase-t-hadoop-clusters-paper.pdf

http://www.intel.com/content/www/us/en/big-data/big-data-apache-hadoop-technologies-for-results-whitepaper.html

http://www.intel.com/content/www/us/en/big-data/big-data-apache-hadoop-technologies-for-results-whitepaper.html


Infraestructura para soluciones analíticas en memoria

Servidores El marco Hadoop funciona sobre el principio de acercar la computación a donde residen los datos, y el marco típicamente se ejecuta en grandes clusters de servidores usando hardware estándar. El marco se escala fácilmente en servidores basados en procesadores Intel Xeon. La combinación del marco Hadoop con las plataformas de servidores estándar proporciona la base para una plataforma de análisis de alto desempeño para aplicaciones paralelas.

Desde una perspectiva de costo/beneficio, los servidores de dos sockets basados en la familia del procesador Intel Xeon E5 son la elección óptima para la mayoría de las cargas de trabajo Apache Hadoop. Estos servidores son generalmente

más eficientes para ambientes de computación distribuida que las plataformas multiprocesador a gran escala. Brindan desempeño excepcional y proporcionan mayor eficiencias en balanceo de carga y rendimiento paralelo que los servidores más pequeños y de único socket. Las tecnologías para acelerar la encripción, reducir la latencia, y aumentar el ancho de banda están integradas en los procesadores.

Algunas cargas de trabajo ETL, como la clasificación de datos simples, no requieren la potencia de procesamiento de los procesadores Intel Xeon. En ese caso, usted podrá ejecutar dichas cargas de trabajo livianas más eficientemente en los microservidores basados en la familia de productos del procesador Intel Atom™ C2000. Estos procesadores de clase de servidor proporcionan consumo de energía extremadamente bajo (de tan solo 6 vatios) y alta densidad.

Procesadores Intel® para análisis en memoria

La familia del procesador Intel® Xeon® E7 v2 acelera el análisis para cargas de trabajo intensivas en datos y escalables y para bases de datos en memoria.

• Construida sobre la tecnología Intel de transistores 3D Tri-Gate de 22 nanómetros (nm) líder de la industria para un desempeño y eficiencia energética superiores

• Gran capacidad de memoria:

- Las configuraciones de cuatro y ocho sockets con hasta 1,5 terabytes (TB) de memoria por socket para hasta 6 TB o 12 TB de memoria por servidor

- Hasta tres módulos de memoria dual en línea (DIMM) por canal (DPC) y hasta ocho canales (total de hasta 24 DIMMs), con capacidad de DIMM individual de DIMMs de carga reducida (LR) de hasta 64 gigabytes (GB)

- Escalabilidad de más allá de ocho sockets usando un controlador de nodo de terceros (OEM)

• Mayor caché con hasta 37,5 megabytes (MB) de caché de tercer nivel por procesador

• Hasta 50 por ciento más núcleos y procesos que los procesadores de generación anterior (hasta 60 núcleos y 120 procesos en un servidor de cuatro sockets para la rápida ejecución de transacciones simultáneas y consultas grandes y complejas)

• Ancho de banda de E/S hasta cuatro veces superior§, en comparación con procesadores de generación anterior

• Desempeño para aplicaciones de uno y múltiples subprocesos, incluyendo computación de alto desempeño escalable y aplicaciones técnicas

• Capacidad y flexibilidad extra para el almacenamiento y conexiones de red con puertos PCI Express* (PCIe*) 3.0 integrados, lo que mejora el ancho de banda y es compatible con discos de estado sólido basados en PCIe

• Características avanzadas de confiabilidad, disponibilidad, y calidad de servicio (reliability, availability, and serviceability, RAS) para mejorar la integridad de los datos y el tiempo de actividad para cargas de trabajo analíticas de misión crítica con Intel Run Sure Technology‡

§Ningún sistema de computación puede proporcionar confiabilidad, disponibilidad o capacidad de servicio absoluta. Requiere un sistema habilitado para Intel” Run Sure Technology, incluyendo un procesador Intel habilitado y tecnlogía(s) habilitada(s). Las características de confiabilidad incorporada disponibles en ciertos procesadores Intel pueden requerir software, hardware y servicios adicionales y/o conexión a Internet. Los resultados pueden variar dependiendo de la configuración. Consulte al fabricante de su sistema para obtener más detalles.

‡Afirmación de ancho de banda de E/S hasta 4 veces superior basada en estimaciones internas de Intel del desempeño de la familia de productos del procesador Intel Xeon E7-4890 v2; desempeño normalizado contra las mejoras sobre la familia de productos del procesador Intel Xeon E7-4870 con doble IOH usando una herramienta de ancho de banda interna que ejecuta la prueba 1R1W.





http://www.intel.com/content/www/us/en/processors/xeon/xeon-processor-e7-family.html


Intel IT Center Guía de planificación | Comenzando con Big Data11

Tanto los procreadores Intel Xeon como los procesadores Intel Atom son compatibles con la memoria de código de corrección de errores (error-correcting code, ECC) que automáticamente detecta y corrige errores de memoria, una fuente común de corrupción de datos e inactividad del servidor. Un cluster Apache Hadoop tiene mucha memoria (típicamente 64 gigabytes [GB] o más por servidor), convirtiendo a la memoria ECC en una característica crítica.

Optimizar y sintonizar para el mejor desempeño

Intel es un importante contribuyente a las iniciativas de código abierto como software Linux*, OpenStack*, KVM, y Xen*. Intel también dedicó recursos para caracterizaciones de análisis, prueba, y desempeño de Hadoop, tanto internamente como en colaboración con HP, Super Micro, y Cloudera. Mediante estos esfuerzos técnicos, Intel ha observado muchas concesiones en hardware, software, y configuraciones de sistema que tiene implicancias en los centros de datos. Diseñar el conjunto de soluciones para maximizar la productividad, limitar el consumo de energía, y reducir el costo total de propiedad puede ayudar a optimizar la utilización de recursos al mismo tiempo que se minimizan los costos operativos.

Los ajustes para el ambiente Hadoop son un factor clave para obtener el beneficio completo del resto de las soluciones de hardware y software. Basado en pruebas extensas de benchmark en el laboratorio y en los sitios de clientes usando arquitectura basada en el procesador Intel, Ias recomendaciones de optimización y ajuste de

Intel para el sistema Hadoop pueden ayudarlo a configurar y administrar su ambiente Hadoop en términos de desempeño y de costo.

Configurar los ajustes correctamente requiere significativo tiempo al inicio porque los requerimientos para cada sistema Hadoop empresarial variará dependiendo del trabajo o la carga de trabajo. El tiempo dedicado a optimizar para sus cargas de trabajo específicas redundará en un mejor desempeño, tanto como en un costo total de propiedad más bajo para el ambiente Hadoop. Ver Optimizando las implementaciones Hadoop* (en inglés) para ajustes específicos.

Desempeño de benchmark

El análisis comparativo (benchmarking) es la base cuantitativa para medir la eficiencia de cualquier sistema de computación. Intel desarrolló la suite HiBench como un conjunto integral de pruebas de benchmark para ambientes Hadoop.9 Las medidas individuales representan 10 cargas de trabajo Hadoop importantes con una combinación de características de uso de hardware. HiBench incluye microbenchmarks así como también aplicaciones Hadoop que representen una gama más amplia de análisis de datos como indexación de búsquedas, aprendizaje automático, y consultas. HiBench 2.2 está ahora disponible como software de código abierto bajo la Licencia Apache 2.0. Usted puede descargar el software, aprender más sobre cargas de trabajo específicas, y conocer cómo comenzar en https://github.com/intel-hadoop/HiBench.

Comience con el análisis de Big Data: Tres pasos básicos

Si ha leído hasta aquí, ya tiene una buena idea del panorama de TI para Big Data, su valor potencial para las organizaciones, y las tecnologías que lo pueden ayudar a obtener información sobre los recursos estructurados, semiestructurados, y no estructurados. Además, usted tiene una buena descripción general de lo esencial para tener la infraestructura correcta implementada y ejecutándose sin inconvenientes para soportar sus iniciativas de Big Data.

Usted puede comenzar con su proyecto de análisis de Big Data siguiendo los tres pasos básicos que describimos en las primeras páginas de esta guía. A pesar de que esta guía está concentrada en la tecnología y el paso 3, puede usar la siguiente lista de verificación ya que lo ayudará a trabajar en las actividades críticas de los tres pasos.





http://software.intel.com/sites/default/files/Optimizing%20Hadoop%20Deployments.pdf

https://github.com/intel-hadoop/HiBench


Paso 1: Entender cómo Big Data impactará su organización culturalmente.

• Comprender el valor que el análisis de Big Data puede traer a su organización.

a Hable con sus colegas de TI y en la empresa.

a Aproveche los recursos de Intel IT Center para Big Data para estar actualizado sobre las tecnologías..

a Comprenda las ofertas de los proveedores.

a Vea los tutoriales y analice la documentación para usuarios que ofrece Apache.

• Colaborar con los líderes empresariales en una estrategia y enfoque de Big Data. Desarrollar:

a El caso de negocios para Big Data: ¿Cómo creará valor para la empresa el análisis de Big Data? ¿Cuáles son los desafíos empresariales clave que abordará?

a Objetivos a corto, medio y largo plazo: ¿Cuáles son las fases clave para lograr sus objetivos de Big Data?

a Estado actual y futuro de la infraestructura de TI: ¿Su centro de datos puede soportar la plataforma de Big Data? Evalúe su tecnología actual de centro de datos y describa, si fuera necesario, su plan para actualizar los recursos de computación, almacenamiento, y conexión de red.

a Fuentes de datos y calidad de los datos: ¿Cuáles son las fuentes principales de datos internamente? ¿Qué datos adicionales podría usted comprar? ¿Cómo garantizará usted la calidad?

a Plataformas y herramientas de Big Data: ¿Qué plataformas utilizará para construir su solución? ¿Qué software y herramientas se necesitan para lograr su propósito?

a Métrica para medir el éxito. ¿Cómo medirá usted el desempeño del sistema? Base su éxito en cuántos trabajos se presentan, se procesan paralelamente, y se completan eficientemente.

• Trabajar con sus usuarios empresariales para descubrir grandes oportunidades.

a Identifique y colabore con usuarios empresariales (analistas, científicos de datos, profesionales de comercialización, y demás) para descubrir las mejores oportunidades empresariales para el análisis de Big Data en su organización. Por ejemplo, considere un problema empresarial existente; especialmente uno difícil, costoso, o imposible de resolver con sus fuentes de datos y sistemas analíticos actuales. O considere un problema que nunca se había abordado antes porque las fuentes de datos son nuevas o no estructuradas.

a Priorice su lista de oportunidades y seleccione un proyecto con un retorno discernible sobre la inversión. Para identificar el mejor proyecto, considere sus respuestas a las siguientes preguntas:

- ¿Qué estoy tratando de lograr?

- ¿Este proyecto se alinea con objetivos empresariales estratégicos?

- ¿Puede obtener el respaldo de la gerencia para el proyecto?

- ¿El análisis de Big Data es prometedor en lo que respecta a la información comparado con el análisis tradicional?

- ¿Qué acciones puedo emprender basado en los resultados de mi proyecto?

- ¿Cuál es el retorno potencial sobre la inversión para mi empresa?

- ¿Puedo hacer que este proyecto genere valor en 6 a 12 meses?

- ¿Están disponibles los datos que necesito? ¿Qué tengo? ¿Qué necesito adquirir?

- ¿Los datos se recopilan en tiempo real, o son datos históricos?






Paso 2: Contratar las destrezas que necesita.

• Comprender y planificar las destrezas que necesita en la empresa y en TI.

a ¿Qué destrezas necesita para implementar la iniciativa con éxito? ¿Cuenta con esos recursos internamente?

a ¿Construirá destrezas desde dentro de la empresa? ¿Contratará nuevo talento? ¿Tercerizará?

a ¿Dónde se ubicarán estas personas dentro de la empresa? ¿En TI?

Paso 3: Implementar su solución de Big Data.

• Desarrollar uno/varios caso(s) de uso para su proyecto.

a Identifique los casos de uso requeridos para llevar a cabo su proyecto.

a Delinee los flujos de datos para ayudar a definir qué capacidades de tecnología y de Big Data son necesarias para resolver el problema empresarial.

a Decida qué datos incluir y cuáles dejar de lado. Identificar sólo los datos estratégicos que conducirán a información significativa.

a Determine cómo los datos se interrelacionan y la complejidad de las reglas empresariales.

a Identifique las consultas analíticas y los algoritmos requeridos para generar los resultados deseados.

a Considere si necesita soportar análisis avanzado como consultas interactivas o análisis predictivo, o soportar flujos de datos en tiempo real.

• Identificar las brechas entre las capacidades actuales y futuras.

a ¿Qué requerimientos de calidad de datos adicionales tendrá para compilar, depurar, y acumular datos en formatos utilizables?

a ¿Qué políticas de gobernanza de datos necesitará implementar para clasificar datos, definir su relevancia y almace- narlos, analizarlos, y acceder a ellos?

a ¿Qué capacidades de infraestructura necesitará implementar para garantizar la escalabilidad, la baja latencia, y el desempeño incluyendo capacidades de computación, almacenamiento, y de red?

a ¿Necesita agregar los componentes especializados como una base de datos NoSQL para búsquedas de baja latencia en grandes volúmenes de datos heterogéneos?

a Si usted planifica procesar un flujo continuo de datos en tiempo real, ¿qué capacidades de infraestructura y memoria adicionales necesitará? ¿Usted requerirá un dispositivo de análisis en memoria MPP? ¿Una solución CEP?

a ¿Usted considera la computación en la nube para su modelo de servicio? ¿Qué tipo de ambiente de nube usará? ¿Privado, híbrido, público?

a ¿Cómo se presentarán los datos a los usuarios? Los hallazgos necesitan entregarse de una manera fácil de entender a una variedad de usuarios empresariales, desde ejecutivos sénior hasta profesionales informáticos.

• Desarrollar un ambiente de prueba para una versión de producción.

a Adapte las arquitecturas de referencia para su empresa. Intel está trabajando con socios líderes para desarrollar arquitecturas de referencia que pueden ayudar a ser parte del programa Intel Cloud Builders alrededor de casos de uso de Big Data.






a Defina el nivel de presentación, el nivel de aplicación analítica, el almacenamiento de datos, y si fuera aplicable, la administración de datos de nube privada o pública.

a Determine las herramientas que los usuarios requieren para presentar resultados de manera significativa. La adopción de herramientas por parte del usuario influenciará significativamente el éxito general de su proyecto.

Recursos Intel para conocer más

Además de los recursos ya citados en este documento, visite los siguientes recursos interesantes.

Sitios Web

Para obtener recursos adicionales sobre Big Data:• Big data: intel.com/bigdata• Familia del procesador Intel Xeon E5: intel.com/xeone5• Familia del procesador Intel Xeon E7: intel.com/xeone7

Sobre las plataformas para Big Data

Acelerar el análisis de Big Data con tecnologías Intel® Este documento describe las tecnologías disponibles de Intel que las empresas pueden usar para escalar los clusters Apache Hadoop a fin de manejar el creciente volumen, variedad y velocidad de los datos. Al usar menos servidores más poderosos, las empresas pueden reducir significativamente sus costos operativos. intel.com/content/www/us/en/big-data/big-data-analysis-intel-technologies-paper.html

Big Data Mining en la empresa para una mejor inteligencia de negocios Este documento técnico de Intel describe cómo Intel está implementando los sistemas y las destrezas para analizar Big Data e impulsar así las eficiencias operativas y la ventaja competitiva. TI de Intel, en colaboración con los grupos empresariales de Intel, está implementado varias pruebas de concepto para una plataforma de Big Data, incluyendo detección de malware, validación de diseño de chips, inteligencia de mercado, y un sistema de recomendación. intel.com/content/www/us/en/it-management/intel-it-best-practices/mining-big-data-In-the-enterprise-for-better-business-intelligence.html

Extraer el valor de Big Data para la empresa Este informe de solución describe cómo el marco Apache Hadoop proporciona las bases que usted puede implementar hoy para valor esperado, y después expandir para satisfacer crecientes necesidades. http://software.intel.com/sites/default/files/article/402151/extract-business-value-from-big-data.pdf

Investigación de colegas: Análisis de Big Data (2013) Lea el informe completo de los resultados de le encuesta 2013 de Intel de 200 administradores de TI que proporciona información sobre cómo las organizaciones están usando análisis de Big Data hoy día, incluyendo por qué las organizaciones necesitan avanzar y qué significa la investigación para la industria de TI. Los puntos esenciales se destacan en el video “Los administradores de TI hablan sobre el análisis de Big Data”. Esta investigación expande sobre los resultados de la Encuesta 2012 de Intel sobre Big Data. intel.com/

Información en su idioma: DialogoTI.intel.com





http://www.intel.com/content/www/us/en/big-data/big-data-analytics-turning-big-data-into-intelligence.html

http://www.intel.com/content/www/us/en/processors/xeon/xeon-processor-5000-sequence.html


http://www.intel.com/content/www/us/en/big-data/big-data-analysis-intel-technologies-paper.html

http://www.intel.com/content/www/us/en/it-management/intel-it-best-practices/mining-big-data-In-the-enterprise-for-better-business-intelligence.html

http://www.intel.com/content/www/us/en/it-management/intel-it-best-practices/mining-big-data-In-the-enterprise-for-better-business-intelligence.html

http://software.intel.com/sites/default/files/article/402151/extract-business-value-from-big-data.pdf

http://software.intel.com/sites/default/files/article/402151/extract-business-value-from-big-data.pdf

http://www.intel.com/content/www/us/en/big-data/big-data-analytics-peer-research-linda-feldt-video.html

http://www.intel.com/content/www/us/en/big-data/big-data-analytics-2013-peer-research-report.html

http://dialogoti.intel.com


content/www/us/en/big-data/big-data-analytics-2013-peer-research-report.html

Análisis predictivo: Use todos sus datos para competir y ganar Cómo analizar Big Data es tan importante como los datos mismos. El informe de solución describe cómo las organizaciones pueden implementar de manera económica plataformas extensibles de Big Data para el análisis descriptivo, las consultas interactivas, y el análisis predictivo. software.intel.com/sites/default/files/article/486773/sb-use-all-your-data-to-compete-and-win.pdf

Convertir a Big Data en un gran valor: Una estrategia práctica Las innovaciones de Intel en el silicón, los sistemas, y el software pueden ayudarlo a implementar tres modelos de uso (ETL usando software Apache Hadoop, consultas interactivas, y análisis predictivo sobre la plataforma Hadoop) y otras soluciones de Big Data con desempeño, costo y eficiencia energética óptimos. software.intel.com/sites/default/files/article/402150/turn-big-data-into-big-value.pdf






http://software.intel.com/sites/default/files/article/486773/sb-use-all-your-data-to-compete-and-win.pdf


1. Investigación de colegas sobre el análisis de Big Data: Encuesta 2013 de Intel de administradores de TI sobre cómo las organizaciones están usando Big Data Intel (agosto de 2013) (en inglés). intel.com/content/www/us/en/big-data/big-data-analytics-2013-peer-research-report.html

2. “La Internet de las cosas está preparada para cambiar todo, dice IDC.” Business Wire (3 de octubre de 2013) (en inglés). businesswire.com/news/home/20131003005687/en/Internet-Poised-Change-IDC#.UvFfLfldXzg

3. Elliott, Timo. “¿Por qué la computación en memoria es más barata y lo cambia todo?” Business Analytics (blog) (17 de abril de 2013) (en inglés). http://timoelliott.com/blog/2013/04/why-in-memory-computing-is-cheaper-and-changes-everything.html

4. El software y las cargas de trabajo utilizadas en las pruebas de desempeño podrían haber sido optimizadas para desempeño únicamente en microprocesadores Intel. Las pruebas de desempeño, como SYSmark* y MobileMark*, se miden utilizando sistemas de computación, componentes, software, operaciones y funciones específicos. Cualquier cambio en alguno de estos factores puede dar lugar a que los resultados varíen. Debe consultar otra información y pruebas de desempeño que lo ayuden a evaluar en forma completa sus compras contempladas, incluido el desempeño de ese producto cuando se lo combina con otros productos.

5. Los benchmarks TeraSort realizados por Intel en diciembre

de 2012. Ajustes personalizados: mapred.reduce.tasks=100 y mapred.job.reuse.jvm.num.tasks=-1. Para obtener mas información visite http://hadoop.apache.org/docs/current/api/org/apache/hadoop/examples/terasort/package-summary.html.

6. Configuración del cluster: Un nodo cabezal (nodo de nombre, rastreador de trabajos), 10 trabajadores (nodos de datos, rastreadores de tareas), switch Cisco Nexus* 5020 10 Gigabit. Nodo trabajador básico: servidores 1U SuperMicro* SYS-1026T-URF con dos procesadores Intel Xeon X5690 a 3,47 GHz, 48 GB de RAM, unidades de disco duro SATA de 700 GB y 7200 RPM, Adaptador de servidor Intel® Ethernet I350-T2, software Apache Hadoop 1.0.3, sistema operativo Red Hat Enterprise Linux* 6.3, plataforma

Oracle Java* 1.7.0_05. Procesador y sistema base actualizados en nodo trabajador: Servidores 2U Dell PowerEdge* R720 con dos procesadores de la familia de productos Intel® Xeon® E5-2690 a 2,90 GHz, 128 GB de RAM. Almacenamiento actualizado en nodo trabajador: Intel® Solid-State Drive serie 520. Adaptador de red actualizado en nodo trabajador: Adaptador de Red Convergente Intel Ethernet X520-DA2. Software actualizado en nodo trabajador: Distribución Intel® para el software Apache Hadoop* 2.1.1.

7. En una plataforma de cuatro sockets conectada nativamente: La familia del procesador Intel Xeon E7 soporta 64 DIMMs, memoria máxima por DIMM de DIMMM registrada de 32 GB (RDIMM); la familia de procesadores Intel Xeon E7 v2 soporta 96 DIMMs, max. memoria por DIMM de RDIMM de 64 GB . Esto permite un incremento de tres veces en la memoria.

8. El desempeño de la base de datos usando la solución en memoria, resultados del benchmark basados en un benchmark de Prueba de desempeño y escalabilidad (POPS) de base de datos interna de 10 TB con IBM* DB2*: intel.com/content/www/us/en/big-data/big-data-xeon-e7-v2-unlock-the-value-ibm-paper.html. La mejora del desempeño aparece como el acumulado de todas las consultas en la carga de trabajo. Los resultados individuales variarán dependiendo de las cargas de trabajo, las configuraciones y las condiciones particulares. Común a las tres configuraciones: servidor SuSE* LINUX Enterprise 11 SP3 x86-64, 1.024 GB de memoria, almacenamiento IBM* XIV* Gen3 incorporado con Fibre Channel (FC) de 8 Gbps vía switch SAN de 8 GB con espacio total no procesado de 111 TB (discos de 2 TB x 12/módulos pModule x 11 XIV). Configuración base de software de “software de generación anterior”: IBM DB2 10.1 + procesador Intel Xeon E7-4870 de 4 sockets usando la solución IBM Gen3 XIV FC SAN completando las consultas en alrededor de 3,75 horas en comparación con la nueva configuración de la “nueva generación”: IBM DB2 10.5 con Aceleración BLU + familia de productos del procesador Intel Xeon E7-4890 v2 de 4 sockets usando tablas en memoria (1TB total) completando las mismas consultas en alrededor de 90 minutos.

9. Huang, Shengsheng, Jie Huang, Jinquan Dai, Tao Xie, Bo Huang. La suite dl benchmark HiBench: Caracterización del análisis de datos basado en MapReduce (en Inglés) IEEE (marzo de 2010).

Notas finales

Los resultados se han simulado y se ofrecen con fines informativos exclusivamente. Los resultados se obtuvieron usando simulaciones ejecutadas en un simulador o modelo de arquitectura. Cualquier diferencia en el diseño o la configuración del hardware o software del sistema podría afectar el desempeño real.

El desempeño relativo se calcula asignando un valor base de 1,0 a un resultado del benchmark, dividiendo luego el resultado real del benchmark correspondiente a la plataforma base por cada uno de los resultados específicos del benchmark de las demás plataformas, y asignándoles un número de desempeño relativo que se corresponda con las mejoras del desempeño informadas.

Los compiladores de Intel pueden o no optimizarse al mismo nivel para los microprocesadores que no son de Intel para optimizaciones que no son exclusivas para los microprocesadores Intel. Estas optimizaciones incluyen conjuntos de instrucciones SSE2, SSE3 y SSSE3 y otras optimizaciones. Intel no garantiza la disponibilidad, funcionalidad o efectividad de cualquier optimización de microprocesadores no fabricados por Intel. Las optimizaciones dependientes del microprocesador en este producto han sido diseñadas para uso en microprocesadores Intel. Ciertas optimizaciones no específicas de la microarquitectura Intel están reservadas para microprocesadores Intel. Consulte las Guías de Usuario y Referencia de producto correspondientes para obtener más información sobre los conjuntos específicos de instrucciones que cubre esta notificación: Revisión de la notificación #20110804

Los números de procesadores Intel no son una medida del desempeño. Los números de procesadores diferencian características dentro de cada familia de procesador, no a través de diferentes familias de procesadores. Visitar intel.com/content/www/us/en/processors/processor-numbers.html.







http://www.businesswire.com/news/home/20131003005687/en/Internet-Poised-Change-IDC#.Uw_ArSSTxxN

http://www.businesswire.com/news/home/20131003005687/en/Internet-Poised-Change-IDC#.Uw_ArSSTxxN

http://timoelliott.com/blog/2013/04/why-in-memory-computing-is-cheaper-and-changes-everything.html

http://timoelliott.com/blog/2013/04/why-in-memory-computing-is-cheaper-and-changes-everything.html

http://hadoop.apache.org/docs/current/api/org/apache/hadoop/examples/terasort/package-summary.html

http://hadoop.apache.org/docs/current/api/org/apache/hadoop/examples/terasort/package-summary.html

http://www.intel.com/content/www/us/en/big-data/big-data-xeon-e7-v2-unlock-the-value-ibm-paper.html

http://www.intel.com/content/www/us/en/big-data/big-data-xeon-e7-v2-unlock-the-value-ibm-paper.html

http://www.intel.com/content/www/us/en/processors/processor-numbers.html

Más sobre Intel® IT CenterLa Guía de planificación “Comenzando con Big Data” es presentada por Intel® IT Center. Intel IT Center está diseñado para proporcionar información directa y sin rodeos para ayudar a los profesionales de TI a implementar proyectos estratégicos en su plan de trabajo, incluyendo la virtualización, el diseño del centro de datos, Big Data y la seguridad de la nube, de las PCs cliente y de la infraestructura. Visite Intel IT Center para conocer sobre:

• Guías de planificación, investigación de colegas y puntos destacados de soluciones para ayudarlo a implementar proyectos clave

• Casos de estudio del mundo real que muestran cómo sus colegas han abordado los mismos desafíos que usted enfrenta

• Información sobre cómo la propia organización de TI de Intel está implementando la nube, la virtualización, la seguridad, y otras iniciativas estratégicas

• Información sobre eventos donde usted podrá escuchar a expertos de productos Intel así como también a los propios profesionales de TI de Intel

Comparta con colegas

LegalesEste documento se ofrece con fines meramente informativos. ESTE DOCUMENTO SE SUMINISTRA “COMO ESTÁ” SIN INCLUIR NINGÚN TIPO DE GARANTÍA, INCLUYENDO CUALQUIER GARANTÍA RELACIONADA CON LA COMERCIABILIDAD, LA NO INFRACCIÓN, LA IDONEIDAD PARA UN FIN DETERMINADO, O CUALQUIER GARANTÍA QUE SURJA DE CUALQUIER TIPO DE PROPUESTA, ESPECIFICACIÓN O MUESTRA. Intel rechaza toda responsabilidad, incluyendo la responsabilidad por infracción de derechos de propiedad, relacionados con el uso de esta información. Este documento no concede ninguna licencia, ni expresa ni implícita, ni por exclusión ni de ninguna otra manera, sobre ningún derecho de propiedad intelectual.

Copyright © 2014 Intel Corporation. Todos los derechos reservados. Intel, el logotipo de Intel, Intel Atom, el logotipo de Look Inside, y Xeon son marcas comerciales de Intel Corporation en los EE.UU. y en otros países.

*Otros nombres y marcas pueden ser reclamados como propiedad de terceros.

0614/RF/ME/PDF-SP 330278-001

Para conocer más información en su idioma visiteDialogoTI.intel.com





http://dialogoti.intel.com

comenzando con big data - intel | soluciones de data ... · ... y los cambios en la manera en que...

Documents