amazon athena - guía del usuario - aws documentation · amazon athena guía del usuario amazon's...

222
Amazon Athena Guía del usuario Amazon Athena: Guía del usuario Copyright © 2018 Amazon Web Services, Inc. and/or its affiliates. All rights reserved.

Upload: trinhlien

Post on 08-Nov-2018

253 views

Category:

Documents


0 download

TRANSCRIPT

  • Amazon AthenaGua del usuario

    Amazon Athena: Gua del usuarioCopyright 2018 Amazon Web Services, Inc. and/or its affiliates. All rights reserved.

  • Amazon Athena Gua del usuario

    Amazon's trademarks and trade dress may not be used in connection with any product or service that is not Amazon's, in any mannerthat is likely to cause confusion among customers, or in any manner that disparages or discredits Amazon. All other trademarks notowned by Amazon are the property of their respective owners, who may or may not be affiliated with, connected to, or sponsored byAmazon.

  • Amazon Athena Gua del usuario

    Table of ContentsQu es Amazon Athena? ................................................................................................................... 1

    Cundo debo usar Athena? ....................................................................................................... 1Acceso a Athena ........................................................................................................................ 1Descripcin de las tablas, bases de datos y el catlogo de datos ....................................................... 2

    Notas de la versin ............................................................................................................................ 47 de septiembre de 2018 ............................................................................................................. 56 de septiembre de 2018 ............................................................................................................. 523 de agosto de 2018 ................................................................................................................. 616 de agosto de 2018 ................................................................................................................. 67 de agosto de 2018 .................................................................................................................. 75 de junio de 2018 ..................................................................................................................... 7

    Compatibilidad con vistas .................................................................................................... 7Mejoras y actualizaciones de los mensajes de error ................................................................. 7Correcciones de errores ...................................................................................................... 8

    17 de mayo de 2018 .................................................................................................................. 819 de abril de 2018 .................................................................................................................... 86 de abril de 2018 ...................................................................................................................... 915 de marzo de 2018 ................................................................................................................. 92 de febrero de 2018 .................................................................................................................. 919 de enero de 2018 .................................................................................................................. 913 de noviembre de 2017 .......................................................................................................... 101 de noviembre de 2017 ............................................................................................................ 1019 de octubre de 2017 .............................................................................................................. 103 de octubre de 2017 ................................................................................................................ 1025 de septiembre de 2017 ......................................................................................................... 1114 de agosto de 2017 ............................................................................................................... 114 de agosto de 2017 ................................................................................................................. 1122 de junio de 2017 .................................................................................................................. 118 de junio de 2017 ................................................................................................................... 1119 de mayo de 2017 ................................................................................................................. 11

    Mejoras ........................................................................................................................... 12Correcciones de errores ..................................................................................................... 12

    4 de abril de 2017 .................................................................................................................... 13Caractersticas .................................................................................................................. 13Mejoras ........................................................................................................................... 13Correcciones de errores ..................................................................................................... 13

    24 de marzo de 2017 ................................................................................................................ 14Caractersticas .................................................................................................................. 14Mejoras ........................................................................................................................... 14Correcciones de errores ..................................................................................................... 14

    20 de febrero de 2017 ............................................................................................................... 14Caractersticas .................................................................................................................. 14Mejoras ........................................................................................................................... 16

    Configuracin ................................................................................................................................... 17Inscripcin en AWS ................................................................................................................... 17

    Para crear una cuenta de AWS .......................................................................................... 17Creacin de un usuario de IAM .................................................................................................. 17

    Para crear un grupo de administradores ............................................................................... 17Para crear su propio usuario de IAM, aada el usuario al grupo de administradores y cree unacontrasea para el usuario ................................................................................................. 18

    Asociacin de polticas administradas para el uso de Athena ........................................................... 18Introduccin ..................................................................................................................................... 20

    Requisitos previos ..................................................................................................................... 20Paso1: Creacin de una base de datos ....................................................................................... 20

    iii

  • Amazon Athena Gua del usuario

    Paso 2: Crear una tabla ............................................................................................................ 21Paso 3: Consultar los datos ....................................................................................................... 22

    Acceso a Amazon Athena .................................................................................................................. 24Mediante la consola .................................................................................................................. 24Uso de la API .......................................................................................................................... 24Mediante la CLI ........................................................................................................................ 25

    Integracin con AWS Glue ................................................................................................................. 26Actualizacin al catlogo de datos de AWS Glue paso a paso ......................................................... 27

    Paso 1: Permitir a un usuario realizar la actualizacin ............................................................ 27Paso 2: Actualizar las polticas administradas por el cliente/polticas insertadas asociadas ausuarios de Athena ........................................................................................................... 28Paso 3: Elegir Upgrade (Actualizar) en la consola de Athena ................................................... 28

    Preguntas frecuentes: actualizacin a AWS Glue Data Catalog ........................................................ 29Por qu debera actualizarme a AWS Glue Data Catalog? ..................................................... 29Se aplican cargos separados para AWS Glue? .................................................................... 30Preguntas frecuentes sobre el proceso de actualizacin .......................................................... 30

    Prcticas recomendadas para el uso de Athena con AWS Glue ....................................................... 32Nombres de bases de datos, tablas y columnas .................................................................... 32Uso de rastreadores de AWS Glue ...................................................................................... 33Trabajo con archivos CSV .................................................................................................. 36Uso de trabajos de AWS Glue para ETL con Athena .............................................................. 38

    Conexin a Amazon Athena con controladores ODBC y JDBC ................................................................ 41Uso de Athena con el controlador JDBC ...................................................................................... 41

    Enlaces para descargar el controlador JDBC ........................................................................ 41Notas de la versin, contrato de Licencia y avisos del controlador JDBC .................................... 41Migracin desde la versin anterior del controlador JDBC ....................................................... 42

    Conexin a Amazon Athena con ODBC ....................................................................................... 42Contrato de licencia del controlador ODBC de Amazon Athena ................................................ 42Windows .......................................................................................................................... 42Linux ............................................................................................................................... 42OSX ................................................................................................................................ 43Documentacin del controlador ODBC ................................................................................. 43Migracin desde la versin anterior del controlador ODBC ...................................................... 43Versiones anteriores del controlador ODBC .......................................................................... 43

    Seguridad ........................................................................................................................................ 45Poltica de control de acceso ...................................................................................................... 45

    Polticas administradas para el acceso de los usuarios ........................................................... 45Acceso a Amazon S3 ........................................................................................................ 49Acceso detallado a las bases de datos y tablas ..................................................................... 49Acceso a metadatos cifrados en Data Catalog ...................................................................... 56Acceso entre cuentas ........................................................................................................ 57

    Configuracin de las opciones de cifrado ..................................................................................... 57Opciones de cifrado de Amazon S3 compatibles con Athena ................................................... 58Cifrado de los resultados de las consultas almacenadas en Amazon S3 .................................... 59Permisos para datos cifrados en Amazon S3 ........................................................................ 60Permisos para metadatos cifrados en el catlogo de datos de AWS Glue .................................. 60Creacin de tablas basadas a partir de conjuntos de datos cifrados en Amazon S3 ..................... 60

    Uso de orgenes de datos .................................................................................................................. 63Proceso de creacin de tablas y bases de datos en Athena ............................................................ 63

    Requisitos para las tablas en Athena y los datos en Amazon S3 .............................................. 64Funciones compatibles ...................................................................................................... 64No se admiten instrucciones de tipo CREATE TABLE AS ....................................................... 64No se admiten transformaciones de datos transaccionales ...................................................... 64Operaciones que cambian el estado de las tablas son ACID .................................................... 65Todas las tablas son EXTERNAL ........................................................................................ 65No se admite UDF ni UDAF ............................................................................................... 65Para crear una tabla con el catlogo de datos de AWS Glue ................................................... 65

    iv

  • Amazon Athena Gua del usuario

    Para crear una tabla con el asistente ................................................................................... 65Para crear una base de datos con DDL de Hive .................................................................... 66Para crear una tabla con DDL de Hive ................................................................................ 67

    Nombres de tablas, bases de datos y columnas ............................................................................ 67Los nombres de las tablas y de las columnas Athena deben estar en minsculas ........................ 67Los nombres de tablas, bases de datos y columnas de Athena permiten nicamente el carcterespecial de guion bajo ....................................................................................................... 67Nombres que comienzan con un guion bajo .......................................................................... 68Nombres de tablas que incluyen nmeros ............................................................................ 68

    Palabras clave reservadas ......................................................................................................... 68Lista de palabras reservadas en instrucciones DDL ................................................................ 68Lista de palabras reservadas en instrucciones SQL SELECT ................................................... 69Ejemplos de consultas con palabras reservadas .................................................................... 69

    Ubicacin de las tablas en Amazon S3 ........................................................................................ 70Particiones de datos .................................................................................................................. 70

    Situacin 1: Los datos ya estn particionados y se almacenan en S3 en formato Hive .................. 71Situacin 2: Los datos no estn particionados ....................................................................... 72

    Conversin a formato de columnas ............................................................................................. 74Informacin general ........................................................................................................... 74Antes de empezar ............................................................................................................. 20Ejemplo: Conversin de datos a Parquet mediante un clster de EMR ...................................... 76

    Consulta de datos en tablas de Amazon Athena ................................................................................... 79Resultados de las consultas ....................................................................................................... 79

    Guardar los resultados de las consultas ............................................................................... 80Visualizacin del historial de consultas ......................................................................................... 80

    Visualizacin del historial de consultas ................................................................................. 81Vistas ...................................................................................................................................... 81

    Cundo usar vistas ........................................................................................................... 81Acciones compatibles con las vistas en Athena ..................................................................... 82Uso de vistas en la consola ............................................................................................... 83Creacin de vistas ............................................................................................................ 84Ejemplos de vistas ............................................................................................................ 84Actualizacin de vistas ...................................................................................................... 85Eliminacin de vistas ......................................................................................................... 85

    Matrices de consulta ................................................................................................................. 85Creacin de matrices ........................................................................................................ 86Concatenacin de matrices ................................................................................................ 87Conversin de tipos de datos de matrices ............................................................................ 88Determinacin de longitudes ............................................................................................... 88Acceso a los elementos de la matriz ................................................................................... 89Aplanamiento de matrices anidadas ..................................................................................... 89Creacin de matrices a partir de subconsultas ...................................................................... 92Filtro de matrices .............................................................................................................. 92Ordenacin de matrices ..................................................................................................... 93Uso de funciones de agregacin con matrices ....................................................................... 94Conversin de matrices en cadenas .................................................................................... 94

    Consultas de matrices con tipos complejos y estructuras anidadas ................................................... 95Creacin de un valor ROW .................................................................................................. 95Cambio de los nombres de campos en matrices utilizando CAST .............................................. 95Filtro de matrices utilizando la notacin . ............................................................................. 96Filtro de matrices con valores anidados ............................................................................... 97Filtro de matrices con UNNEST ............................................................................................ 97Bsqueda de palabras clave en matrices mediante regexp_like ........................................... 98

    Consultas de matrices con mapas ............................................................................................. 100Ejemplos ......................................................................................................................... 86

    Consulta de JSON .................................................................................................................. 101Prcticas recomendadas para la lectura de datos JSON ....................................................... 101

    v

  • Amazon Athena Gua del usuario

    Extraccin de datos de JSON ........................................................................................... 103Bsqueda de valores ....................................................................................................... 105Obtencin de la longitud y el tamao de matrices JSON ....................................................... 107

    Consulta de datos geoespaciales ...................................................................................................... 109Qu es una consulta geoespacial? .......................................................................................... 109Formatos de datos de entrada y tipos de datos geomtricos .......................................................... 109

    Formatos de los datos de entrada ..................................................................................... 110Tipos de datos geomtricos .............................................................................................. 110

    Lista de las funciones geoespaciales admitidas ........................................................................... 110Antes de empezar ........................................................................................................... 110Funciones del constructor ................................................................................................. 111Funciones de relaciones geoespaciales .............................................................................. 112Funciones de operacin ................................................................................................... 114Funciones del descriptor de acceso ................................................................................... 116

    Ejemplos: Consultas geoespaciales ........................................................................................... 118Consulta de los logs de servicio de AWS ........................................................................................... 121

    Consulta de registros de AWS CloudTrail ................................................................................... 121Descripcin de los registros de CloudTrail y las tablas de Athena ........................................... 122Creacin de una tabla para los registros de CloudTrail en la consola de CloudTrail .................... 122Creacin manual de la tabla para los registros de CloudTrail en Athena ................................... 123Sugerencias para consultar los registros de CloudTrail .......................................................... 124

    Consulta de registros de Amazon CloudFront .............................................................................. 125Creacin de la tabla para los registros de CloudFront ........................................................... 125Consulta de ejemplo de registros de CloudFront .................................................................. 126

    Consulta de logs de Classic Load Balancer ................................................................................ 126Creacin de la tabla para los registros de Elastic Load Balancing ........................................... 127Ejemplos de consultas de registros de Elastic Load Balancing ................................................ 127

    Consulta de los logs de Application Load Balancer ....................................................................... 128Creacin de la tabla para registros de ALB ......................................................................... 128Consultas de ejemplo para registros de ALB ....................................................................... 129

    Consulta de los registros de flujo de Amazon VPC ....................................................................... 130Creacin de la tabla para los registros de flujo de VPC ......................................................... 130Ejemplos de consultas de registros de flujo de Amazon VPC ................................................. 131

    Gestin de las actualizaciones de los esquemas .................................................................................. 132Resumen: Actualizaciones y formatos de datos en Athena ............................................................ 132Acceso de ndice en ORC y Parquet .......................................................................................... 134

    ORC: lectura por ndice ................................................................................................... 134Parquet: lectura por nombre ............................................................................................. 135

    Tipos de actualizaciones .......................................................................................................... 135Adicin de columnas al principio o en medio de la tabla ........................................................ 136Adicin de columnas al final de la tabla .............................................................................. 136Eliminacin de columnas .................................................................................................. 137Cambio del nombre de las columnas ................................................................................. 138Cambio del orden de las columnas .................................................................................... 139Cambio del tipo de datos de una columna .......................................................................... 139

    Actualizaciones en tablas con particiones ................................................................................... 140Cmo evitar los errores de discrepancia de esquemas para las tablas con particiones ................ 141

    Monitorizacin de logs y solucin de problemas ................................................................................... 142Registro de llamadas a la API de Amazon Athena con AWS CloudTrail ........................................... 142

    Informacin de Athena en CloudTrail ................................................................................. 142Descripcin de las entradas de los archivos de registro de Athena .......................................... 143

    Solucin de problemas ............................................................................................................. 145Referencia del SerDe ...................................................................................................................... 146

    Uso de un SerDe .................................................................................................................... 146Para utilizar un SerDe en consultas ................................................................................... 146

    Formatos de datos y SerDes compatibles ................................................................................... 147El SerDe de Avro ............................................................................................................ 148

    vi

  • Amazon Athena Gua del usuario

    RegexSerDe para procesar logs de servidor web Apache ...................................................... 151SerDe CloudTrail ............................................................................................................. 151OpenCSVSerDe para procesamiento de CSV ...................................................................... 153El SerDe de Grok ........................................................................................................... 156Bibliotecas de SerDe JSON .............................................................................................. 158LazySimpleSerDe para CSV, TSV y archivos con delimitacin personalizada ............................ 161El SerDe de ORC ........................................................................................................... 166El SerDe de Parquet ....................................................................................................... 169

    Formatos de compresin .......................................................................................................... 171Referencia de DDL y SQL ................................................................................................................ 173

    Tipos de datos ........................................................................................................................ 173Lista de tipos de datos compatibles en Athena .................................................................... 173

    Instrucciones DDL ................................................................................................................... 174ALTER DATABASE SET DBPROPERTIES ......................................................................... 175ALTER TABLE ADD PARTITION ....................................................................................... 175ALTER TABLE DROP PARTITION .................................................................................... 176ALTER TABLE RENAME PARTITION ................................................................................ 177ALTER TABLE SET LOCATION ........................................................................................ 177ALTER TABLE SET TBLPROPERTIES .............................................................................. 178CREATE DATABASE ...................................................................................................... 178CREATE TABLE ............................................................................................................. 179CREATE VIEW ............................................................................................................... 182DESCRIBE TABLE .......................................................................................................... 183DESCRIBE VIEW ............................................................................................................ 184DROP DATABASE .......................................................................................................... 184DROP TABLE ................................................................................................................. 185DROP VIEW .................................................................................................................. 185MSCK REPAIR TABLE .................................................................................................... 185SHOW COLUMNS .......................................................................................................... 186SHOW CREATE TABLE .................................................................................................. 186SHOW CREATE VIEW .................................................................................................... 186SHOW DATABASES ....................................................................................................... 187SHOW PARTITIONS ....................................................................................................... 187SHOW TABLES .............................................................................................................. 187SHOW TBLPROPERTIES ................................................................................................ 188SHOW VIEWS ................................................................................................................ 188

    Consultas, funciones y operadores de SQL ................................................................................. 189SELECT ........................................................................................................................ 190

    DDL no admitido ..................................................................................................................... 193Limitaciones ........................................................................................................................... 194

    Ejemplos de cdigo, lmites de los servicios y versin anterior del controlador JDBC .................................. 196Ejemplos de cdigo ................................................................................................................. 196

    Creacin de un cliente para obtener acceso a Athena .......................................................... 196Iniciar una ejecucin de consulta ....................................................................................... 197Detener una ejecucin de consulta .................................................................................... 200Generar una lista de ejecuciones de consultas .................................................................... 201Creacin de una consulta con nombre ............................................................................... 202Eliminacin de una consulta con nombre ............................................................................ 202Lista de consultas con nombre .......................................................................................... 203

    Uso de la versin anterior del controlador JDBC .......................................................................... 204Uso de la versin anterior del controlador JDBC .................................................................. 204Instrucciones para el controlador JDBC versin 1.1.0 ............................................................ 205

    Lmites de los servicios ............................................................................................................ 209Historial del documento .................................................................................................................... 211AWS Glossary ................................................................................................................................ 215

    vii

  • Amazon Athena Gua del usuarioCundo debo usar Athena?

    Qu es Amazon Athena?Amazon Athena es un servicio de consultas interactivo que facilita el anlisis de datos directamente enAmazon Simple Storage Service (Amazon S3) mediante SQL estndar. Unas pocas acciones en la consolade administracin de AWS le permitirn apuntar Athena a los datos guardados en Amazon S3 y comenzara usar SQL estndar para realizar consultas ad hoc y obtener resultados en cuestin de segundos.

    Athena es un servicio sin servidor, por lo que no hay ninguna infraestructura que configurar o administrary solo paga por las consultas que realiza. Athena se ampla automticamente ejecutando consultasen paralelo, por lo que los resultados son rpidos, incluso con conjuntos de datos de gran tamao yconsultas complejas.

    Cundo debo usar Athena?Athena le ayuda a analizar datos no estructurados, semiestructurados y estructurados almacenados enAmazon S3. Algunos ejemplos son datos en CSV, JSON o con formatos de columnas, como ApacheParquet y Apache ORC. Puede usar Athena para ejecutar consultas ad-hoc con ANSI SQL y sin necesidadde agregar los datos o cargarlos en Athena.

    Athena se integra con AWS Glue Data Catalog, que ofrece un almacn de metadatos persistente para losdatos en Amazon S3. Esto le permite crear tablas y consultar datos en Athena partiendo de un almacnde metadatos central disponible en toda su cuenta de AWS e integrado con ETL y las caractersticas dedescubrimiento de datos de AWS Glue. Para obtener ms informacin, consulte la seccin Integracin conAWS Glue (p. 26) y Qu es AWS Glue? en la Gua para desarrolladores de AWS Glue.

    Athena se integra con Amazon QuickSight para facilitar la visualizacin de datos.

    Puede utilizar Athena para generar informes o para explorar datos con herramientas de inteligenciaempresarial o clientes SQL conectados mediante un controlador ODBC o JDBC. Para obtener msinformacin, consulte Qu es Amazon QuickSight? en la Gua del usuario de Amazon QuickSight yConnecting to Amazon Athena with ODBC and JDBC Drivers (p. 41).

    Puede crear consultas con nombre con AWS CloudFormation; y ejecutarlas en Athena. Las consultascon nombre permiten asignar un nombre a una consulta e invocarla en otras ocasiones refirindose a ellapor ese nombre. Para obtener ms informacin, consulte CreateNamedQuery en la Referencia de API deAmazon Athena y AWS:: Athena:: NamedQuery en la Gua del usuario de AWS CloudFormation.

    Acceso a AthenaPara el acceso a Athena puede usar la Consola de administracin de AWS, una conexin JDBC, la API deAthena o la CLI de Athena.

    Para iniciarse en el uso de la consola, consulte la Introduccin (p. 20). Para aprender el uso de JDBC, consulte Connecting to Amazon Athena with JDBC (p. 41). Para utilizar la API de Athena, consulte la Referencia de API de Amazon Athena. Para utilizar la CLI, instale la CLI de AWS y escriba aws athena help en la lnea de comandos para

    ver los comandos disponibles. Para obtener ms informacin sobre los comandos disponibles, consultela referencia de lnea de comandos de AWS Athena.

    1

    glue/latest/dg/what-is-glue.htmlquicksight/latest/user/welcome.htmlathena/latest/APIReference/API_CreateNamedQuery.htmlAWSCloudFormation/latest/UserGuide/aws-resource-athena-namedquery.htmlathena/latest/APIReference/Welcome.htmlcli/latest/userguide/installing.htmlcli/latest/reference/athena/
  • Amazon Athena Gua del usuarioDescripcin de las tablas, basesde datos y el catlogo de datos

    Descripcin de las tablas, bases de datos y elcatlogo de datos

    En Athena las tablas y bases de datos son contenedores de los metadatos que definen un esquemapara los datos de origen subyacentes. Para cada conjunto de datos debe existir una tabla en Athena. Losmetadatos de la tabla indican a Athena dnde se encuentran los datos en Amazon S3 y especifican suestructura; por ejemplo los nombres de columna, los tipos de datos y el nombre de la tabla. Las bases dedatos son una agrupacin lgica de tablas, y contienen nicamente informacin de metadatos y esquemapara un conjunto de datos.

    Para cada conjunto de datos que desee consultar, Athena debe tener una tabla subyacente que usarpara obtener y devolver los resultados de las consultas. Por lo tanto, para poder consultar los datos esnecesario haber registrado previamente una tabla en Athena. El registro se produce al crear las tablas deforma automtica o manual.

    Independientemente de cmo se creen las tablas, su proceso de creacin registra el conjunto de datos enAthena. El registro se produce en AWS Glue Data Catalog o en el catlogo de datos interno de Athena ypermite a Athena ejecutar consultas de los datos.

    Para crear una tabla automticamente, utilice un rastreador de AWS Glue desde Athena. Para obtenerms informacin sobre AWS Glue y los rastreadores, consulte Integration with AWS Glue (p. 26).Cuando AWS Glue crea una tabla, la registra en su propio catlogo de datos (AWS Glue Data Catalog).Athena utiliza AWS Glue Data Catalog para almacenar y recuperar estos metadatos y usarlos cuando seejecutan consultas para analizar el conjunto de datos subyacente.

    El acceso al catlogo de datos de AWS Glue es posible a travs de su cuenta de AWS. Otros serviciosde AWS pueden compartir AWS Glue Data Catalog, por lo que podr ver bases de datos y tablascreadas en toda la organizacin utilizando Athena y a la inversa. Adems, AWS Glue le permite descubrirautomticamente esquemas de datos y extraer, transformar y cargar datos (ETL).

    Note

    El catlogo de datos interno de Athena se usa en las regiones en las que AWS Glue no estdisponible o donde no puede usarse AWS Glue Data Catalog.

    Para crear una tabla manualmente: Utilice la consola de Athena para ejecutar el Asistente de creacin de tablas. Utilice la consola de Athena para escribir instrucciones DDL de Hive en el editor de consultas. Utilice la API o la CLI de Athena para ejecutar una cadena con una consulta SQL que contenga

    instrucciones DDL. Utilice el controlador ODBC o JDBC de Athena.

    Al crear tablas y bases de datos de forma manual, Athena usa internamente instrucciones del lenguaje dedefinicin de datos (DDL) de HiveQL, como CREATE TABLE, CREATE DATABASE y DROP TABLE paracrear tablas y bases de datos AWS Glue Data Catalog o en su propio catlogo de datos interno en lasregiones donde AWS Glue no est disponible.

    Note

    Si tiene en Athena creadas antes del 14 de agosto de 2017, se habrn creado en un catlogoadministrado por Athena, que existir de forma paralela a AWS Glue Data Catalog hasta quedecida actualizarlo. Para obtener ms informacin, consulte Actualizacin al catlogo de datos deAWS Glue paso a paso (p. 27).

    2

  • Amazon Athena Gua del usuarioDescripcin de las tablas, basesde datos y el catlogo de datos

    Cuando se consulta una tabla existente, Amazon Athena utiliza internamente Presto, un motor SQLdistribuido. Hay disponibles ejemplos con datos de muestra en Athena para mostrar cmo crear una tabla yentonces consultarla utilizando Athena. Athena tambin cuenta con un tutorial en la consola que le ayudara crear una tabla a partir de datos almacenados en Amazon S3.

    Para ver un tutorial paso a paso sobre cmo crear una tabla y escribir consultas en el editor de consultasde Athena, vea la Introduccin (p. 20).

    Ejecute el tutorial de Athena en la consola. El tutorial comenzar automticamente al iniciar sesin enhttps://console.aws.amazon.com/athena/ por primera vez. Tambin puede elegir Tutorial en la consolapara lanzarlo.

    3

    https://console.aws.amazon.com/athena/home
  • Amazon Athena Gua del usuario

    Notas de la versinDescribe caractersticas, mejoras y correcciones de errores de Amazon Athena por fecha de versin.

    Contenido 7 de septiembre de 2018 (p. 5) 6 de septiembre de 2018 (p. 5) 23 de agosto de 2018 (p. 6) 16 de agosto de 2018 (p. 6) 7 de agosto de 2018 (p. 7) 5 de junio de 2018 (p. 7)

    Compatibilidad con vistas (p. 7) Mejoras y actualizaciones de los mensajes de error (p. 7) Correcciones de errores (p. 8)

    17 de mayo de 2018 (p. 8) 19 de abril de 2018 (p. 8) 6 de abril de 2018 (p. 9) 15 de marzo de 2018 (p. 9) 2 de febrero de 2018 (p. 9) 19 de enero de 2018 (p. 9) 13 de noviembre de 2017 (p. 10) 1 de noviembre de 2017 (p. 10) 19 de octubre de 2017 (p. 10) 3 de octubre de 2017 (p. 10) 25 de septiembre de 2017 (p. 11) 14 de agosto de 2017 (p. 11) 4 de agosto de 2017 (p. 11) 22 de junio de 2017 (p. 11) 8 de junio de 2017 (p. 11) 19 de mayo de 2017 (p. 11)

    Mejoras (p. 12) Correcciones de errores (p. 12)

    4 de abril de 2017 (p. 13) Caractersticas (p. 13) Mejoras (p. 13) Correcciones de errores (p. 13)

    24 de marzo de 2017 (p. 14) Caractersticas (p. 14) Mejoras (p. 14) Correcciones de errores (p. 14)

    20 de febrero de 2017 (p. 14)

    4

  • Amazon Athena Gua del usuario7 de septiembre de 2018

    Caractersticas (p. 14) Mejoras (p. 16)

    7 de septiembre de 2018Publicado el 07/09/2018

    Si ha actualizado a AWS Glue Data Catalog, hay dos nuevas caractersticas que proporcionan soportepara:

    Cifrado de los metadatos de Data Catalog. Si decide cifrar los metadatos de Data Catalog, debe aadirlas polticas especficas a Athena. Para obtener ms informacin, consulte Acceso a metadatos cifradosdel AWS Glue Data Catalog (p. 56).

    Permisos detallados para el acceso a recursos de AWS Glue Data Catalog Ahora puede definir polticasbasadas en identidad (IAM) que restrinjan o permitan el acceso a bases de datos y tablas determinadasdel Data Catalog usado en Athena. Para obtener ms informacin, consulte Control de acceso detalladoa las bases de datos y tablas de AWS Glue Data Catalog (p. 49).

    Note

    Los datos residen en los buckets de Amazon S3 y el acceso a ellos se rige por los permisos deAmazon S3 (p. 49).

    6 de septiembre de 2018Publicado el 06/09/2018

    Se ha publicado la nueva versin del controlador ODBC (versin 1.0.3). La nueva versin del controladorODBC transmite los resultados de forma predeterminada, en lugar de paginarlos, lo que permite a lasherramientas de inteligencia empresarial obtener ms rpidamente grandes conjuntos de datos. Estaversin incluye tambin mejoras, correcciones de errores y una documentacin actualizada para "Usode SSL con un servidor proxy". Para obtener ms informacin, consulte las notas de la versin delcontrolador.

    Para descargar el nuevo controlador ODBC versin 1.0.3 y su documentacin, consulte Conexin aAmazon Athena con ODBC (p. 42).

    La caracterstica de streaming de resultados est disponible con esta nueva versin del controladorODBC. Tambin est disponible con el controlador JDBC. Para obtener ms informacin sobre losresultados de streaming, consulte la Gua de instalacin y configuracin del controlador ODBC y busqueUseResultsetStreaming.

    La versin 1.0.3 del controlador ODBC sustituye directamente a la versin anterior. Se recomienda migraral controlador actual.

    Important

    Para utilizar la versin del controlador ODBC 1.0.3, siga estos requisitos:

    Mantenga el puerto 444 abierto para el trfico de salida. Aada la accin de poltica athena:GetQueryResultsStream a la lista de polticas

    para Athena. Esta accin de poltica no se expone directamente con la API y solose utiliza con los controladores ODBC y JDBC como parte de la funcionalidad de

    5

    https://s3.amazonaws.com/athena-downloads/drivers/ODBC/SimbaAthenaODBC_1.0.3/release-notes.txthttps://s3.amazonaws.com/athena-downloads/drivers/ODBC/SimbaAthenaODBC_1.0.3/Simba+Athena+ODBC+Install+and+Configuration+Guide.pdf
  • Amazon Athena Gua del usuario23 de agosto de 2018

    resultados en streaming. Para ver una poltica de ejemplo, consulte Poltica administradaAWSQuicksightAthenaAccess (p. 47).

    23 de agosto de 2018Publicado el 23/08/2018

    Agregado soporte para caractersticas de DDL y corregidos algunos errores, como se indica:

    Agregado soporte para los tipos de datos BINARY y DATE de Parquet y para los tipos de datos DATE yTIMESTAMP de Avro.

    Agregado soporte para INT y DOUBLE en las consultas DDL. INTEGER es un alias de INT y DOUBLEPRECISION es un alias de DOUBLE.

    Mejora del rendimiento de las consultas DROP TABLE y DROP DATABASE. Se ha eliminado la creacin de un objeto _$folder$ en Amazon S3 cuando un bucket de datos est

    vaco. Corregido un problema por el que ALTER TABLE ADD PARTITION generaba un error cuando no se

    indicaba un valor de particin. Corregido un problema por el que DROP TABLE no tena en cuenta el nombre de la base de datos al

    comprobar las particiones despus de haberse especificado el nombre completo en la instruccin.

    Para obtener ms informacin sobre los tipos de datos admitidos en Athena, consulte Tipos dedatos (p. 173).

    Para obtener ms informacin acerca de las correspondencias entre los tipos de datos de Athena, elcontrolador JDBC y los tipos de datos de Java, consulte la seccin Data Types (Tipos de datos) en eldocumento JDBC Driver Installation and Configuration Guide.

    16 de agosto de 2018Publicado el 16/08/2018

    Se ha publicado el controlador JDBC versin 2.0.5. La nueva versin del controlador JDBC transmitelos resultados de forma predeterminada, en lugar de paginarlos, lo que permite a las herramientas deinteligencia empresarial obtener ms rpidamente grandes conjuntos de datos. En comparacin con laversin anterior del controlador JDBC, se introducen las siguientes mejoras en el rendimiento:

    Aproximadamente el doble de rendimiento al recuperar menos de 10.000 filas. Aproximadamente 5 o 6 veces ms rendimiento al recuperar ms de 10.000 filas.

    La caracterstica de streaming de resultados solo est disponible con el controlador JDBC. No estdisponible con el controlador ODBC. No puede utilizarla con la API de Athena. Para obtener msinformacin sobre el streaming de resultados, consulte la gua de instalacin y configuracin delcontrolador JDBC y busque UseResultsetStreaming.

    Para descargar el nuevo controlador JDBC versin 2.0.5 y su documentacin, consulte Uso de Athena conel controlador JDBC (p. 41).

    La versin 2.0.5 del controlador JDBC sustituye directamente a la versin anterior (2.0.2). Paraasegurarse de poder utilizar el controlador JDBC versin 2.0.5, aada la accin de polticaathena:GetQueryResultsStream a la lista de polticas para Athena. Esta accin de poltica

    6

    https://s3.amazonaws.com/athena-downloads/drivers/JDBC/SimbaAthenaJDBC_2.0.5/docs/Simba+Athena+JDBC+Driver+Install+and+Configuration+Guide.pdfhttps://s3.amazonaws.com/athena-downloads/drivers/JDBC/SimbaAthenaJDBC_2.0.5/docs/Simba+Athena+JDBC+Driver+Install+and+Configuration+Guide.pdfhttps://s3.amazonaws.com/athena-downloads/drivers/JDBC/SimbaAthenaJDBC_2.0.5/docs/Simba+Athena+JDBC+Driver+Install+and+Configuration+Guide.pdf
  • Amazon Athena Gua del usuario7 de agosto de 2018

    no se expone directamente con la API y solo se utiliza con el controlador JDBC como parte de lafuncionalidad de resultados en streaming. Para ver una poltica de ejemplo, consulte Poltica administradaAWSQuicksightAthenaAccess (p. 47). Para obtener ms informacin acerca de cmo migrar de laversin 2.0.2 a la versin 2.0.5 del controlador, consulte la gua de migracin del controlador JDBC.

    Si va a migrar desde un controlador 1.x a un controlador 2.x, tendr que migrar las configuracionesexistentes a la nueva configuracin. Recomendamos encarecidamente que migre a la versin actualdel controlador. Para obtener ms informacin, consulte Uso de la versin anterior del controladorJDBC (p. 204) y la gua de migracin del controlador JDBC.

    7 de agosto de 2018Publicado el 07/08/2018

    Ahora puede almacenar directamente registros de flujo de Amazon Virtual Private Cloud en Amazon S3con formato GZIP, lo que le permite consultarlos en Athena. Para obtener ms informacin, consulteConsulta de los registros de flujo de Amazon VPC (p. 130) y Ahora es posible entregar en S3 losregistros de flujo de Amazon VPC.

    5 de junio de 2018Publicado el 05/06/2018

    Temas Compatibilidad con vistas (p. 7) Mejoras y actualizaciones de los mensajes de error (p. 7) Correcciones de errores (p. 8)

    Compatibilidad con vistasSe ha agregado compatibilidad con vistas. Ahora puede usar CREATE VIEW (p. 182), DESCRIBEVIEW (p. 184), DROP VIEW (p. 185), SHOW CREATE VIEW (p. 186) y SHOW VIEWS (p. 188)en Athena. La consulta que define la vista se ejecuta cada vez que se hace referencia a su vista en suconsulta. Para obtener ms informacin, consulte Vistas (p. 81).

    Mejoras y actualizaciones de los mensajes de error Incluye una biblioteca GSON 2.8.0 en el CloudTrail SerDe para resolver un problema con el CloudTrail

    SerDe y habilitar el anlisis de cadenas JSON. Mejora de la validacin de esquemas de particiones en Athena para Parquet y, en algunos casos, para

    ORC, al permitir reordenar las columnas. De este modo, Athena puede afrontar mejor los cambios enla evolucin de los esquemas y las tablas agregadas por el rastreador de AWS Glue. Para obtener msinformacin, consulte la seccin sobre la gestin de actualizaciones de esquemas (p. 132).

    Se ha aadido compatibilidad de anlisis para SHOW VIEWS. Se han realizado las siguientes mejoras en los mensajes de error ms comunes:

    Reemplazado un mensaje Error interno por un mensaje de error descriptivo cuando un SerDeno logra analizar la columna de una consulta de Athena. Anteriormente, Athena generabaun error interno cuando se producan errores de anlisis. El nuevo mensaje de error es elsiguiente: HIVE_BAD_DATA: Error parsing field value for field 0: java.lang.String cannot be cast toorg.openx.data.jsonserde.json.JSONObject.

    7

    https://s3.amazonaws.com/athena-downloads/drivers/JDBC/SimbaAthenaJDBC_2.0.5/docs/Simba+Athena+JDBC+Driver+Migration+Guide.pdfhttps://s3.amazonaws.com/athena-downloads/drivers/JDBC/SimbaAthenaJDBC_2.0.5/docs/Simba+Athena+JDBC+Driver+Migration+Guide.pdfhttps://aws.amazon.com/about-aws/whats-new/2018/08/amazon-vpc-flow-logs-can-now-be-delivered-to-s3/https://aws.amazon.com/about-aws/whats-new/2018/08/amazon-vpc-flow-logs-can-now-be-delivered-to-s3/
  • Amazon Athena Gua del usuarioCorrecciones de errores

    Se han mejorado los mensajes de error acerca de la falta de permisos aadiendo ms detalles.

    Correcciones de erroresSe han corregido los siguientes errores:

    Se ha solucionado un problema que permite la traduccin interna de tipos de datos REAL a FLOAT. Estomejora la integracin con el rastreador de AWS Glue, que devuelve tipos de datos FLOAT.

    Corregido un problema que haca que Athena no convirtiera DECIMAL de AVRO (un tipo lgico) a un tipoDECIMAL.

    Corregido un problema que haca que Athena no devolviera resultados para las consultas de datosParquet con clusulas WHERE que hicieran referencia a valores con el tipo de datos TIMESTAMP.

    17 de mayo de 2018Publicado el 17/05/2018

    Incrementado el lmite de consultas simultneas en Athena de cinco a veinte. Esto significa que puedeenviar y ejecutar hasta veinte consultas DDL y veinte consultas SELECT a la vez. Tenga en cuenta que loslmites de simultaneidad son diferentes para las consultas DDL y SELECT.

    Los lmites de simultaneidad en Athena se definen como el nmero de consultas que se puede enviar alservicio a la vez. Puede enviar hasta veinte consultas del mismo tipo (DDL o SELECT) de forma simultnea.Si enva una consulta que supere el lmite de consultas simultneas, la API de Athena mostrar unmensaje de error: "You have exceeded the limit for the number of queries you can run concurrently.Reduce the number of concurrent queries submitted by this account. Contact customer support to requesta concurrent query limit increase. (Ha superado el lmite del nmero de consultas simultneas. Reduzcael nmero de consultas simultneas enviadas por esta cuenta. Pngase en contacto con el servicio deAtencin al cliente para solicitar un incremento del lmite de consultas simultneas.)"

    Una vez enviadas las consultas a Athena, este las procesa asignndoles recursos en funcin de la cargade servicio general y la cantidad de solicitudes entrantes. Monitoreamos de forma continua y realizamosajustes del servicio para que sus consultas se procesen con la mayor rapidez posible.

    Para obtener informacin, consulte Lmites de los servicios (p. 209). Este lmite no es fijo, puede solicitarun aumento del lmite para las consultas simultneas.

    19 de abril de 2018Publicado el 19/04/2018

    Se lanz la nueva versin del controlador JDBC (versin 2.0.2) que permite devolver los datos deResultSet como un tipo de datos Array, e incluye mejoras y correcciones de errores. Para obtener msinformacin, consulte las notas de la versin del controlador.

    Para obtener informacin acerca de la descarga del nuevo controlador JDBC versin 2.0.2 y tener accesoa su documentacin, consulte Uso de Athena con el controlador JDBC (p. 41).

    La ltima versin del controlador JDBC es la 2.0.2. Si va a migrar desde un controlador 1.x a uncontrolador 2.x, tendr que migrar las configuraciones existentes a la nueva configuracin. Recomendamosencarecidamente que migre al controlador actual.

    8

    general/latest/gr/aws_service_limits.htmlgeneral/latest/gr/aws_service_limits.htmlhttps://s3.amazonaws.com/athena-downloads/drivers/JDBC/SimbaAthenaJDBC_2.0.2/docs/release-notes.txt
  • Amazon Athena Gua del usuario6 de abril de 2018

    Para obtener informacin sobre los cambios introducidos en la nueva versin del controlador, conocerlas diferencias entre las distintas versiones y ver ejemplos, consulte el documento JDBC Driver MigrationGuide.

    Para obtener informacin sobre la versin anterior del controlador JDBC, consulte Uso de Athena con laversin anterior del controlador JDBC (p. 204).

    6 de abril de 2018Publicado el 06/04/2018

    Utilice la funcin de autocompletar para introducir las consultas en la consola de Athena.

    15 de marzo de 2018Publicado el 15/03/2018

    Se ha aadido la capacidad de crear tablas de Athena automticamente para archivos de registro deCloudTrail directamente desde la consola de CloudTrail. Para obtener informacin, consulte Creacin deuna tabla para los registros de CloudTrail en la consola de CloudTrail (p. 122).

    2 de febrero de 2018Publicado el 12/02/2018

    Se ha aadido la capacidad de descargar de forma segura datos intermedios en disco para consultas conuso intensivo de memoria que utilicen la clusula GROUP BY. Esto mejora la fiabilidad de dichas consultas,evitando los errores "Recurso de consulta agotado".

    19 de enero de 2018Publicado el 19/01/2018

    Athena utiliza Presto, un motor de consultas distribuido de cdigo abierto, para ejecutar consultas.

    Con Athena no hay que administrar versiones. Hemos actualizado de forma transparente el motorsubyacente en Athena a una versin basada en Presto versin 0.172. No tiene que hacer nada.

    Con la actualizacin, ahora puede usar las funciones y operadores de Presto 0.172, incluidas lasexpresiones Lambda de Presto 0.172 en Athena.

    Las principales actualizaciones de esta versin, incluidas las correcciones a las que ha contribuido lacomunidad, incluyen:

    Compatibilidad para no tener en cuenta los encabezados. Puede utilizar la propiedadskip.header.line.count al definir tablas para permitir que Athena no tenga en cuenta losencabezados. Se admite actualmente para las consultas que usan OpenCSV SerDe, pero no para Groko Regex SerDes.

    Compatibilidad con el tipo de datos CHAR(n) en las funciones STRING. El intervalo de CHAR(n) es[1.255], mientras que el intervalo de que VARCHAR(n) es [1,65535].

    9

    https://s3.amazonaws.com/athena-downloads/drivers/JDBC/SimbaAthenaJDBC_2.0.2/docs/Simba+Athena+JDBC+Driver+Migration+Guide.pdfhttps://s3.amazonaws.com/athena-downloads/drivers/JDBC/SimbaAthenaJDBC_2.0.2/docs/Simba+Athena+JDBC+Driver+Migration+Guide.pdfhttps://prestodb.io/docs/0.172/functions.htmlhttps://prestodb.io/docs/0.172/functions/lambda.html
  • Amazon Athena Gua del usuario13 de noviembre de 2017

    Compatibilidad con subconsultas correlacionadas. Compatibilidad con funciones y expresiones Lambda de Presto. Mejor rendimiento de los operadores y el tipo DECIMAL. Compatibilidad con agregaciones filtradas como SELECT sum(col_name) FILTER, donde id > 0. Predicados de insercin abajo para los tipos de datos DECIMAL, TINYINT, SMALLINT y REAL. Compatibilidad con los predicados de comparacin de cuantificacin: ALL, ANY y SOME. Se han aadido las funciones: arrays_overlap(), array_except(), levenshtein_distance(),codepoint(), skewness(), kurtosis() y typeof().

    Se ha aadido una variante de la funcin from_unixtime() que toma un argumento de zona horaria. Se han aadido las funciones de agregacin bitwise_and_agg() y bitwise_or_agg(). Se han aadido las funciones xxhash64() y to_big_endian_64(). Se ha aadido compatibilidad con comillas o barras diagonales inversas de escape utilizando

    una barra diagonal inversa con un subndice de ruta JSON a las funciones json_extract() yjson_extract_scalar(). Esto cambia la semntica de cualquier invocacin que utilice una barradiagonal inversa, ya que anteriormente dichas barras se trataban como caracteres normales.

    Para obtener una lista completa de las funciones y los operadores, consulte la seccin sobre consultas,funciones y operadores de SQL (p. 189) de esta gua y la seccin sobre funciones de Presto 0.172.

    Athena no es compatible con todas las caractersticas de Presto. Para obtener ms informacin, consultela seccin sobre lmites (p. 194).

    13 de noviembre de 2017Publicado el 13/11/2017

    Se ha aadido compatibilidad para conectar Athena al controlador ODBC. Para obtener informacin,consulte Conexin a Amazon Athena con ODBC (p. 42).

    1 de noviembre de 2017Publicado el 01/11/2017

    Se ha aadido compatibilidad con consultas de datos geoespaciales y con las regiones de Asia Pacfico(Mumbai), Asia Pacfico (Sel) y UE (Londres). Para obtener ms informacin, consulte Consulta de datosgeoespaciales (p. 109) y Regiones y puntos de enlace de AWS.

    19 de octubre de 2017Publicado el 19/10/2017

    Se ha aadido compatibilidad con la regin UE (Frncfort). Para obtener una lista de las regionescompatibles, consulte Regiones y puntos de enlace de AWS.

    3 de octubre de 2017Publicado el 03/10/2017

    10

    https://prestodb.io/docs/0.172/functions/array.html#arrays_overlaphttps://prestodb.io/docs/0.172/functions/array.html#array_excepthttps://prestodb.io/docs/0.172/functions/string.html#levenshtein_distancehttps://prestodb.io/docs/0.172/functions/string.html#codepointhttps://prestodb.io/docs/0.172/functions/aggregate.html#skewnesshttps://prestodb.io/docs/0.172/functions/aggregate.html#kurtosishttps://prestodb.io/docs/0.172/functions/conversion.html#typeofhttps://prestodb.io/docs/0.172/functions/datetime.html#from_unixtimehttps://prestodb.io/docs/0.172/functions/aggregate.html#bitwise_and_agghttps://prestodb.io/docs/0.172/functions/aggregate.html#bitwise_or_agghttps://prestodb.io/docs/0.172/functions/binary.html#xxhash64https://prestodb.io/docs/0.172/functions/binary.html#to_big_endian_64https://prestodb.io/docs/0.172/functions/json.html#json_extracthttps://prestodb.io/docs/0.172/functions/json.html#json_extract_scalarhttps://prestodb.io/docs/0.172/functions.html#athena#athena
  • Amazon Athena Gua del usuario25 de septiembre de 2017

    Se han creado consultas de Athena con nombre con CloudFormation. Para obtener ms informacin,consulte AWS::Athena::NamedQuery en la Gua del usuario de AWS CloudFormation.

    25 de septiembre de 2017Publicado el 25/09/2017

    Se ha agregado compatibilidad para Asia Pacfico (Sdney). Para obtener una lista de las regionescompatibles, consulte Regiones y puntos de enlace de AWS.

    14 de agosto de 2017Publicado el 14/08/2017

    Se ha aadido integracin con AWS Glue Data Catalog y un asistente de migracin para realizar laactualizacin del catlogo de datos administrado de Athena a AWS Glue Data Catalog. Para obtener msinformacin, consulte Integracin con AWS Glue (p. 26).

    4 de agosto de 2017Publicado el 04/08/2017

    Se ha aadido compatibilidad con el SerDe de Grok, que proporciona una asociacin de patrones mssencilla de los registros que se encuentran en archivos de texto no estructurados como logs. Para obtenerms informacin, consulte El SerDe de Grok (p. 156). Se han aadido mtodos abreviados de tecladopara desplazarse por el historial de consultas utilizando la consola (CTRL+/ con Windows, CMD+/con Mac).

    22 de junio de 2017Publicado el 22/06/2017

    Se ha aadido compatibilidad con Asia Pacfico (Tokio) y Asia Pacfico (Singapur). Para obtener una listade las regiones compatibles, consulte Regiones y puntos de enlace de AWS.

    8 de junio de 2017Publicado el 08/06/2017

    Se ha agregado compatibilidad para UE (Irlanda). Para obtener ms informacin, consulte Regiones ypuntos de enlace de AWS.

    19 de mayo de 2017Publicado el 19/05/2017

    Se ha aadido una API de Amazon Athena y compatibilidad con la CLI de AWS para Athena; se haactualizado el controlador JDBC a la versin 1.1.0; se han solucionado varios problemas.

    11

    aws-resource-athena-namedquery.html#athena#athena#athena#athena
  • Amazon Athena Gua del usuarioMejoras

    Amazon Athena permite la programacin de aplicaciones para Athena. Para obtener ms informacin,consulte la seccin de referencia de API de Amazon Athena. Los ltimos SDK de AWS contienencompatibilidad para la API de Athena. Para obtener enlaces con la documentacin y las descargas,consulte la seccin SDK de Herramientas para Amazon Web Services.

    La CLI de AWS contiene nuevos comandos para Athena. Para obtener ms informacin, consulte laseccin de referencia de la CLI de AWS para Athena.

    Un nuevo controlador JDBC 1.1.0 est disponible; es compatible con la nueva API de Athena, ascomo con las ltimas caractersticas y correcciones de errores. Descargue el controlador en https://s3.amazonaws.com/athena-downloads/drivers/AthenaJDBC41-1.1.0.jar. Le recomendamos que realicela actualizacin al ltimo controlador JDBC de Athena; no obstante, puede seguir utilizando la versinanterior. Las versiones anteriores del controlador no son compatibles con la API de Athena. Para obtenerms informacin, consulte Uso de Athena con el controlador JDBC (p. 41).

    Las acciones especficas de instrucciones de polticas de las versiones anteriores de Athena sehan dejado de utilizar. Si actualiza a la versin1.1.0 del controlador JDBC y tiene polticas de IAMadministradas por el cliente o insertadas asociadas a usuarios de JDBC, debe actualizar las polticasde IAM. En cambio, las versiones anteriores del controlador JDBC no son compatibles con la APIde Athena, por lo que puede especificar nicamente acciones obsoletas en las polticas asociadas ausuarios de la versin anterior de JDBC. Por este motivo, no debera necesitar actualizar las polticas deIAM insertadas o administradas por el cliente.

    Estas acciones especficas de la poltica se utilizaban en Athena antes del lanzamiento de la API deAthena. nicamente debe usar estas acciones obsoletas en las polticas con versiones del controladorJDBC anteriores a 1.1.0. Si actualiza el controlador JDBC, sustituya las instrucciones de poltica quepermiten o deniegan acciones obsoletas por las acciones correspondientes de la API como se indica, ose producirn errores:

    Accin especfica de poltica obsoleta Accin de la API de Athena correspondiente

    athena:RunQuery athena:StartQueryExecution

    athena:CancelQueryExecution athena:StopQueryExecution

    athena:GetQueryExecutions athena:ListQueryExecutions

    Mejoras Se ha aumentado la longitud de la cadena de consulta a 256 KB.

    Correcciones de errores Se ha corregido un error que haca que los resultados de las consultas parecieran tener un formato

    errneo cuando el usuario se desplazaba por los resultados en la consola. Se ha corregido un error en el que una cadena de caracteres \u0000 de archivos de datos de Amazon

    S3 provocaba errores. Se ha corregido un error que haca que las solicitudes de cancelacin de una consulta realizada a travs

    del controlador JDBC generaran un error. Corregido un error que haca que el SerDe de AWS CloudTrail generara un error con datos de Amazon

    S3 en EE.UU. Este (Ohio).

    12

    https://docs.aws.amazon.com/athena/latest/APIReference/https://aws.amazon.com/tools/cli/latest/reference/athena/https://s3.amazonaws.com/athena-downloads/drivers/AthenaJDBC41-1.1.0.jarhttps://s3.amazonaws.com/athena-downloads/drivers/AthenaJDBC41-1.1.0.jar
  • Amazon Athena Gua del usuario4 de abril de 2017

    Se ha corregido un error que haca que DROP TABLE generara un error en tablas con particiones.

    4 de abril de 2017Publicado el 04/04/2017

    Se ha aadido compatibilidad con el cifrado de datos de Amazon S3 y se ha publicado una actualizacindel controlador JDBC (versin 1.0.1) con compatibilidad con el cifrado, mejoras y correcciones de errores.

    Caractersticas Se han aadido las siguientes caractersticas de cifrado:

    Compatibilidad con la consulta de datos cifrados en Amazon S3. Compatibilidad con el cifrado de los resultados de consultas de Athena.

    Una nueva versin del controlador es compatible con las nuevas caractersticas de cifrado, aademejoras y corrige problemas.

    Se ha aadido la capacidad para aadir, reemplazar y cambiar columnas utilizando ALTER TABLE. Paraobtener ms informacin, consulte la seccin sobre cmo alterar columnas en la documentacin de Hive.

    Se ha aadido compatibilidad para consultar datos comprimidos mediante LZO.

    Para obtener ms informacin, consulte Configuracin de las opciones de cifrado (p. 57).

    Mejoras Mejor rendimiento de las consultas de JDBC con mejoras de tamao de pgina, se devuelven 1000 filas

    en lugar de 100. Se ha aadido la capacidad de cancelar una consulta mediante la interfaz del controlador JDBC. Se ha aadido la capacidad de especificar opciones de JDBC en la URL de conexin de JDBC.

    Para obtener ms informacin, consulte Uso de Athena con la versin anterior del controladorJDBC (p. 204), para la versin anterior del controlador, y Uso de Athena con el controladorJDBC (p. 41), para la versin ms reciente.

    Se ha aadido la opcin PROXY al controlador el cual, ahora, ya puede establecerse utilizandoClientConfiguration en el AWS SDK para Java.

    Correcciones de erroresSe han corregido los siguientes errores:

    Se producan errores de limitacin controlada cuando se emitan varias consultas con la interfaz delcontrolador JDBC.

    El controlador JDBC se anulaba al proyectar un tipo de datos decimal. El controlador JDBC devolva todos los tipos de datos como una cadena, sin tener en cuenta cmo se

    haba definido el tipo de datos en la tabla. Por ejemplo, si seleccionaba una columna definida como tipode datos INT mediante resultSet.GetObject(), se devolva un tipo de datos STRING en lugar deINT.

    El controlador JDBC verificaba las credenciales en el momento en que se realizaba la conexin, en lugarde hacerlo en el momento de ejecucin de una consulta.

    Las consultas realizadas mediante el controlador JDBC generaban un error cuando se especificaba unesquema junto con la direccin URL.

    13

    https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-AlterColumncom/amazonaws/ClientConfiguration.html
  • Amazon Athena Gua del usuario24 de marzo de 2017

    24 de marzo de 2017Publicado el 24/03/2017

    Se ha aadido el SerDe de AWS CloudTrail, se ha mejorando el rendimiento y se han corregido problemasde particin.

    Caractersticas Se ha aadido el SerDe de AWS CloudTrail. Para obtener ms informacin, consulte SerDe

    CloudTrail (p. 151). Para ver ejemplos de uso detallados, consulte la publicacin del AWS Big DataBlog sobre el anlisis de seguridad, la conformidad y la actividad operativa obtenidos con AWSCloudTrail y Amazon Athena.

    Mejoras Se ha mejorado el rendimiento cuando se analiza un gran nmero de particiones. Se ha mejorado el rendimiento en la operacin MSCK Repair Table. Se ha aadido la capacidad de consultar datos de Amazon S3 almacenados en regiones distintas de la

    regin principal. Se aplican tasas estndar de transferencia de datos entre regiones para Amazon S3,adems de las tasas estndar de Athena.

    Correcciones de errores Se ha corregido un error del tipo "No se ha encontrado la tabla" que poda producirse si no se cargaban

    particiones. Se ha corregido un error para evitar que se produzca una excepcin con las consultas ALTER TABLEADD PARTITION IF NOT EXISTS.

    Se ha corregido un error en DROP PARTITIONS.

    20 de febrero de 2017Publicado el 20/02/2017

    Aadido soporte para AvroSerDe y OpenCSVSerDe, la regin EE.UU. Este (Ohio) y la edicin masiva decolumnas en el asistente de la consola. Se ha mejorado el rendimiento en las tablas Parquet grandes.

    Caractersticas Se ha introducido compatibilidad con los nuevos SerDe:

    El SerDe de Avro (p. 148) OpenCSVSerDe para procesamiento de CSV (p. 153)

    Lanzamiento en la regin EE.UU. Este (Ohio) (us-east-2). Ahora ya puede ejecutar consultas en estaregin.

    A partir de ahora puede utilizar el asistente Add Table (para aadir tablas) para definir esquemas detablas en masa. Elija Catalog Manager (Administrador de catlogos), Add table (Aadir tabla) y, acontinuacin, elija Bulk add columns (Aadir columnas en masa) a medida que avanza en los pasos dedefinicin de la tabla.

    14

    big-data/aws-cloudtrail-and-amazon-athena-dive-deep-to-analyze-security-compliance-and-operational-activity/big-data/aws-cloudtrail-and-amazon-athena-dive-deep-to-analyze-security-compliance-and-operational-activity/
  • Amazon Athena Gua del usuarioCaractersticas

    Escriba los pares de valor y nombre en el cuadro de texto y elija Add (Aadir).

    15

  • Amazon Athena Gua del usuarioMejoras

    Mejoras Se ha mejorado el rendimiento en las tablas Parquet grandes.

    16

  • Amazon Athena Gua del usuarioInscripcin en AWS

    ConfiguracinSi ya se ha inscrito en Amazon Web Services (AWS), puede comenzar a utilizar Amazon Athena deinmediato. Si no se ha inscrito en AWS, o si necesita ayuda para consultar datos con Athena, completeprimero las tareas que aparecen a continuacin:

    Inscripcin en AWSAl suscribirse a AWS, su cuenta se registra automticamente en todos los servicios de AWS, incluidoAthena. Solo se le cobrar por los servicios que utilice. Cuando se usa Athena, se utiliza Amazon S3 paraalmacenar los datos. Athena no se incluye en la capa gratuita de AWS.

    Si ya dispone de una cuenta de AWS, pase a la siguiente tarea. Si no dispone de una cuenta de AWS,utilice el siguiente procedimiento para crear una.

    Para crear una cuenta de AWS1. Abra http://aws.amazon.com/ y, a continuacin, elija Crear una cuenta de AWS.2. Siga las instrucciones en lnea. Parte del procedimiento de inscripcin consiste en recibir una llamada

    telefnica e introducir un nmero PIN con el teclado del telfono.

    Anote su nmero de cuenta de AWS, porque lo necesitar en la siguiente tarea.

    Creacin de un usuario de IAMUn usuario de AWS Identity and Access Management (IAM) es una cuenta que crea para el acceso a losservicios. Se trata de un usuario diferente al de su cuenta de AWS principal. Como prctica recomendadade seguridad, le aconsejamos que utilice las credenciales del usuario de IAM para el acceso a los serviciosde AWS. Cree un usuario de IAM y agrguelo a un grupo de IAM con permisos administrativos, o concedaal usuario permisos administrativos. De este modo tendr acceso a AWS utilizando una direccin URLespecial y las credenciales del usuario de IAM.

    Si se ha suscrito a AWS pero no ha creado un usuario de IAM, puede crear uno en la consola de IAM. Sino est familiarizado con el uso de la consola, consulte Trabajar con Consola de administracin de AWS.

    Para crear un grupo de administradores1. Inicie sesin en la consola de IAM en https://console.aws.amazon.com/iam/.2. En el panel de navegacin, seleccione Groups, Create New Group.3. En Group Name (Nombre de grupo), escriba un nombre para el grupo, por ejemplo Administrators,

    y elija Next Step (Paso siguiente).4. En la lista de polticas, seleccione la casilla de verificacin situada junto a la poltica

    AdministratorAccess. Puede utilizar el men Filter (Filtro) y el campo Search (Buscar) para filtrar la listade polticas.

    5. Elija Next Step (Paso siguiente) y, a continuacin, Create Group (Crear grupo). Su nuevo grupo figuraen la lista de Group Name.

    17

    http:///awsconsolehelpdocs/latest/gsg/getting-started.htmliam/
  • Amazon Athena Gua del usuarioPara crear su propio usuario de IAM, aada

    el usuario al grupo de administradoresy cree una contrasea para el usuario

    Para crear su propio usuario de IAM, aada el usuarioal grupo de administradores y cree una contraseapara el usuario1. En el panel de navegacin, seleccione Users (Usuarios) y a continuacin Create New Users (Crear

    nuevos usuarios).2. Escriba un nombre de usuario en 1.3. Desactive la casilla junto a Generate an access key for each user (Generar una clave de acceso para

    cada usuario) y elija Create (Crear).4. En la lista de usuarios, seleccione el nombre (no la casilla de verificacin) del usuario que acaba de

    crear. Puede utilizar el campo Search (Buscar) para buscar el nombre de usuario.5. Elija Groups (Grupos), Add User to Groups (Aadir usuario a grupos).6. Seleccione la casilla de verificacin junto a los administradores y elija Add to Groups (Aadir a grupos).7. Elija la pestaa Security credentials (Credenciales de seguridad). En Sign-In Credentials, elija Manage

    Password.8. Elija Assign a custom password (Asignar una contrasea personalizada). A continuacin, escriba una

    contrasea en los campos Password (Contrasea) y Confirm Password (Confirmar contrasea). Cuandohaya terminado, elija Apply.

    9. Para iniciar sesin con este nuevo usuario de IAM, cierre la sesin de la consola de AWS y despusutilice la direccin URL siguiente, donde your_aws_account_id es su nmero de cuenta de AWS sinlos guiones (por ejemplo, si su nmero de cuenta de AWS es 1234-5678-9012, su ID de cuenta de AWSser 123456789012):

    https://*your_account_alias*.signin.aws.amazon.com/console/

    Tambin es posible que en el enlace de inicio de sesin se use el nombre de la cuenta en lugar delnmero. Para verificar el enlace de inicio de sesin de los usuarios de IAM de su cuenta, abra la consolade IAM y compruebe el valor de IAM users sign-in link (Enlace de inicio de sesin de los usuarios de IAM)en el panel.

    Asociacin de polticas administradas para el usode Athena

    Debe asociar polticas administradas de Athena a la cuenta de IAM que utilice para el accesoa Athena. Existen dos polticas administradas para Athena: AmazonAthenaFullAccess yAWSQuicksightAthenaAccess. Estas polticas conceden permisos a Athena para consultar Amazon S3y escribir los resultados de las consultas en un bucket aparte en su nombre. Para obtener ms informacine instrucciones paso a paso, consulte Administracin de polticas de IAM en la Gua del usuario de AWSIdentity and Access Management. Para obtener ms informacin sobre el contenido de las polticas,consulte la poltica de IAM Policies for User Access (p. 45).

    Note

    Es posible que necesite permisos adicionales para el acceso al conjunto de datos subyacenteen Amazon S3. Si no es el propietario de la cuenta o su acceso a un bucket est restringido dealgn otro modo, pngase en contacto con el propietario del bucket para que le conceda accesomediante una poltica de bucket basada en recursos, o pngase en contacto con el administradorde cuentas para obtener el acceso mediante una poltica basada en la identidad. Para obtener

    18

    IAM/latest/UserGuide/access_policies_managed-using.html#attach-managed-policy-console
  • Amazon Athena Gua del usuarioAsociacin de polticas administradas para el uso de Athena

    ms informacin, consulte Amazon S3 Permissions (p. 49). Si el conjunto de datos o losresultados de la consulta de Athena estn cifrados, es posible que necesite permisos adicionales.Para obtener ms informacin, consulte Configuracin de las opciones de cifrado (p. 57).

    19

  • Amazon Athena Gua del usuarioRequisitos previos

    IntroduccinEste tutorial le mostrar cmo utilizar Amazon Athena para consultar datos. Crear una tabla basadaen datos de muestra almacenados en Amazon Simple Storage Service, la consultar y comprobar losresultados de la consulta.

    El tutorial utiliza recursos activos, por lo que se le cobrar por las consultas que ejecute. No se le cobrarpor los conjuntos de datos de muestra que utilice, pero si carga sus propios archivos de datos en AmazonS3, se le aplicarn los costos correspondientes.

    Requisitos previosSi an no lo ha hecho, inscrbase para conseguir una cuenta en Configuracin (p. 17).

    Paso1: Creacin de una base de datosLo primero es crear una base de datos en Athena.

    Para crear una base de datos

    1. Abra la consola de Athena.2. Si es la primera vez que usa la consola de Athena, se abrir una pgina de introduccin. Elija Get

    Started (Introduccin) para abrir el editor de consultas. Si no es la primera vez, se abrir el editor deconsultas de Athena.

    3. En el editor de consultas de Athena, ver un panel con una consulta de ejemplo. Comience a escribiruna consulta en cualquier lugar del panel.

    4. Para crear una base de datos con el nombre mydatabase, escriba la instruccin CREATEDATABASE siguiente y, a continuacin, elija Run Query (Ejecutar consulta):

    CREATE DATABASE mydatabase

    5. Confirme que se actualiza la vista del catlogo y que mydatabase aparece en la lista DATABASE a laizquierda del panel Catalog.

    20

  • Amazon Athena Gua del usuarioPaso 2: Crear una tabla

    Paso 2: Crear una tablaAhora que tiene una base de datos, ya puede crear una tabla basada en el archivo de datos de muestra.Puede definir columnas que se asignan a los datos, especificar la forma en que los datos estn delimitadose indicar la ubicacin del archivo en Amazon S3.

    Para crear una tabla

    1. Asegrese de que est seleccionado mydatabase en DATABASE y elija Nueva Query (Nuevaconsulta).

    2. En el panel de consultas, escriba la instruccin CREATE TABLE siguiente y elija Run Query (Ejecutarconsulta):

    Note

    Puede consultar los datos de regiones distintas de la regin en la que se ejecuta Athena.Adems de las tarifas estndar de Athena, se aplicarn las tarifas estndar por transferenciade datos entre regiones de Amazon S3. Para reducir los cargos por transferencia de datos,sustituya myregion en s3://athena-examples-myregion/path/to/data/ por elidentificador de la regin en la que ejecuta Athena, por ejemplo, s3://athena-examples-us-east-1/path/to/data/.

    CREATE EXTERNAL TABLE IF NOT EXISTS cloudfront_logs ( `Date` DATE, Time STRING, Location STRING, Bytes INT, RequestIP STRING, Method STRING, Host STRING, Uri STRING, Status INT, Referrer STRING, os STRING, Browser STRING, BrowserVersion STRING ) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe' WITH SERDEPROPERTIES ( "input.regex" = "^(?!#)([^ ]+)\\s+([^ ]+)\\s+([^ ]+)\\s+([^ ]+)\\s+([^ ]+)\\s+([^ ]+)\\s+([^ ]+)\\s+([^ ]+)\\s+([^ ]+)\\s+([^ ]+)\\s+[^\(]+[\(]([^\;]+).*\%20([^\/]+)[\/](.*)$" ) LOCATION 's3://athena-examples-myregion/cloudfront/plaintext/';

    La tabla table cloudfront_logs se crea y aparece en el panel Catalog de la base de datos.

    21

  • Amazon Athena Gua del usuarioPaso 3: Consultar los datos

    Paso 3: Consultar los datosAhora que ha creado la tabla cloudfront_logs en Athena a partir de los datos en Amazon S3, puedeejecutar consultas en la tabla y ver los resultados en Athena.

    Para ejecutar una consulta

    1. Elija New Query (Nueva consulta), escriba la instruccin siguiente en cualquier punto del panel deconsultas y elija Run Query (Ejecutar consulta):

    SELECT os, COUNT(*) countFROM cloudfront_logsWHERE date BETWEEN date '2014-07-05' AND date '2014-08-05'GROUP BY os;

    Los resultados obtenidos tendrn este aspecto:

    22

  • Amazon Athena Gua del usuarioPaso 3: Consultar los datos

    2. De forma opcional, puede guardar los resultados de una consulta en formato CSV eligiendo el iconode archivo en el panel Results (Resultados).

    Tambin puede ver los resultados de las consultas anteriores o de consultas que puedan tardar algntiempo en completarse. Elija History (Historial) y, a continuacin, busque su consulta o elija View (Ver) oDownload (Descargar) para ver o descargar los resultados de las consultas completadas anteriormente.De este modo tambin se muestra el estado de las consultas que se encuentren en ejecucin. El historialde consultas se conserva durante 45 das. Para obtener ms informacin, consulte Viewing QueryHistory (p. 80).

    Los resultados de las consultas tambin se almacenan en un bucket de Amazon S3 denominado aws-athena-query-results-ACCOUNTID-REGION. Para cambiar la ubicacin predeterminada en la consolay las opciones de cifrado, elija Settings (Configuracin) en el panel superior derecho. Para obtener msinformacin, consulte Query Results (p. 79).

    23

  • Amazon Athena Gua del usuarioMediante la consola

    Acceso a Amazon AthenaPuede tener acceso a Amazon Athena mediante la Consola de administracin de AWS, la API de AmazonAthena o la CLI de AWS.

    Mediante la consolaPuede utilizar Consola de administracin de AWS para que Amazon Athena haga lo siguiente:

    Crear o seleccionar una base de datos. Crear, ver y eliminar tablas. Filtrar tablas comenzando a escribir sus nombres. Realizar la vista previa de las tablas y generar CREATE TABLE DDL para ellas. Mostrar las propiedades de las tablas. Ejecutar consultas en tablas, guardar y formatear consultas, y ver el historial de consultas. Crear hasta diez consultas con diferentes pestaas de consulta en el editor de consultas. Para abrir una

    pestaa nueva, haga clic en el signo ms. Mostrar los resultados de las consultas, guardarlos y exportarlos. Obtener acceso a AWS Glue Data Catalog. Ver y cambiar la configuracin, como, por ejemplo, ver la ubicacin del resultado de las consultas,

    configurar la funcin de autocompletar y cifrar los resultados de las consultas.

    En el panel derecho, el editor de consultas muestra una pantalla de introduccin que le pide que cree laprimera tabla. Puede ver las tablas en Tables (Tablas) en el panel izquierdo.

    A continuacin encontrar informacin general sobre las acciones disponibles para cada tabla:

    Preview tables (Vista previa de las tablas): ver la sintaxis de las consultas en el editor de consultassituado en el panel derecho.

    Show properties (Mostrar propiedades): mostrar el nombre de una tabla, su ubicacin en Amazon S3,los formatos de entrada y salida, la biblioteca de serializacin (SerDe) utilizada y si la tabla tiene datoscifrados.

    Delete table (Eliminar tabla): eliminar una tabla. Generate CREATE TABLE DDL (Generar DDL CREATE TABLE): generar la consulta en que se basa

    una tabla y verla en el editor de consultas.

    Uso de la APIAmazon Athena permite la programacin de aplicaciones para Athena. Para obtener ms informacin,consulte la seccin de referencia de API de Amazon Athena. Los ltimos SDK de AWS incluyencompatibilidad para la API de Athena.

    Para ver ejemplos de cmo usar el AWS SDK para Java con Athena, consulte Ejemplos decdigo (p. 196).

    Para obtener ms informacin sobre la documentacin y las descargas de los SDK de AWS, consulte laseccin SDK de Herramientas para Amazon Web Services.

    24

    https://docs.aws.amazon.com/athena/latest/APIReference/https://aws.amazon.com/tools/
  • Amazon Athena Gua del usuarioMediante la CLI

    Mediante la CLIPuede obtener acceso a Amazon Athena mediante la CLI de AWS. Para obtener ms informacin,consulte la seccin de referencia de la CLI de AWS para Athena.

    25

    cli/latest/reference/athena/
  • Amazon Athena Gua del usuario

    Integracin con AWS GlueAWS Glue es un servicio completamente administrado de ETL (extraccin, transformacin y carga) quepuede dividir en categoras sus datos, limpiarlos, enriquecerlos y moverlos de manera fiable entre distintosalmacenes de datos. Los rastreadores de AWS Glue deducen de forma automtica el esquema de tablay base de datos de sus datos de origen y almacena los metadatos asociados en AWS Glue Data Catalog.Cuando crea una tabla en Athena, puede decidir si la crea con un rastreador de AWS Glue.

    En las regiones en las que se admite AWS Glue, Athena utiliza AWS Glue Data Catalog como ubicacincentral para almacenar y recuperar los metadatos de tablas de una cuenta de AWS. El motor de ejecucinde Athena necesita metadatos de tabla que le indiquen dnde debe leer los datos, cmo leerlos y otrainformacin necesaria para procesar los datos. AWS Glue Data Catalog proporciona un repositorio demetadatos que unifica toda una variedad de orgenes y formatos de datos, e integra no solo Athena, sinotambin Amazon S3, Amazon RDS, Amazon Redshift, Amazon Redshift Spectrum, Amazon EMR y todaslas aplicaciones compatibles con el metaalmacn de Apache Hive.

    Para obtener ms informacin acerca de AWS G