Sumário

Pipeline com dados estruturados

Pipeline com dados estruturados

Criando um bucket S3

Para que é usado o serviço S3? O S3 é um sistema de armazenamento, nele pode ser armazenado qualquer tipo de arquivo

Depois de ter enviado os dados para o DynamoDB, temos a opção de enviar eles para o S3

Vá no painel e na barra pesquisa procure por S3

Clique em: S3

Clique em: Criar bucket

💡: Ao nomear o bucket, de um nome inexistente até o momento, o nome do bucket deve ser globalmente exclusivo.

Insira o nome do bucket

Em Região da AWS, selecione: Leste dos EUA (Norte da Virgínia) us-east-1

Mantenha as outras configurações padrões

Clique em: Criar bucket

Criando uma tabela no Glue

Para que é usado o serviço Glue? O Glue é um serviço de integração de dados, nele será possível capturar os dados vindo do Kinesis e levando ele ao bucket S3.

Vá no painel e na barra pesquisa procure por Glue

Clique em: AWS Glue

Vá na aba Tables, em Data Catalog

Clique em: Add table

Em Table details, insira um nome para a tabela

Em Database, selecione: default

💡: Caso não apareça nenhum banco de dados, crie um no botão: Create database

Em Data Store, selecione a opção: S3

Depois selecione onde está localizado o bucket, clique em: Browse S3

Selecione o bucket criado anteriormente

Clique em: Choose

Em Data format, selecione o formato: Parquet

Clique em: Next

Para definir o schema, clique em: Add

O schema deve ser baseado nas informações geradas pelo Producer

Insira cada coluna do schema, seguindo a ordem de saída gerada pelo Producer e seguindo os tipos de dados.

Repita esse processo para todas as colunas

Coluna	Tipo
Distance	float
HealthPoints	int
Latitude	float
Longitude	float
MagicPoints	int
Name	string
InputData	string
StatusTime	timestamp

Mantenha as outras configurações em padrão

Clique em: Next

Verifique se tudo está corretamente configurado

Clique em: Create

Criando o serviço Kinesis Data Firehose

Vá no painel e na barra pesquisa procure por Kinesis

Clique em: Kinesis

Clique em: Criar stream de entrega

Na origem, selecione: Amazon Kinesis Data Streams

No destino, selecione: Amazon S3

Na configuração da origem, clique em: Browse

Selecione o Data stream criado anteriormente

Clique em: Choose

Insira um nome para o fluxo de entrega

Em transformar e converter registros, selecione: Ativar conversão de formato de registro

Em formato de saída, selecione: Apache Parquet

Em região, selecione Leste dos EUA (Norte da Virgínia)

Em banco de dados do AWS Glue, selecione o banco de dados criado no Glue

Em tabela do AWS Glue, selecione a tabela criada no Glue

Em configurações do destino, clique em: Browse

Selecione o bucket criado anteriormente

Clique em: Choose

Em intervalo do buffer, coloque 60

Clique em: Criar fluxo de entrega

Processando dados estruturados (S3, Glue e Data Firehose)

Com tudo configurado, agora os dados gerados pelo Producer, serão enviados diretamente para o S3.

Para isso, rode o Producer indicando o nome do Stream

./producer -stream wildrydes

Deixe alguns minutos rodando

Acesse o bucket criado e cheque se foi criado um diretório

Siga até o último destino e verifique se lá possuem os objetos .parquet

Clique em qualquer objeto

Dentro do objeto, clique em: Consulta com o S3 Select

Em configurações de entrada, selecione o formato: Apache Parquet

Em configurações de saída, selecione o formato: CSV

Em consulta SQL, selecione: Executar consulta SQL

Em resultados da consulta, verifique se o resultado da consulta, batem com os mesmos dados gerados pelo Producer.

Criando e fazendo consultas com o Athena

Para que é usado o serviço Athena? Com o Athena é possível analisar dados, utilizando consultas em SQL, é possível utilizar como fonte de dados o S3 e outros serviços

Vá no painel e na pesquisa procure e clique no serviço Athena

Selecione: Query your data

Verifique se o database selecionado é o que foi criado anteriormente

Verifique se a tabela selecionada é a que foi criada anteriormente

Faça uma consulta simples, verificando se está tudo funcionando corretamente

SELECT * FROM wildrydes_table

Clique em: Run

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

PipelineEstruturado.md

PipelineEstruturado.md

Sumário

Pipeline com dados estruturados

Criando um bucket S3

Criando uma tabela no Glue

Criando o serviço Kinesis Data Firehose

Processando dados estruturados (S3, Glue e Data Firehose)

Criando e fazendo consultas com o Athena

Files

PipelineEstruturado.md

Latest commit

History

PipelineEstruturado.md

File metadata and controls

Sumário

Pipeline com dados estruturados

Criando um bucket S3

Criando uma tabela no Glue

Criando o serviço Kinesis Data Firehose

Processando dados estruturados (S3, Glue e Data Firehose)

Criando e fazendo consultas com o Athena