Skip to content

Latest commit

 

History

History
263 lines (144 loc) · 6.48 KB

PipelineEstruturado.md

File metadata and controls

263 lines (144 loc) · 6.48 KB

Sumário

Pipeline com dados estruturados

Criando um bucket S3

Para que é usado o serviço S3? O S3 é um sistema de armazenamento, nele pode ser armazenado qualquer tipo de arquivo

Depois de ter enviado os dados para o DynamoDB, temos a opção de enviar eles para o S3

Vá no painel e na barra pesquisa procure por S3

Clique em: S3

Untitled

Clique em: Criar bucket

Untitled

💡: Ao nomear o bucket, de um nome inexistente até o momento, o nome do bucket deve ser globalmente exclusivo.

Insira o nome do bucket

Em Região da AWS, selecione: Leste dos EUA (Norte da Virgínia) us-east-1

Untitled

Mantenha as outras configurações padrões

Clique em: Criar bucket

Untitled


Criando uma tabela no Glue

Para que é usado o serviço Glue? O Glue é um serviço de integração de dados, nele será possível capturar os dados vindo do Kinesis e levando ele ao bucket S3.

Vá no painel e na barra pesquisa procure por Glue

Clique em: AWS Glue

Untitled

Vá na aba Tables, em Data Catalog

Clique em: Add table

Untitled

Em Table details, insira um nome para a tabela

Em Database, selecione: default

💡: Caso não apareça nenhum banco de dados, crie um no botão: Create database

Untitled

Em Data Store, selecione a opção: S3

Depois selecione onde está localizado o bucket, clique em: Browse S3

Untitled

Selecione o bucket criado anteriormente

Clique em: Choose

Untitled

Em Data format, selecione o formato: Parquet

Clique em: Next

Untitled

Para definir o schema, clique em: Add

Untitled

O schema deve ser baseado nas informações geradas pelo Producer

Untitled

Insira cada coluna do schema, seguindo a ordem de saída gerada pelo Producer e seguindo os tipos de dados.

Untitled

Repita esse processo para todas as colunas

Coluna Tipo
Distance float
HealthPoints int
Latitude float
Longitude float
MagicPoints int
Name string
InputData string
StatusTime timestamp

Untitled

Mantenha as outras configurações em padrão

Clique em: Next

Untitled

Verifique se tudo está corretamente configurado

Clique em: Create

Untitled


Criando o serviço Kinesis Data Firehose

Vá no painel e na barra pesquisa procure por Kinesis

Clique em: Kinesis

Untitled

Clique em: Criar stream de entrega

Untitled

Na origem, selecione: Amazon Kinesis Data Streams

No destino, selecione: Amazon S3

Untitled

Na configuração da origem, clique em: Browse

Untitled

Selecione o Data stream criado anteriormente

Clique em: Choose

Untitled

Insira um nome para o fluxo de entrega

Untitled

Em transformar e converter registros, selecione: Ativar conversão de formato de registro

Em formato de saída, selecione: Apache Parquet

Em região, selecione Leste dos EUA (Norte da Virgínia)

Em banco de dados do AWS Glue, selecione o banco de dados criado no Glue

Em tabela do AWS Glue, selecione a tabela criada no Glue

Captura da Web_14-3-2023_185721_us-east-1.console.aws.amazon.com.jpeg

Em configurações do destino, clique em: Browse

Untitled

Selecione o bucket criado anteriormente

Clique em: Choose

Untitled

Em intervalo do buffer, coloque 60

Untitled

Clique em: Criar fluxo de entrega

Untitled


Processando dados estruturados (S3, Glue e Data Firehose)

Com tudo configurado, agora os dados gerados pelo Producer, serão enviados diretamente para o S3.

Para isso, rode o Producer indicando o nome do Stream

./producer -stream wildrydes

Deixe alguns minutos rodando

Acesse o bucket criado e cheque se foi criado um diretório

Untitled

Siga até o último destino e verifique se lá possuem os objetos .parquet

Untitled

Clique em qualquer objeto

Dentro do objeto, clique em: Consulta com o S3 Select

Untitled

Em configurações de entrada, selecione o formato: Apache Parquet

Em configurações de saída, selecione o formato: CSV

Captura da Web_14-3-2023_192012_us-east-1.console.aws.amazon.com.jpeg

Em consulta SQL, selecione: Executar consulta SQL

Em resultados da consulta, verifique se o resultado da consulta, batem com os mesmos dados gerados pelo Producer.

Untitled


Criando e fazendo consultas com o Athena

Para que é usado o serviço Athena? Com o Athena é possível analisar dados, utilizando consultas em SQL, é possível utilizar como fonte de dados o S3 e outros serviços

Vá no painel e na pesquisa procure e clique no serviço Athena

Untitled

Selecione: Query your data

Untitled

Verifique se o database selecionado é o que foi criado anteriormente

Verifique se a tabela selecionada é a que foi criada anteriormente

Faça uma consulta simples, verificando se está tudo funcionando corretamente

SELECT * FROM wildrydes_table

Untitled

Clique em: Run

Untitled