Para que é usado o serviço S3? O S3 é um sistema de armazenamento, nele pode ser armazenado qualquer tipo de arquivo
Depois de ter enviado os dados para o DynamoDB, temos a opção de enviar eles para o S3
Vá no painel e na barra pesquisa procure por S3
Clique em: S3
Clique em: Criar bucket
💡: Ao nomear o bucket, de um nome inexistente até o momento, o nome do bucket deve ser globalmente exclusivo.
Insira o nome do bucket
Em Região da AWS, selecione: Leste dos EUA (Norte da Virgínia) us-east-1
Mantenha as outras configurações padrões
Clique em: Criar bucket
Para que é usado o serviço Glue? O Glue é um serviço de integração de dados, nele será possível capturar os dados vindo do Kinesis e levando ele ao bucket S3.
Vá no painel e na barra pesquisa procure por Glue
Clique em: AWS Glue
Vá na aba Tables
, em Data Catalog
Clique em: Add table
Em Table details, insira um nome para a tabela
Em Database, selecione: default
💡: Caso não apareça nenhum banco de dados, crie um no botão:
Create database
Em Data Store, selecione a opção: S3
Depois selecione onde está localizado o bucket, clique em: Browse S3
Selecione o bucket criado anteriormente
Clique em: Choose
Em Data format, selecione o formato: Parquet
Clique em: Next
Para definir o schema, clique em: Add
O schema deve ser baseado nas informações geradas pelo Producer
Insira cada coluna do schema, seguindo a ordem de saída gerada pelo Producer e seguindo os tipos de dados.
Repita esse processo para todas as colunas
Coluna | Tipo |
---|---|
Distance | float |
HealthPoints | int |
Latitude | float |
Longitude | float |
MagicPoints | int |
Name | string |
InputData | string |
StatusTime | timestamp |
Mantenha as outras configurações em padrão
Clique em: Next
Verifique se tudo está corretamente configurado
Clique em: Create
Vá no painel e na barra pesquisa procure por Kinesis
Clique em: Kinesis
Clique em: Criar stream de entrega
Na origem, selecione: Amazon Kinesis Data Streams
No destino, selecione: Amazon S3
Na configuração da origem, clique em: Browse
Selecione o Data stream criado anteriormente
Clique em: Choose
Insira um nome para o fluxo de entrega
Em transformar e converter registros, selecione: Ativar conversão de formato de registro
Em formato de saída, selecione: Apache Parquet
Em região, selecione Leste dos EUA (Norte da Virgínia)
Em banco de dados do AWS Glue, selecione o banco de dados criado no Glue
Em tabela do AWS Glue, selecione a tabela criada no Glue
Em configurações do destino, clique em: Browse
Selecione o bucket criado anteriormente
Clique em: Choose
Em intervalo do buffer, coloque 60
Clique em: Criar fluxo de entrega
Com tudo configurado, agora os dados gerados pelo Producer, serão enviados diretamente para o S3.
Para isso, rode o Producer indicando o nome do Stream
./producer -stream wildrydes
Deixe alguns minutos rodando
Acesse o bucket criado e cheque se foi criado um diretório
Siga até o último destino e verifique se lá possuem os objetos .parquet
Clique em qualquer objeto
Dentro do objeto, clique em: Consulta com o S3 Select
Em configurações de entrada, selecione o formato: Apache Parquet
Em configurações de saída, selecione o formato: CSV
Em consulta SQL, selecione: Executar consulta SQL
Em resultados da consulta, verifique se o resultado da consulta, batem com os mesmos dados gerados pelo Producer.
Para que é usado o serviço Athena? Com o Athena é possível analisar dados, utilizando consultas em SQL, é possível utilizar como fonte de dados o S3 e outros serviços
Vá no painel e na pesquisa procure e clique no serviço Athena
Selecione: Query your data
Verifique se o database selecionado é o que foi criado anteriormente
Verifique se a tabela selecionada é a que foi criada anteriormente
Faça uma consulta simples, verificando se está tudo funcionando corretamente
SELECT * FROM wildrydes_table
Clique em: Run