Projeto ponta a ponta de Big Data utilizando as principais ferramentas do ecossistema Hadoop/Apache, bancos de dados Oracle e MySQL e Linux (CentOS) com máquinas virtuais, fornecendo um ambiente completo de um Data Lake, desde como baixar até o seu funcionamento por completo.
Essa será a arquitetura a ser seguida no projeto:
-
O que é um Data Lake: É uma arquitetura de armazenamento que tem como finalidade permitir que as empresas possam armazenar e processar grandes volumes de dados de diferentes fontes e formatos em um ambiente centralizado, escalável e flexível. Diferentemente dos sistemas de banco de dados tradicionais, um Data Lake não requer uma estruturação prévia dos dados, permitindo que os dados brutos sejam armazenados sem a necessidade de modelagem ou esquematização prévia.
-
Finalidade do Data Lake: A finalidade do Data Lake é fornecer uma fonte única para todas as informações da empresa, permitindo que os usuários possam acessar, integrar e analisar dados de diferentes fontes em tempo real. Com um Data Lake, as empresas podem obter uma visão completa e abrangente de seus dados, permitindo que possam descobrir insights valiosos, identificar padrões e tendências, bem como criar modelos de análise e aprendizado de máquina mais precisos e eficazes.
❒ VirtualBox • CentOS • Java JDK • Apache Hadoop • Apache Kafka • Apache Nifi • Apache Spark • Apache Hive • MySQL • Oracle Database
Este projeto experimental é o produto de minhas experiências com Data Lake, onde pude aprimorar minhas habilidades em arquitetura de dados, modelagem de dados, ingestão, processamento e análise de dados em grande escala. Através do uso de tecnologias modernas de armazenamento, pude explorar as diversas possibilidades de criação de um ambiente de Data Lake escalável e flexível.
- Preparando as máquinas
- Instalação do SO (CentOS)
- Configurações do SO
- Instalação e configuração do Java JDK 8
- Instalação e configuração do Apache Hadoop
- Instalação e configuração do Apache Kafka
- Instalação e configuração do Apache Nifi
- Instalação e configuração do Apache Spark
- Instalação e configuração do Apache Hive
📝 Nota: Este projeto foi concluído em dezembro de 2022, e é importante ressaltar que alguns dos requisitos abordados podem sofrer alterações ao longo do tempo. Como em qualquer área de tecnologia, novas soluções e tecnologias surgem constantemente, o que pode tornar algumas das abordagens e soluções apresentadas neste projeto desatualizadas em algum momento.
Hardware: Ao menos 8GB de memória RAM.
Sistema operacional: Linux, Windows ou MacOS.
Espaço em disco: Ao menos 50GB de espaço em disco.
Rede: O Data Lake requer uma rede adequada para comunicação com outras máquinas e para acesso remoto.
Tarefas concluídas
- Descrever sobre a finalidade do Data Lake
- Simular o ambiente On-Premises
- Instalar os componentes do Data Lake
- Verificar o funcionamento do Data Lake
Futuras implementações
- Acrescentar novas fontes de dados
- Acrescentar conexões com as novas fontes de dados
- Automatizar os processos de instalação com bash script
- Automatizar os processos de configuração com bash script
Projeto:
Downloads:
Artigos orientadores:
- O que é um data lake? - AWS
- Os 4 Estágios Para Construir um Data Lake de Forma Eficiente - DSA
- Saiba mais sobre Data Lakes baseados em Hadoop - Oracle
- Você precisa de um data lake? - Google
O objetivo final do Data Lake é ajudar as empresas a tomar decisões mais informadas e estratégicas, melhorando a eficiência dos negócios e aumentando a competitividade no mercado. Além disso, o Data Lake também pode ser usado para suportar outras iniciativas, como a conformidade regulatória, a governança de dados e a segurança da informação.