Skip to content

Este é um projeto pessoal que tem como objetivo implementar um Data Lake On-Premises, o projeto busca criar uma solução escalável e flexível para armazenar e gerenciar grandes volumes de dados, possibilitando a análise de informações de diferentes fontes e formatos. A proposta é fornecer uma base sólida para a obtenção de insights valiosos.

License

Notifications You must be signed in to change notification settings

alexandremcastro/Data-Lake-Premises

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

38 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Data Lake On-Premises

GitHub license

Projeto ponta a ponta de Big Data utilizando as principais ferramentas do ecossistema Hadoop/Apache, bancos de dados Oracle e MySQL e Linux (CentOS) com máquinas virtuais, fornecendo um ambiente completo de um Data Lake, desde como baixar até o seu funcionamento por completo.

Essa será a arquitetura a ser seguida no projeto:

Group

  • O que é um Data Lake: É uma arquitetura de armazenamento que tem como finalidade permitir que as empresas possam armazenar e processar grandes volumes de dados de diferentes fontes e formatos em um ambiente centralizado, escalável e flexível. Diferentemente dos sistemas de banco de dados tradicionais, um Data Lake não requer uma estruturação prévia dos dados, permitindo que os dados brutos sejam armazenados sem a necessidade de modelagem ou esquematização prévia.

  • Finalidade do Data Lake: A finalidade do Data Lake é fornecer uma fonte única para todas as informações da empresa, permitindo que os usuários possam acessar, integrar e analisar dados de diferentes fontes em tempo real. Com um Data Lake, as empresas podem obter uma visão completa e abrangente de seus dados, permitindo que possam descobrir insights valiosos, identificar padrões e tendências, bem como criar modelos de análise e aprendizado de máquina mais precisos e eficazes.

Tecnologias

❒ VirtualBoxCentOSJava JDKApache HadoopApache KafkaApache NifiApache SparkApache HiveMySQLOracle Database

Motivação

Este projeto experimental é o produto de minhas experiências com Data Lake, onde pude aprimorar minhas habilidades em arquitetura de dados, modelagem de dados, ingestão, processamento e análise de dados em grande escala. Através do uso de tecnologias modernas de armazenamento, pude explorar as diversas possibilidades de criação de um ambiente de Data Lake escalável e flexível.

Sumário

Pré-requisitos

📝 Nota: Este projeto foi concluído em dezembro de 2022, e é importante ressaltar que alguns dos requisitos abordados podem sofrer alterações ao longo do tempo. Como em qualquer área de tecnologia, novas soluções e tecnologias surgem constantemente, o que pode tornar algumas das abordagens e soluções apresentadas neste projeto desatualizadas em algum momento.

Hardware: Ao menos 8GB de memória RAM.

Sistema operacional: Linux, Windows ou MacOS.

Espaço em disco: Ao menos 50GB de espaço em disco.

Rede: O Data Lake requer uma rede adequada para comunicação com outras máquinas e para acesso remoto.

Tarefas

Tarefas concluídas

  • Descrever sobre a finalidade do Data Lake
  • Simular o ambiente On-Premises
  • Instalar os componentes do Data Lake
  • Verificar o funcionamento do Data Lake

Futuras implementações

  • Acrescentar novas fontes de dados
  • Acrescentar conexões com as novas fontes de dados
  • Automatizar os processos de instalação com bash script
  • Automatizar os processos de configuração com bash script

Links

Projeto:

Downloads:

Artigos orientadores:

Conclusão

O objetivo final do Data Lake é ajudar as empresas a tomar decisões mais informadas e estratégicas, melhorando a eficiência dos negócios e aumentando a competitividade no mercado. Além disso, o Data Lake também pode ser usado para suportar outras iniciativas, como a conformidade regulatória, a governança de dados e a segurança da informação.

About

Este é um projeto pessoal que tem como objetivo implementar um Data Lake On-Premises, o projeto busca criar uma solução escalável e flexível para armazenar e gerenciar grandes volumes de dados, possibilitando a análise de informações de diferentes fontes e formatos. A proposta é fornecer uma base sólida para a obtenção de insights valiosos.

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published