Arquitetura Lake House Talvez você já esteja imaginando que Data Lake tem seus desafios, Data Lake tem outros desafios Então, a arquitetura Lake House pode ser uma combinação de ambos os mundos para resolver esses desafios Vamos ver isso. O Lake House é um termo mais recente e surgiu como um paradigma que combina elementos do Data Lake e Data Warehouse. Temos aqui seis pilares. Primeiro, a transação ACID, então nós vamos falar bastante ao longo deste curso sobre a atomicidade, consistência, isolamento e durabilidade do dado. Então, essas características são muito buscadas nos repositórios de dados para as aplicações, porque justamente trazem uma integridade forte para os dados que estão armazenados. Então, com certeza, é um elemento importante, um elemento que faz parte do paradigma Lakehouse. Conformidade de esquema, então, lá no Data Warehouse, os dados eram altamente estruturados. Já no Data Lake, foi possível abrir mão dessa estruturação. E aqui no Lake House, por conformidade de esquema, vamos entender mecanismos de validação do esquema de dados. Ou seja, é possível que registros ingeridos sejam validados. Por exemplo, registro de uma pessoa física cliente. É necessário ter o canto CPF. Então, é possível que aconteça uma validação de esquema que toda pessoa física possua um atributo de CPF. possua um atributo de CPF. E se não houver, este dado não é ingerido ou vai para um tratamento específico para que esta informação seja adicionada. Então, por conformidade de esquema, nós não perdemos a flexibilidade de um esquema de dados flexível e conseguimos atribuir mecanismos de estruturação que estão presentes em Data Warehouse. Formatos diversos e abertos. Se nós formos ler com detalhe o paper que propõe a arquitetura Lakehouse, nós vamos perceber que o paper é muito direto e fala que a ideia é ter características de Data Warehouse diretamente sobre arquivos abertos em texto e de formato consolidado. Então, aqui é isso que a gente quer dizer com formatos diversos e abertos. Em oposição, por exemplo, aos formatos proprietários que nós encontramos no banco Oracle ou no banco SQL Server. Então, não é possível ler diretamente aqueles arquivos se não utilizar essas respectivas tecnologias. Cargas mistas. Nós falamos bastante da diferenciação da carga de trabalho transacional e da carga de trabalho analítica. No Lakehouse, a proposta é justamente a abordagem mista de ambos os mundos transacional e analítico. Upserts e deletes paralelos. O upsert é um comando específico que vai fazer uma inserção, caso o registro não exista, ou uma atualização, caso o registro exista. E o delete é uma exclusão. Então, estes tipos de comando têm capacidade de execução em paralelo. E lá no começo a gente tem a transação ácide, então existe uma promessa de garantia de integridade do dado que estamos trabalhando. E o último pilar, não menos importante, governança de dados. Nós comentamos na aula sobre o Data Lake que é possível que o seu lado de dados perca governança e se transforme em um pântano. Então, por essa razão, nós temos aqui no paradigma Lake House o pilar de governança de dados. dados. Em termos de arquitetura, vamos observar que no Lake House nós temos na base desse diagrama um data lake. Então, o fundamento de dados abertos, dados diversos, diferentes estruturas, semi-estruturado e não estruturado, permanece. O que nós vamos ter logo em seguida são camadas de preparação de processamento que vão trazer características transacionais a esses dados persistidos e um motor de alto desempenho para consultas. E ao topo, na camada de consumo, existe a proposta de uma plataforma única para consumo. existe a proposta de uma plataforma única para consumo. Então, nós já vimos que dentro do uso de dados, nós temos aplicações mais direcionadas para relatórios e painéis gerenciais, que é o Business Intelligence. Outras aplicações estarão mais interessadas com o fluxo de dados em tempo real, que é o streaming, outras estarão interessadas em predição de comportamentos baseado em tendências dos últimos dados, que é o machine learning, e também as capacidades de autosserviço, quando a própria pessoa usuária consegue realizar a sua consulta por completa, a sua análise, obtém o seu insight e não precisa falar com ninguém de tecnologia para isso. Então, este aqui é o diagrama geral de uma arquitetura Lakehouse. Projetos Lakehouse famosos. Importante destacar o projeto Apache UDI, de Hadoop Update Delete and Incremental, é um projeto da Fundação Apache focado em absurdos e delitos de chave valor é aquele formato de dados que nós comentamos mais simplificado e combina também formatos colunares e lineares nessa implementação também temos a parte foundation wiseberg então aqui já existe um propósito geral não somente direcionado como chave valor no caso do wood já existe um propósito geral, não somente direcionado como chave de valor, no caso do UD, e este propósito geral são tabelas únicas de grande tamanho de armazenamento de dados. E o projeto mais famoso, de maior sucesso e que tem bastante êxito no mercado é o Delta Lake, mantido pela Linux Foundation e construído pelos criadores do Apache Spark. A empresa que mantém ou que opera o serviço de lake house baseado em Delta Lake é a Databricks e nós vamos encontrar esse serviço nos grandes provedores de nuvem. Então, esse aqui é um formato aberto, a proposta é justamente trazer as características e capacidades transacionais de um Data Warehouse sobre dados que estão persistidos em formato de arquivo. Então, é uma proposta bastante interessante, vamos detalhar um pouco mais a proposta Delta Lake. Então, aqui nós vamos ver que o objetivo, lendo da esquerda para a direita, streaming e batch, então a ideia é fazer a ingestão desses dados, seja em tempo real ou em lote, organizar essa camada de persistência em pelo menos três elementos. Então, aqui a gente está olhando a famosa medallion architecture, ou a arquitetura medalião, referente à tabela bronze, são as tabelas de ingestão, os elementos ali que estão idênticos aos dados de origem, sem transformação nenhuma. A camada prata, onde nós temos tabelas refinadas, então aqui já existe um enriquecimento da informação, um certo tratamento, limpeza, alguns filtros, até chegar na camada ouro, que fará uma entrega de dados já com agregação e com características para consumo de cidadãos de dados, de analistas de negócio. dados de analistas de negócio. E aqui nós também podemos ver na proposta do Data Lake que existe integração com ferramentas muito populares do ecossistema de Data Lake e também com os fornecedores dos provedores em nuvem, dos seus serviços de storage e o próprio Hadoop, precursor disso tudo em tempos pré-nuvem.