A fama do Data Lake. Assim como nós fizemos a mesma análise sobre a percepção dos projetos de implementação de Data Houses, vamos revisar juntos como os projetos em implementações de Data Lake são percebidos pelo mercado. Aqui vamos começar falando sobre a falta de atomicidade e isolamento transacional. Vamos resgatar um pouco do que nós conversamos nos conceitos de ácido para o conceito de atomicidade. e aqui vamos entender atômico como algo indivisível e algo que acontece por completo ou não acontece, ou é tudo ou é nada. Na vida real, vamos imaginar uma operação de piques e não vamos conseguir, ao realizar um pique, nós nunca vamos conseguir encontrar um PIX pela metade. Então, se nós realizarmos uma transferência de um real via PIX, ou essa transação é realizada por completo, ou seja, um real sai da conta de origem e vai para a conta de destino, ou essa transação não é realizada por completo. Então, quando olhamos os data lakes, nós vamos perceber que, como acontece muita coisa em paralelo e de maneira distribuída, principalmente data lakes grandes e que estão geograficamente distribuídos, nós percebemos que existe uma falta de atomicidade. É o impacto de ter a capacidade de estar distribuído e de ter paralelismo de operações de escrita e também de leitura, mas principalmente sobre escrita. Então, este é um primeiro grande ponto de percepção do mercado de falta de atomicidade. E também de isolamento transacional. Aqui a gente percebe que as transações não estão protegidas e é possível você fazer leituras de dados defasados em implementações muito grandes e que não tem esse tema devidamente controlado na implementação. Outro ponto, também bastante próximo a esse, tem a ver com inconsistência de dados e qualidade de dados reduzida. Então, aqui a gente tem dois pontos interessantes e importantes. Inconsistência de dados, então é possível fazer uma leitura de uma informação que já foi atualizada em alguma outra parte do lago de dados, ou até mesmo pensando em diferentes origens de informação, e vamos lembrar que o Data Lake é o destino de múltiplos OLTPs, é possível sim encontrar dados inconsistentes se isso não for endereçado. E sobretudo na camada de dados brutos, dados que estão exatamente como estão na origem. E consequentemente, se eu tenho dados que eu não trabalhei por completo e esses dados estão disponíveis para o trabalho, eu tenho um ruído também na questão de qualidade de dados. Ao contrário de um data house, onde diversos mecanismos de limpeza, de curadoria, de enriquecimento de dados são feitos obrigatoriamente e previamente ao consumo, aqui no Data Lake esse mecanismo é um mecanismo mais relaxado. Você tem isso na camada ouro, nas camadas mais preparadas, mas que trazem mais estrutura e enriquecimento para os dados que foram geridos. Nas camadas intermediárias e principalmente na camada de dados brutos, isso não vai acontecer. E por consequência disso tudo que a gente tem discutido até agora, o Data Lake é percebido como bastante complexo e até mesmo caótico. Mais uma vez aqui, gente, isso não significa que um Data Lake é ruim. O que eu estou compartilhando com vocês aqui são percepções da última década que começaram, onde a gente começou a ter essas implementações de Data Lakes acontecendo nas organizações e hoje o resumo disso tudo são essas grandes percepções. Mas da mesma maneira como um Data House pode ser uma ferramenta extremamente poderosa e útil dentro de uma organização, o Data Lake também pode ser este areado bastante poderoso para a gente conseguir fazer análise de dados de tipos extremamente variados, com alto volume e alto paralelismo.