Databases, Data Warehouses e Data Lakes, parte 1. Agora vamos traçar um paralelo entre esses três conceitos com o objetivo de ter bastante clareza sobre cada um destes elementos. Banco de dados ou databases, como nós já vimos, é uma coleção organizada de dados ou informações armazenadas eletronicamente Essa massa de dados é gerida por um sistema gerenciador de banco de dados, como nós também já vimos, e agora como novidade é que nós temos uma predominância de banco de dados para o processamento de transações online, ou LTP. Então nós comentamos que esse tipo de carga de trabalho representa uma troca da vida real, uma transação financeira, uma transação econômica e justamente o objetivo inicial, primordial dos bancos de dados é o registro desse tipo de transação. E recapitulando, estamos falando de transações com bastante concorrência, então múltiplas transações de forma simultânea sendo realizadas por múltiplos agentes, por múltiplas pessoas. Tudo isso concorrendo pelos recursos computacionais que farão o devido armazenamento dessa informação, seja por uma operação de inserção, de atualização, de leitura e de exclusão desses registros. e de exclusão destes registros. Os bancos de dados, também como já comentamos, nos relacionais armazenam os dados em tabelas que estão delimitadas por linhas e colunas fixas. E as tabelas também vão apresentar relacionamentos entre si. Data Airhouses e Data Lakes vão coletar as informações de muitas origens de informação, inclusive múltiplos OLTPs. E os casos de uso principais estão relacionados a relatórios, por exemplo, vendas trimestrais por loja e também por predição, E também por predição, ou seja, queremos fazer uma previsão de vendas baseada na tendência histórica que nós temos registradas nos nossos sistemas OLTP. Predominantemente para ambos, Data House e Data Lake, temos um processamento analítico, OLAP. Recapitulando, no OLAP o objetivo é uma leitura intensa, uma leitura massiva, com operações de agregação, ou seja, vai acontecer algum tipo de sumarização, de contagem, de agrupamento, para justamente responder aos questionamentos de negócios, como por exemplo o nosso relatório de vendas trimestrais por loja. A partir daqui, nós começamos a diferenciar Data Warehouse de Data Lake. Então, Data Warehouses vão armazenar informações altamente estruturadas de várias fontes e os Data Lakes serão um repositório de dados de fontes distintas, porém em seu formato original e bruto. Continuando, bancos de dados não relacionais, os NoSQL, que também já comentamos, vão armazenar os dados em uma variedade de modelos. Então, nós comentamos do formato JSON, do formato BSON, que é o JSON binário, pares de chave-valor, tabelas com linhas e colunas dinâmicas, vértices e arestas. estas. Os bancos de dados vão armazenar dados estruturados, que predominam em suas implementações e também, em alguns casos, terão a capacidade, principalmente os bancos de dados modernos, de armazenar dados semi-estruturados. Já os data houses podem ser compreendidos como um banco de dados gigante que foi otimizado para leitura. Essa leitura será sobre dados atuais e também históricos que foram coletados de um ou mais sistemas, de um ou mais OLTPs. E o objetivo aqui é ter a geração desses relatórios e painéis gerenciais e buscar os insights. Então, aqui existe uma aplicação de Business Intelligence, que é o empoderamento das pessoas gestoras para a tomada de decisão baseada em fatos, baseada em dados. Os Data Houses terão predominantemente dados estruturados. Então, o esquema de dados é relacional, ele é pré-definido, ou seja, a preparação acontece antes do uso da informação que está sendo coletada, e este esquema é fixo. Já os Data Lakes também têm o foco em numa análise de dados para obter insights. O objetivo é muito similar. Porém, aqui nós também temos uma percepção, uma adoção no mercado de que é um armazenamento barato e de fato sim, principalmente empoderado pela computação em nuvem, o data lake permite um armazenamento mais barato dos dados para uma análise que será realizada no futuro. Então, existe um foco maior na ingestão desses dados no seu formato bruto e original e a diferenciação aqui vai acontecer que são vários formatos. O Data Lake vai trabalhar com JSON, com BSON, com CSV, TSV, AVRO, ORC, PARQ e também com formatos distintos. Planilhas, arquivos, documentos PDF, áudios, imagens, vídeos. Sobre funcionalidades, databases. Vamos apresentar funcionalidades de segurança, então nós temos criptografias em repouso, em trânsito, em uso, mecanismos de autenticação e autorização para o devido acesso aos dados que estão ali contidos, para quem tem o direito de ter acesso àquela informação, mecanismos de auditoria para a rastreabilidade de quem está realizando determinada operação no seu banco de dados, entre outras capacidades. Também em relação aos bancos de dados, é muito frequente associar o conceito de transações ácide, que são a atomicidade, consistência, isolamento e durabilidade, que são quatro elementos altamente procurados para garantir integridade dos dados. Data houses podem armazenar dados brutos, sem transformação, como acontece nos data lakes, porém o foco é em dados altamente selecionados, limpos, curados, no sentido de curadoria daquele dado, filtrados e agregados. Então, aqui nós temos no Data House uma preparação muito forte, uma governança sobre aquele dado que foi ingerido muito grande. muito grande consequentemente é a análise acaba sendo muito simplificada nos laterais por conta de toda essa preparação e governança que é colocada nessa implementação teremos processos de etf são transformações extração transformação e carga para a movimentação dos dados dos seus diferentes sistemas de origem para o data house e isso vai acontecer de maneira regular antigamente a sazonalidade era uma vez ao dia geralmente de madrugada agora com data houses mais modernos essa essa periodicidade pode ser horária pode ser a cada minuto a cada 15 minutos, nós temos propostas de diferentes fornecedores de data houses modernos que prevêm mecanismos de você fazer essa atualização em tempo real, inclusive. Já nos data lakes, os dados não precisam ser transformados para acontecer a ingestão. O objetivo é você fazer o armazenamento desse dado no seu formato bruto e original, do jeito que foi criado pelo seu sistema de origem. Aqui também nós teremos o estabelecimento de uma visão histórica. Então, os dados do Data Lake vão acumulando ao longo do tempo, conforme as origens vão gerando essa massa de dados. longo do tempo, conforme as origens vão gerando essa massa de dados. Consequentemente, a ingestão de dados é muito eficiente, pois não existe uma preparação prévia, o dado é ingerido no seu formato original e, consequentemente, você não precisa ter um planejamento prévio para realizar este processo de ingestão. No Data Warehouse, você tem que planejar, tem que preparar como esta informação será ingerida e será entregue ao seu usuário final. No Data Lake, não necessariamente no primeiro momento. A sua preparação vai acontecer de maneira posterior, conforme o consumo. E também no Data Lake é possível conectar ferramentas de BI, como o Data House, e também motores de processamento desta informação.