Databases, Data Houses, Data Lakes, Parte 2. Vamos continuar falando sobre esses três elementos e se você ainda não viu a parte 1, recomendo fortemente que você assista a parte 1 e depois você vem para cá na parte 2, que vamos começar agora. parte 2 que vamos começar agora. Databases terão uma interação facilitada por meio das linguagens de consulta e também das APIs. Nós vimos isso no conceito de banco de dados que parte das funcionalidades de um database é entregar meios de acesso por uma linguagem rica de consulta. Para o desempenho dos bancos de dados, nós também teremos elementos como os índices. Então, índices são elementos técnicos que permitem a gente acessar registros na base de dados por meio de um ou mais atributos que são indexados com um tempo de acesso muito rápido, independente do tamanho da base de dados. Ou seja, o índice evita uma varredura manual e completa por toda uma tabela ou por toda uma coleção de dados. Bancos de dados modernos também vão entregar mecanismos de busca textuais e vetoriais, assunto que está muito na moda de 2023 para cá. Ainda sobre os bancos de dados, nós vamos perceber que bancos modernos devem entregar topologias flexíveis para a gente separar cargas de trabalho transacionais e analíticas. Então, é muito comum a gente encontrar mecanismos para adição de um nó de leitura ou de um nó analítico para separação, para isolamento desta carga de trabalho. Além disso, diferentes possibilidades do deploy deste banco de dados, seja localmente, num servidor, num hardware que você tem no seu data center, ou sobre infraestrutura de nuvem privada ou pública, ou até mesmo deploys híbridos ou multinuvem, e também no nível de plataforma como serviço. Data Houses, os dados serão explorados por meio de ferramentas de BI, por meio de ferramentas de visualização de dados O Data House é o artefato gerado para a persistência de e análise dos dados será realizada por uma outra ferramenta ou por um outro conjunto de ferramentas de visualização. Então, ferramentas populares para isso, Power BI da Microsoft, MicroStrategy, Tableau, ClickView, IBM Cognos, entre outras ferramentas de visualização populares. IBM Cognos, entre outras ferramentas de visualização populares. Para desempenho da Ather House, frequentemente, se não em sua totalidade, será utilizada a técnica de modelagem dimensional de dados. E, nesta técnica, nós vamos perceber que existe uma denormalização dos dados que, originalmente, foram gerados na terceira forma normal então a modelagem dimensional de dados vai reorganizar a estrutura da informação vai trazer um pouquinho de normalização que a terceira forma normal não admite e com isso nós teremos mais desempenho nas consultas vamos sempre sempre lembrar que o Data Warehouse é um artefato, tanto de software quanto de hardware, que está destinado a uma capacidade de leitura intensa e agregação intensa dessas informações. A modelagem dimensional vai ter um papel importante para entregar esse tipo de característica também. E devido a essa natureza altamente estruturada das informações, combinada com essa modelagem dimensional de dados, que é uma modelagem que se aproxima muito ao raciocínio humano, a análise dos dados é mais simplificada e mais intuitiva em um data house. Então, o data house pode ser percebido como uma alternativa mais facilitada, mais viável para cidadãos de dados, para analistas de negócio. Data lakes. O público vai variar conforme o nível de estruturação de dados. Então, nós comentamos que nos data lakes é possível ter dados estruturados, dados semi-estruturados e dados não estruturados. O mecanismo é de ingestão, não obrigatoriamente vai acontecer uma preparação ou enriquecimento ou limpeza desse dado que foi ingerido no primeiro momento. Com dados mais estruturados, ou seja, dados mais preparados, mais limpos, que sofreram curadoria e tiveram uma preparação prévia, nós habilitaremos os analistas de negócio e os cientistas, perdão, os cidadãos de dados. Dados mais estruturados terão uma análise mais facilitada. Dados mais desestruturados ou menos curados, menos limpos, menos preparados, dados que estão mais na sua forma bruta e original, vão requerer para a análise a experiência das pessoas desenvolvedoras, cientistas e engenheiros de dados. E agora, para a gente concluir o nosso raciocínio e compreensão sobre databases, data houses e data lakes, vamos comentar exemplos populares de mercado para cada uma dessas abordagens. mercado para cada uma dessas abordagens. Então, banco de dados, como nós já comentamos, vamos recapitular, relacionais, nós temos banco de dados Oracle, MySQL, SQL Server, Postgres, documentais MongoDB, CouchDB, chave-valor Redis, DynamoDB na AWS, Colunares ou Coluna Larga, Cassandra, HBase e Graphos, Neo4j e Amazon Neptune. Para Data Warehouse, nós também vamos encontrarapse, o Oracle Autonomous Data Warehouse, Snowflake e Teradata Vantage. E para a Data Lake, nós vamos quebrar em dois elementos principais primeiro armazenamento não vão aparecer aqui os populares armazenamentos em objeto a w ss3 o storage da azure o cloud storage do google é hora com o object storage entre outros processamento e consulta nós vamos ter mongodb atlas data lake Athena na AWS, o Presto, o Starburst e Databricks Psychoanalytics.