Maturidade do Data Lake Neste momento, vamos discutir critérios que nos ajudam a definir a maturidade de um Data Lake. Neste modelo, nós temos um gráfico com dois eixos. No eixo vertical, eixo Y, nós temos os dados, com três marcações principais. Dados de uso imediato, dados de uso futuro e todos os dados disponíveis. No outro eixo, o eixo horizontal, o eixo X, nós temos o uso. E nós temos duas grandes marcações. Do lado esquerdo, próximo ao zero, a alta dependência de um departamento de tecnologia, seja este departamento TI, BI, dados, uma dependência tecnológica. E à direita, nós temos o autosserviço, a capacidade de resolver por si só, de se autosservir-se. Então, com essas duas grandes dimensões em mente, nós conseguimos visualizar quatro níveis de maturidade para data lakes. São eles, a poça de dados é o passo inicial de um data lake. Então, imagina uma estrutura que está relacionada com dados de uso imediato, dados que possuem uma característica bruta, muito próxima, se não idêntica, ao momento em que foram extraídas dos sistemas de origem e, por consequência, uma alta dependência do departamento de tecnologia. Nós falamos que, quanto menos estruturados os dados, maior a necessidade de pessoas técnicas, de cientistas, de engenheiros de dados para trabalhar com essa informação. Então, quando nós temos um domínio de dados reduzido a um processo de negócio, ou menos de um processo de negócio, ou até um departamento da nossa empresa, estamos falando de uma poça de dados que tem a característica de dados de uso imediato e alta dependência de um departamento de tecnologia da informação. Logo em seguida, nós temos o charco e aqui vamos traçar um paralelo com o terreno cheio de poças de água. O charco lembra um pântano, não confundir com o pântano de dados, que é o lago de dados que perdeu a sua governança, mas a ideia do charco aqui é como se fosse um conjunto de data martes que nós discutimos lá no Data Warehouse. Então, diferentes departamentos começam a fazer suas implementações de pequenos data lakes, então de pequenas poças de dados, e este conjunto, que ainda tem por característica maior dados de uso imediato e alguma coisa pensando no uso futuro, mas ainda assim uma grande dependência de um departamento de tecnologia. uma grande dependência de um departamento de tecnologia. Terceiro nível, talvez o nível mais comum e a expressão que todos nós estamos acostumados, é o lago de dados, Data Lake, em tradução direta. No lago de dados, nós já estamos mais afastados da alta dependência de um departamento de tecnologia e o uso dessa informação é um uso mais misto e também pensando em uso futuro. Existe dado de consumo imediato e também existem dados estratégicos, dados para consumo futuro. E na quarta posição, com o maior nível de maturidade, é o oceano de dados. O oceano de dados é aquela situação em que todos os dados da organização estão disponíveis para consulta e essa consulta não exige nenhuma dependência de departamento de tecnologia. Por isso, o autosserviço. Os analistas de negócio, os cientistas de dados, as pessoas com interesse naqueles domínios de informação, conseguem realizar as suas consultas de maneira a não depender de ninguém, de maneira a ter essa autorresolução. Na minha carreira, pessoalmente, eu nunca vi um oceano de dados, infelizmente. Eu já trabalhei bastante com lagos de dados, lagos de dados bastante maduros, bastante extensos. E também já vi pântano de dados, que é o lago de dados que perdeu a sua governança. que perdeu a sua governança. De qualquer maneira, este aqui é um modelo bastante interessante para a gente conseguir perceber e medir o quão maduro é uma implementação, uma iniciativa de Data Lake nas organizações.