Learn: Como o Data Lake pode apoiar no processo de tomada de decisão baseada em dados

Antes de aprender sobre o Azure Data Lake, vamos iniciar falando sobre o conceito que existe por trás de um Data Lake.

O que é um Data Lake?

Um Data Lake é um repositório que armazena uma grande quantidade de dados brutos em seu formato nativo. Enquanto um Data Warehouse armazena dados em arquivos e pastas, um Data Lake usa uma arquitetura plana para armazenar dados. Cada elemento de dados em um Data Lake é atribuído a um identificador exclusivo e marcado como um conjunto de tags de metadados estendidos. 

Como o Data Lake pode ser usado nos Negócios

Um Data-Lake mantém dados em seus formatos nativos e lida com os três Vs de Big Data – volume, velocidade e variedade – enquanto fornece ferramentas para análise, consulta e processamento. Os Data Lakes eliminam todas as restrições de um sistema de armazenamento de dados típicos, fornecendo espaço ilimitado, tamanho de arquivo irrestrito, esquema de leitura e várias maneiras de acessar dados (incluindo programação, consultas semelhantes a SQL e chamadas REST).

Os principais recursos do Azure Data Lake

O Azure Data Lake oferece os seguintes recursos:

  • Capacidade de armazenar e analisar dados de qualquer tipo e tamanho
  • Múltiplos métodos de acesso, incluindo U-SQL, Spark, Hive, Hbase e Storm
  • Escala dinâmica para corresponder às prioridades da sua empresa
  • Segurança de nível empresarial com o Active Directory do Azure
  • Pode ser gerenciado e suportado por um SLA de nível corporativo

Em termos gerais, O Azure Data Lake é classificado em três partes:

Por dentro do Data Lake Store

O Data Lake Store fornece um único repositório no qual as organizações carregam dados de praticamente qualquer volume. Ele foi projetado para processamento e análise de alto desempenho a partir de aplicativos e ferramentas HDFS, incluindo suporte para cargas de trabalho de baixa latência. No Data Lake Store, os dados podem ser compartilhados para colaboração com segurança de nível corporativo.

O poder do Azure Data Lake Analytics

O Data Lake Analytics é um serviço de análise distribuído baseado no Apache YARN que complementa o armazenamento do Data Lake. O serviço de análise pode lidar com trabalhos de qualquer escala instantaneamente com o poder de processamento sob demanda e um modelo de pagamento conforme o uso. Ele inclui um tempo de execução distribuído escalável chamado U-SQL, uma linguagem que unifica os benefícios do SQL..

Fonte: dzone.com

Acompanhe a Kumulus nas redes sociais: