Categoria: Microsoft Azure

Cloud Microsoft Azure

Kumulus Cloud & Data é premiada como Parceiro do ano em Cloud pela Westcon Americas

A Kumulus Cloud & Data, recebeu o Prêmio Cloud Partner of the Year (Parceira em Nuvem do Ano), da Westcon Americas, durante o Microsoft Inspire, que aconteceu em Las Vegas nesta terça-feira (16).

A Westcon é um dos principais canais de distribuição da Microsoft no mundo. O evento contou com a presença de todo time executivo da Westcon, que realizou a entrega dos prêmios que homenagearam as empresas que foram fundamentais para os resultados da companhia. O founder da Kumulus, Thiago Caserta e o CEO da Kumulus, Thiago Iacopini receberam o prêmio.

“Esse prêmio significa que geramos resultados incríveis tanto para a Westcon quanto para a Microsoft e que estamos no caminho certo para ser reconhecida como uma das principais empresas de Cloud da América Latina.” comenta Thiago Caserta, founder da Kumulus.

Fundada por ex-engenheiros da Microsoft, a Kumulus é uma empresa de tecnologia que apoia organizações, de qualquer tamanho e segmento, a adotarem estratégias eficientes para adoção de novas tecnologias com foco em nuvem e dados, com o objetivo de ganharem agilidade e se tornarem mais relevantes e competitivas no mundo atual.

Parabéns a todos os colaboradores que contribuíram para este reconhecimento tão importante para a Kumulus.

LER MAIS ARTIGOS

Acompanhe a Kumulus nas redes sociais:

Facebook

Instagram

Youtube

Envelope

Cloud Microsoft Azure

Learn: Data Warehouse, como isso pode ajudar a sua empresa a ir para o próximo nível

Conforme as organizações migram para a nuvem, a arquitetura de um Modern Data Warehouse (MDW) permite um novo nível de desempenho e escalabilidade. Um modern data warehouse permite reunir dados em qualquer escala com facilidade e obter insights por meio de painéis analíticos, relatórios operacionais ou análises avançadas.
Começando pelo início, o que significa Data Warehouse?
Data warehouse, traduzindo ao pé da letra: é um banco de dados de suporte à decisão, que normalmente é mantido separadamente do banco de dados operacional da organização. Data warehouse não é um produto, mas um ambiente. É uma construção de um sistema de informações que fornece aos usuários informações atuais e históricas de suporte à decisão, difíceis de acessar ou apresentar em armazenamento de dados operacionais tradicionais.

Data warehouse é o núcleo do sistema de BI que é construído para análise de dados e relatórios.

Data warehouse também é conhecido pelos seguintes nomes:

·         Sistema de apoio à decisão (DSS)
·         Sistema de informação executiva
·         Sistema de informação gerencial
·         Solução de business intelligence
·         Aplicação analítica
·         Armazém de dados


Como começou o Data warehouse
O Data warehouse nasceu da necessidade de armazenar e apresentar dados à medida que os sistemas de computadores se tornaram mais complexos e necessários para lidar com quantidades crescentes de informações.

Fatos curiosos sobre Data Warehouse ao longo da história:

· O Data Warehousing começou no final dos anos 80, quando o funcionário da IBM Paul Murphy e Barry Devlin desenvolveu o Business Data Warehouse.

· No entanto, o conceito real foi dado por Inmon Bill. Ele foi considerado o pai do data warehouse. Ele havia escrito sobre uma variedade de tópicos para construção, uso e manutenção do armazém e da Fábrica de Informações Corporativas.

· Em 1960 – Dartmouth e General Mills em um projeto de pesquisa conjunta, desenvolvem os termos “dimensões e fatos”.

·  Em 1970 – a Nielsen e a IRI introduzem data marts dimensionais para vendas no varejo.

· Em 1983 – A Tera Data Corporation apresenta um sistema de gerenciamento de banco de dados especificamente projetado para suporte a decisões.

Como funciona um Data warehouse?

Um Data Warehouse funciona como um repositório central onde as informações chegam de uma ou mais fontes de dados. Os dados fluem para um data warehouse a partir do sistema transacional e de outros bancos de dados relacionais.

Os dados podem ser:

Estruturados
Semi-estruturados
Dados não estruturados

Os dados são processados e transformados para que os usuários possam acessar os dados processados no Data Warehouse por meio de ferramentas de Business Intelligence, clientes SQL e planilhas. Um data warehouse mescla informações provenientes de diferentes fontes em um banco de dados.

Ao mesclar todas essas informações em um único local, os tomadores de decisão conseguem analisar seus clientes de maneira mais holística. O armazenamento de dados torna possível a mineração de dados.
Os 03 tipos de Data Warehouse
1. Enterprise Data warehouse: O Enterprise Data Warehouse fornece informações baseadas em dados que dão suporte à tomada decisão para toda a empresa. Ele oferece uma abordagem unificada para organizar e representar dados. Ele também fornece a capacidade de classificar dados de acordo com o assunto e dar acesso de acordo com essas divisões.

2.  Armazenamento de Dados Operacionais: O Operational Data Store, que também é chamado de ODS, é um armazenamento de dados necessário, quando nem o Data warehouse nem os sistemas OLTP oferecem suporte às necessidades de relatórios das organizações. No ODS, o data warehouse é atualizado em tempo real. Por isso, é preferido para atividades de rotina como armazenamento de registros dos funcionários.

3.    Data Mart: Um datamart é um subconjunto do armazagem de dados. É projetado para uma determinada linha de negócios, como vendas ou finanças. Em um datamart independente, os dados podem ser extraídos diretamente das fontes.
As 04 etapas gerais do Data Warehouse
No passado, as organizações iniciaram o uso relativamente simples de data warehousing. No entanto, com o tempo, o uso mais sofisticado de data warehousing começou.

A seguir estão as 04 etapas gerais de uso do data warehouse:

1. Banco de dados operacional offline: Nesse estágio, os dados são copiados de um sistema operacional para outro servidor. Dessa forma, o carregamento, o processamento e o relatório dos dados copiados não afetam o desempenho do sistema operacional.

2. Armazenamento de dados Offline: Os dados do Data warehouse são atualizados regularmente a partir do Banco de Dados Operacional. Os dados no Data warehouse são mapeados e transformados para tender aos objetivos do Data warehouse.

3. Data Warehouse em tempo real:  Nesse estágio, os data warehouses são atualizados sempre que qualquer transação ocorre no banco de dados operacional. Por exemplo, sistemas de reservas de linhas aéreas ou ferroviárias.

4. Data Warehouse integrado: Nesse estágio, os Data Warehouses são atualizados continuamente quando o sistema operacional executa uma transação. O data warehouse gera transações que são repassadas ao sistema operacional.
Componentes do data warehouse:
Os 4 componentes dos Data Warehouses são:

1. Load Manager: também é chamado de componente frontal. Ele executa todas as operações associadas à extração e carga de dados no warehouse. Essas operações incluem transformações para preparar os dados para entrar no Data Warehouse.

2. Warehouse Manager: realiza operações associadas ao gerenciamento de dados. Ele executa operações como análise de dados para garantir consistência, criação de índices e visualizações.

3. Query Manager: o gerenciador de consultas também é conhecido como componente de backend. Realiza todas as operações operacionais relacionadas ao gerenciamento de consultas de usuários. As operações desses componentes do Data Warehouse são consultas diretas às tabelas apropriadas para agendar a execução de consultas.

4. Ferramentas de acesso do usuário final: é categorizado em seis grupos diferentes, como:

a.     Relatório de dados
b.       Ferramentas de consulta
c.       Ferramentas de desenvolvimento de aplicativos
d.       Ferramentas EIS
e.       Ferramentas OLAP
f.       Ferramentas de mineração de dados
Data warehouse apoiando os tomadores de decisão
Gestores usam data warehouse como apoiador para a tomada de decisão baseada em uma grande massa de dados.

·      Usuários que usam processos personalizados e complexos para obter informações de várias fontes de dados;

·     Também é usado por pessoas que precisam de tecnologia simples para acessar os dados;

·   Também é essencial para as pessoas que querem uma abordagem sistemática para tomar decisões;

·   Usuários que precisam de  desempenho rápido em uma grande quantidade de dados, o que é uma necessidade para relatórios, grades ou gráficos, o data warehouse é útil.

Quais são os segmentos em que o Data Warehouse é utilizado?
O Data warehouse é utilizado em diversos setores importantes:

CIAs aéreas: No sistema de companhias aéreas, é usado para fins de operação, como atribuição de tripulação, análises de rentabilidade, promoções de programas de passageiros frequentes, etc.

Bancos: É amplamente utilizado no setor bancário para gerenciar os recursos disponíveis de forma eficaz. Alguns bancos também usam para a pesquisa de mercado, análise de desempenho do produto e operações.

Cuidados de saúde: O setor de serviços de saúde também usou o Data warehouse para criar estratégias e prever resultados, gerar relatórios de tratamento do paciente, compartilhar dados com companhias de seguros, serviços de assistência médica, etc.

Setor público: No setor público, o data warehouse é usado para coleta de informações. Ele ajuda as agências governamentais a manter e analisar registros fiscais e registros de políticas de saúde.

Setor de Investimento e Seguros: Nesse setor, o data warehouse é usado principalmente para analisar padrões de dados, tendências de clientes e acompanhar os movimentos do mercado.

Varejo: Nas redes de varejo, o data warehouse é amplamente utilizado para distribuição e marketing. Também ajuda a rastrear itens, entender padrões de compra de clientes, promoções e também é usado para determinar a política de preços.

Telecomunicação: Um data warehouse é usado para obter insights na criação de promoções de produtos, decisões de vendas e decisões de distribuição.
Os principais passos da implementação do Datawarehouse:

Melhores práticas para implementar um Data Warehouse
·    É importante montar um plano para testar a consistência, precisão e integridade dos dados.
·      O data warehouse deve estar bem integrado, bem definido e com registro de data e hora.
·    Ao projetar o data warehouse, certifique-se de usar a ferramenta certa, manter o ciclo de vida cuidar dos conflitos de dados e estar pronto para aprender seus erros.
·         Garantir a participação de todas as partes interessadas, incluindo as pessoas de negócios, no processo de implementação do data warehouse. Estabeleça que data warehousing é um projeto conjunto/equipe.
·         Prepare um plano de treinamento para os usuários finais.

Ferramentas de Data Warehouse
Existem muitas ferramentas de Data Warehouse disponíveis no mercado. Aqui estão algumas mais proeminentes:
1.       MarkLogic: O MarkLogic é uma solução que facilita e agiliza a integração de dados usando uma variedade de recursos corporativos. Ela ajuda a realizar operações de pesquisa muito complexas. Ele pode consultar diferentes tipos de dados, como documentos, relacionamentos e metadados.
2.       SQL Data Warehouse:  O SQL Data Warehouse é um EDW (Enterprise Data Warehouse) que aproveita o MPP (Massively Parallel Processing) para executar rapidamente consultas complexas em petabytes de dados. Ajuda a otimizar as experiencias dos clientes, aumentando a eficiência operacional.
3.       Oracle: Oracle é um banco de dados que oferece uma ampla gama de opções de soluções de data warehouse, tanto no local quanto na nuvem.
4.       Amazon RedShift: O Amazon Redshift é uma ferramenta de data warehouse. É uma ferramenta simples para analisar todos os tipos de dados usando SQL padrão e ferramentas de BI existentes. Ele também permite executar consultas complexas contra petabytes de dados usando SQL padrão e ferramentas de BI existentes.

LER MAIS ARTIGOS

Acompanhe a Kumulus nas redes sociais:

Facebook

Instagram

Youtube

Envelope

Cloud Microsoft Azure

3/3 – Learn: Azure Databricks – Visualizando os dados no Power BI

Neste terceiro conteúdo, da série de 3 conteúdos sobre o Azure Databricks, veremos como é possível visualizar dados do Azure Databricks no Power BI.

Como já vimos, o Azure Databricks é uma tecnologia poderosa que ajuda a unificar o processo de análise entre os engenheiros de dados e cientistas de dados, fornecendo um fluxo de trabalho que pode ser facilmente entendido e utilizado por ambas as disciplinas de usuários.

No entanto, na vida real, a necessidade de fornecer dados em um formato compreensível que forneça insights úteis amplia as necessidades dos engenheiros de dados e cientistas. Com isso em mente, como podemos esperar que profissionais de marketing, vendedores e executivos de negócios compreendam e utilizem plataformas de análises abrangentes, como o Azure Databricks, para realizar tarefas cotidianas?

Felizmente, podemos conectar nossos clusters dentro do Azure Databricks a ferramentas de BI, como o POWER BI. O objetivo deste conteúdo é ajudar você a entender a como usar tarefas do Banco de dados do Azure e do Power BI para Data Visualization e a como conectar clusters em Databricks ao Power BI.

Para esta demonstração, vamos usar Python para o trabalho de scripts dentro do Databricks. Há algumas bibliotecas de dados realmente interessantes que estão disponíveis em Python e mostraremos como você pode usá-las dentro de um bloco de notas do Databricks.

Vamos começar criando um bloco de notas em Python e carregar nosso conjunto de dados. Escreva o seguinte código:

# carregue nossos dados no Databricks
ourData = “/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv”

# crie um dataframe para os
diamantes de dados = spark.read.format (“csv”). option (“header”, “true”). opção (“inferSchema”, “true”). load (ourData)

Se a compilação foi bem-sucedida, devemos ver a seguinte saída:

Vamos utilizar os nossos dados para que possamos usar diferentes tipos de recursos visuais. Vamos dar uma olhada nos nossos dados primeiro apenas para ver com o que estamos lidando:

exibição (diamantes)

Devemos seguir a seguinte tabela em nosso bloco de notas do Databricks:

Como pode você pode ver, sempre que executarmos uma função display () em Databricks, obteremos um limite de 1.000 linhas em nosso conjunto de dados.
Visualizando dados em bancos de dados
Agora que temos nossos diferentes quadros de dados definidos em Databricks (digamos que 5 vezes mais rápido), podemos começar a experimentar diferentes tipos de dados visuais. Sabemos que colunas nós temos, que tipos de dados eles são e que tipo de dados está dentro do nosso dataframe de diamantes, então vamos começar com algumas agregações.

Vamos começar agrupando nossos diamantes por cor e mostrando seu preço médio. Vamos criar um novo quadro de dados para isso, escrevendo o seguinte código:

# Group por cor
diamonds_color = diamonds.groupBy (‘color’).
Exibição de avg (“price”) (diamonds_color)

Quando executamos nosso código, conseguimos uma tabela, mas você viu o botão do gráfico de barras na parte inferior da nossa tabela? Este botão nos permite visualizar nossos dados. Neste exemplo, usamos um gráfico de barras básico, mas analisaremos o que podemos fazer usando esse recurso.

No Azure Databricks, podemos criar diferentes tipos de visualizações, conforme no diagrama abaixo:

Nem sempre queremos que o resultado apareça no formato de um gráfico de barras.

Também podemos personalizar nossos gráficos usando “Opções de plotagem”

Este é um exemplo bastante básico, mas usando esse recurso, podemos personalizar os campos que queremos usar em nosso gráfico, as chaves, valores, grupos, tipo de agregação e como gráfico é exibido.

Vamos explorar outro exemplo. Escreva o seguinte código em outro bloco de código em seu bloco de notas de bibliotecas de dados:

# depth to carat
depthVcarat = diamonds.select (exibição “profundidade”, “quilate”)
(depthVcarat)

Nesse quadro de dados, queremos ver se existe uma relação entre a profundidade de um diamante seu valor de quilate. Vamos criar um gráfico de dispersão para ver se existe:

Agora que temos algumas visualizações legais em nosso bloco de notas do Databricks, podemos consolidá-las em um painel bem organizado.

Para fazer isso, podemos usar o meu suspenso em nosso bloco de anotações, onde está escrito: Código e clique em Novo painel:

Aqui podemos mover nossos recursos visuais para criar um painel assim:

Aqui podemos mover nossos recursos visuais para se adequar ao nosso painel. Os controles são bastante simples, podemos escolher um opção de layout (empilhada ou flutuada) e uma largura de painel.

Os painéis podem ser muito simples em Databricks ou podem ser mais sofisticados. Podemos fazer uma simulação rápida como a que acabamos de produzir ou adicionamos alguma complexidade a eles criando um trabalho agendado para atualizá-lo. Por exemplo, se criarmos um painel que ofereça recursos visuais para um trabalho de streaming, podemos criar um trabalho que atualize isso de vez em quando.

Embora as ferramentas de visualização no Databricks, sejam boas, elas não são tão abrangentes quanto o Power BI. Vamos conectar nossos dados ao Power BI agora.
Conectando as bases de dados ao Power BI Desktop
O Power BI fornece visualizações de dados interativos que permitem aos usuários criar relatórios e painéis. Como vimos no primeiro artigo da nossa série o Azure Databricks, você pode trazer os benefícios de desempenho para todos os usuários corporativos.

Você pode usar o DirectQuery para transferir as responsabilidades de processamento para o Azure Databricks, que lidará com as vagas quantidades de dados que não necessariamente queremos no Power BI.

O Power BI vem com um conectar Spark embutido que nos permite conectar aos nossos clusters em Databricks.  Para se conectar aos seus clusters, você precisará gerar um token de acesso pessoal no Databricks.

Primeiro, vamos salvar nosso dataframe de diamantes como uma tabela global dentro do Databricks. Tabelas globais estão disponíveis para todos os clusters.
# salvar dataframe de diamantes como uma tabela global
diamonds.write.saveAsTable (“diamonds”)
Vamos confirmar que nossa tabela foi criada, verificando nossa guia de dados:

Agora que salvamos nossa tabela, vamos conectá-la ao Power BI.

Primeiro precisamos obter nosso endereço de servidor JDBC (Java Database Connectivity). Vá para a interface do usuário de clusters e seleciona o cluster ao qual você deseja se conectar. Na página de edição, role para baixo e selecione a guia JDBC / ODBC.

Aqui, vemos vários valores que precisaremos para conectar ao Power BI. Você precisará de um endereço no seguinte formato:

https: // : / sql / protocol / o / /

As duas chaves no final estarão na sua caixa de texto URL do JDBC, portanto copie e cole esses valores.

Depois de ter o URL, vá para o Power BI e clique em Obter Dados na barra de ferramentas e clique em Mais…

Na caixa de dialogo Obter Dados, precisaremos procurar o conectar Spark (beta):

Clique em Conectar. Insira o URL que criamos anteriormente, use HTTP como o protocolo e selecione DirectQuery como o modo de conectividade de dados. Isso permitirá descarregar o processamento para o Spark (como explicado anteriormente).

Agora vamos precisar fazer o login no cluster, Use “token” como o nome de usuário e use o token para a senha (certifique-se de ter gerado um token antes de fazer isso)… clique em Conectar para se conectar ao seu cluster.

Podemos editar nossa importação de dados como faríamos com qualquer fonte de dados no Power BI ou podemos simplesmente carregar tudo. Vamos fazer o último! Clique em Carregar para começar.
Trabalhando com dados dentro do Power BI
Agora que nossa tabela Databricks está disponível para nós dentro do Power BI, podemos começar a criar algumas visualizações fantásticas e impressionantes.

Na guia “campos”, podemos ver nossa tabela que importamos junto com suas respectivas colunas:

Vamos tentar criar nosso gráfico de barras de preços médios por cor que fizemos no Databricks. Na guia de campos, marque as caixas de seleção de cor e preço para inserir esses campos em nosso painel.

Agora, queremos escolher um “Gráfico de Colunas Empilhadas” para nossa visualização. Precisamos alterar algumas coisas para deixar nosso gráfico com bom aspecto. Em nossa guia de visualizações, queremos definir nosso eixo como cor, escolher a cor para nossa legenda e definir o valor para a média da nossa coluna de preços. Deveria ser assim:

Nosso resultado final deve ser algo como o exemplo a seguir:

Este é um exemplo muito simples que criamos aqui, mas esperamos que você já conheça os fundamentos básicos da importação de dados do Databricks no Power BI.

Confira os dois artigos da série de artigos sobre a fantástica plataforma Azure Databricks:

Artigo 1:
Desvendando a fantástica plataforma Azure Databricks

Artigo 2:
Ambiente de produção e criando clusters em escala

fonte: medium

LER MAIS ARTIGOS

Acompanhe a Kumulus nas redes sociais:

Facebook

Instagram

Youtube

Envelope

Cloud Microsoft Azure

1/3 Learn: Desvendando a fantástica plataforma “Azure Databricks”

Neste primeiro conteúdo falaremos sobre o que é o Azure Databricks, como realizar a configuração inicial, como funciona a plataforma de análise com base no Apache Spark e mais …

Apresentamos o Azure Databricks, uma poderosa solução unificada de Big Data e de processamento escalável, que oferece inúmeros ganhos em relação a escalabilidade e performance.

A Azure Databricks oferece também a possibilidade de escrever em qualquer linguagem:

– R
– Python
– Scala
– SQL

O mais legal de tudo isso: é possível ter todo o seu time de engenharia e ciência de dados trabalhando no mesmo ambiente e mesmo propósito.
O que é o Azure Databricks?
Projetado com os fundadores do Apache Spark, o Databricks é integrado com o Azure para fornecer instalação com um clique, fluxos de trabalho simplificados e um workspace interativo que permite a colaboração entre os cientistas de dados, os engenheiros de dados e os analistas de negócios.

O Azure Databricks é um serviço de análise rápida, fácil e colaborativa baseada no Apache. Para um pipeline de Big Data, os dados (brutos ou estruturados) são inseridos no Azure por meio do Azure Data Factory em lotes ou transmitidos quase em tempo real usando o Kafka, Hub de eventos ou Hub IoT.

Esses dados chegam em um data lake para armazenamento persistente de longo prazo, no Armazenamento de Blobs do Azure ou no Azure Data Lake Storage. Como parte do seu fluxo de trabalho de análise, use o Azure Databricks para ler dados de várias fontes de dados como o Armazenamento de Blobs, Azure Data Lake Storage, Azure Cosmos DB ou SQL Data Warehouse do Azure  e transforme-os em insights inovadores usando o Spark.

Plataforma de análise com base no Apache Spark
O Azure Databricks abrange as tecnologias e os recursos completos de código aberto do cluster do Apache Spark. O Spark no Azure Databricks inclui os seguintes componentes:

Spark SQL e DataFrames: O Spark SQL é o módulo Spark para trabalhar usando dados estruturados. Um DataFrame é uma coleção distribuída de dados organizados em colunas nomeadas. Ele é conceitualmente equivalente a uma tabela em um banco de dados relacional ou uma estrutura de dados em R/Python.

Streaming: processamento de dados em tempo real e análise para aplicativos analíticos e interativos. Integra-se com HDFS, Flume e Kafka.

Mlib: biblioteca Machine Learning que consiste em algoritmos e utilitários de aprendizado comuns, incluindo classificação, regressão, clustering, filtragem colaborativa, redução de dimensionalidade, bem como primitivos de otimização subjacente.

GraphX: gráficos e computação de gráfico para um amplo escopo de casos de uso desde análise cognitiva até exploração de dados.

API do Spark Core: inclui suporte para R, SQL, Python, Scala e Java.
Apache Spark no Azure Databricks
O Azure Databricks compila com base nos recursos do Spark fornecendo uma plataforma de nuvem de gerenciamento zero que inclui:

Clusters do Spark totalmente gerenciados
Um workspace interativo para exploração e visualização
Uma plataforma para capacitar seus aplicativos favoritos baseados no Spark

Clusters do Apache Spark totalmente gerenciados na nuvem
Em nosso próximo artigo, falaremos sobre Clusters do Apache Spark, como criar e escalar cluster em segundos e compartilhá-los entre as equipes.
Estamos preparados!
Nossos engenheiros cloud estão preparados para apoiar a sua empresa a extrair o melhor da fantástica plataforma Azure Databricks.

Atuamos em todas as frentes de implementação do Azure Databricks:

– Criação
– Configuração
– Conexão
– Processo de ETL
– Inserção dentro de um Data Warehouse
– Extração dos dados
– Visualização dos dados no Power BI

Clique aqui para falar com um engenheiro cloud.
Fonte: microsoft.com

LER MAIS ARTIGOS

Acompanhe a Kumulus nas redes sociais:

Facebook

Instagram

Youtube

Envelope

Social media & sharing icons powered by UltimatelySocial