Neste terceiro conteúdo, da série de 3 conteúdos sobre o Azure Databricks, veremos como é possível visualizar dados do Azure Databricks no Power BI.
Como já vimos, o Azure Databricks é uma tecnologia poderosa que ajuda a unificar o processo de análise entre os engenheiros de dados e cientistas de dados, fornecendo um fluxo de trabalho que pode ser facilmente entendido e utilizado por ambas as disciplinas de usuários.
No entanto, na vida real, a necessidade de fornecer dados em um formato compreensível que forneça insights úteis amplia as necessidades dos engenheiros de dados e cientistas. Com isso em mente, como podemos esperar que profissionais de marketing, vendedores e executivos de negócios compreendam e utilizem plataformas de análises abrangentes, como o Azure Databricks, para realizar tarefas cotidianas?
Felizmente, podemos conectar nossos clusters dentro do Azure Databricks a ferramentas de BI, como o POWER BI. O objetivo deste conteúdo é ajudar você a entender a como usar tarefas do Banco de dados do Azure e do Power BI para Data Visualization e a como conectar clusters em Databricks ao Power BI.
Para esta demonstração, vamos usar Python para o trabalho de scripts dentro do Databricks. Há algumas bibliotecas de dados realmente interessantes que estão disponíveis em Python e mostraremos como você pode usá-las dentro de um bloco de notas do Databricks.
Vamos começar criando um bloco de notas em Python e carregar nosso conjunto de dados. Escreva o seguinte código:
# carregue nossos dados no Databricks
ourData = “/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv”
# crie um dataframe para os
diamantes de dados = spark.read.format (“csv”). option (“header”, “true”). opção (“inferSchema”, “true”). load (ourData)
Se a compilação foi bem-sucedida, devemos ver a seguinte saída:
Vamos utilizar os nossos dados para que possamos usar diferentes tipos de recursos visuais. Vamos dar uma olhada nos nossos dados primeiro apenas para ver com o que estamos lidando:
exibição (diamantes)
Devemos seguir a seguinte tabela em nosso bloco de notas do Databricks:
Como pode você pode ver, sempre que executarmos uma função display () em Databricks, obteremos um limite de 1.000 linhas em nosso conjunto de dados.
Visualizando dados em bancos de dados
Agora que temos nossos diferentes quadros de dados definidos em Databricks (digamos que 5 vezes mais rápido), podemos começar a experimentar diferentes tipos de dados visuais. Sabemos que colunas nós temos, que tipos de dados eles são e que tipo de dados está dentro do nosso dataframe de diamantes, então vamos começar com algumas agregações.
Vamos começar agrupando nossos diamantes por cor e mostrando seu preço médio. Vamos criar um novo quadro de dados para isso, escrevendo o seguinte código:
# Group por cor
diamonds_color = diamonds.groupBy (‘color’).
Exibição de avg (“price”) (diamonds_color)
Quando executamos nosso código, conseguimos uma tabela, mas você viu o botão do gráfico de barras na parte inferior da nossa tabela? Este botão nos permite visualizar nossos dados. Neste exemplo, usamos um gráfico de barras básico, mas analisaremos o que podemos fazer usando esse recurso.
No Azure Databricks, podemos criar diferentes tipos de visualizações, conforme no diagrama abaixo:
Nem sempre queremos que o resultado apareça no formato de um gráfico de barras.
Também podemos personalizar nossos gráficos usando “Opções de plotagem”
Este é um exemplo bastante básico, mas usando esse recurso, podemos personalizar os campos que queremos usar em nosso gráfico, as chaves, valores, grupos, tipo de agregação e como gráfico é exibido.
Vamos explorar outro exemplo. Escreva o seguinte código em outro bloco de código em seu bloco de notas de bibliotecas de dados:
# depth to carat
depthVcarat = diamonds.select (exibição “profundidade”, “quilate”)
(depthVcarat)
Nesse quadro de dados, queremos ver se existe uma relação entre a profundidade de um diamante seu valor de quilate. Vamos criar um gráfico de dispersão para ver se existe:
Agora que temos algumas visualizações legais em nosso bloco de notas do Databricks, podemos consolidá-las em um painel bem organizado.
Para fazer isso, podemos usar o meu suspenso em nosso bloco de anotações, onde está escrito: Código e clique em Novo painel:
Aqui podemos mover nossos recursos visuais para criar um painel assim:
Aqui podemos mover nossos recursos visuais para se adequar ao nosso painel. Os controles são bastante simples, podemos escolher um opção de layout (empilhada ou flutuada) e uma largura de painel.
Os painéis podem ser muito simples em Databricks ou podem ser mais sofisticados. Podemos fazer uma simulação rápida como a que acabamos de produzir ou adicionamos alguma complexidade a eles criando um trabalho agendado para atualizá-lo. Por exemplo, se criarmos um painel que ofereça recursos visuais para um trabalho de streaming, podemos criar um trabalho que atualize isso de vez em quando.
Embora as ferramentas de visualização no Databricks, sejam boas, elas não são tão abrangentes quanto o Power BI. Vamos conectar nossos dados ao Power BI agora.
Conectando as bases de dados ao Power BI Desktop
O Power BI fornece visualizações de dados interativos que permitem aos usuários criar relatórios e painéis. Como vimos no primeiro artigo da nossa série o Azure Databricks, você pode trazer os benefícios de desempenho para todos os usuários corporativos.
Você pode usar o DirectQuery para transferir as responsabilidades de processamento para o Azure Databricks, que lidará com as vagas quantidades de dados que não necessariamente queremos no Power BI.
O Power BI vem com um conectar Spark embutido que nos permite conectar aos nossos clusters em Databricks. Para se conectar aos seus clusters, você precisará gerar um token de acesso pessoal no Databricks.
Primeiro, vamos salvar nosso dataframe de diamantes como uma tabela global dentro do Databricks. Tabelas globais estão disponíveis para todos os clusters.
# salvar dataframe de diamantes como uma tabela global
diamonds.write.saveAsTable (“diamonds”)
Vamos confirmar que nossa tabela foi criada, verificando nossa guia de dados:
Agora que salvamos nossa tabela, vamos conectá-la ao Power BI.
Primeiro precisamos obter nosso endereço de servidor JDBC (Java Database Connectivity). Vá para a interface do usuário de clusters e seleciona o cluster ao qual você deseja se conectar. Na página de edição, role para baixo e selecione a guia JDBC / ODBC.
Aqui, vemos vários valores que precisaremos para conectar ao Power BI. Você precisará de um endereço no seguinte formato:
https: // : / sql / protocol / o / /
As duas chaves no final estarão na sua caixa de texto URL do JDBC, portanto copie e cole esses valores.
Depois de ter o URL, vá para o Power BI e clique em Obter Dados na barra de ferramentas e clique em Mais…
Na caixa de dialogo Obter Dados, precisaremos procurar o conectar Spark (beta):
Clique em Conectar. Insira o URL que criamos anteriormente, use HTTP como o protocolo e selecione DirectQuery como o modo de conectividade de dados. Isso permitirá descarregar o processamento para o Spark (como explicado anteriormente).
Agora vamos precisar fazer o login no cluster, Use “token” como o nome de usuário e use o token para a senha (certifique-se de ter gerado um token antes de fazer isso)… clique em Conectar para se conectar ao seu cluster.
Podemos editar nossa importação de dados como faríamos com qualquer fonte de dados no Power BI ou podemos simplesmente carregar tudo. Vamos fazer o último! Clique em Carregar para começar.
Trabalhando com dados dentro do Power BI
Agora que nossa tabela Databricks está disponível para nós dentro do Power BI, podemos começar a criar algumas visualizações fantásticas e impressionantes.
Na guia “campos”, podemos ver nossa tabela que importamos junto com suas respectivas colunas:
Vamos tentar criar nosso gráfico de barras de preços médios por cor que fizemos no Databricks. Na guia de campos, marque as caixas de seleção de cor e preço para inserir esses campos em nosso painel.
Agora, queremos escolher um “Gráfico de Colunas Empilhadas” para nossa visualização. Precisamos alterar algumas coisas para deixar nosso gráfico com bom aspecto. Em nossa guia de visualizações, queremos definir nosso eixo como cor, escolher a cor para nossa legenda e definir o valor para a média da nossa coluna de preços. Deveria ser assim:
Nosso resultado final deve ser algo como o exemplo a seguir:
Este é um exemplo muito simples que criamos aqui, mas esperamos que você já conheça os fundamentos básicos da importação de dados do Databricks no Power BI.
Confira os dois artigos da série de artigos sobre a fantástica plataforma Azure Databricks:
Artigo 1:
Desvendando a fantástica plataforma Azure Databricks
Artigo 2:
Ambiente de produção e criando clusters em escala
fonte: medium
LER MAIS ARTIGOS
Acompanhe a Kumulus nas redes sociais:
Facebook
Instagram
Youtube
Envelope