Categoria: Microsoft Azure

Cloud Cloud Adoption Framework Microsoft Azure

Cloud Adoption Framework: A abordagem da Microsoft para migrações ao Azure

Fundamentalmente, a nuvem altera como as empresas adquirem e usam recursos de tecnologia. Tradicionalmente, as empresas assumiram a propriedade e a responsabilidade de todos os aspectos da tecnologia, da infraestrutura ao software.
A nuvem mudou este conceito, uma vez que ela permite que as empresas provisionem e consumam recursos conforme sua atual demanda. No entanto, a adoção da nuvem é um meio para um fim.
As empresas são motivadas a migrar para a nuvem para:

Otimizar operações.
Simplificar a tecnologia.
Aumentar a agilidade dos negócios.
Reduzir custos.
Prepare-se para novos recursos técnicos.
Dimensionamento para demandas de mercado ou áreas geográficas.

As empresas são motivadas a inovar usando a nuvem para:

Melhorar as experiências do cliente.
Aumentar sua competitividade.
Transformar produtos.
Preparar-se para e criar novos recursos técnicos.
Acessar novos mercados.

Microsoft Cloud Adoption Framework for Azure
O Cloud Adoption Framework é a abordagem da Microsoft de adoção de nuvem no Azure, consolidando e compartilhando melhores práticas de funcionários, parceiros e clientes da Microsoft. Essa estrutura fornece aos clientes um conjunto de ferramentas, diretrizes e narrativas que ajudam a modelar as estratégias de tecnologia, negócios e pessoas, a fim de impulsionar os resultados desejados durante os esforços de adoção da nuvem. Essas diretrizes se alinham às várias fases e iterações do ciclo de vida típico de adoção da nuvem, garantindo fácil acesso às diretrizes certas, na hora certa.

Aplicando o Cloud Adoption Framework em todo o ciclo de vida de adoção
Cada seção do Cloud Adoption Framework é mapeada para o diagrama de visão geral acima. A lista abaixo ajuda a empresa a alinhar-se à seção que corresponde melhor à sua fase atual no ciclo de vida de adoção da nuvem.

Estratégia
Defina a justificativa comercial e os resultados esperados.

Plano
Alinhe os planos de adoção práticos com os resultados do negócio.

Ready
Prepare o ambiente de nuvem para as mudanças planejadas.

Migrar
Migre e modernize as cargas de trabalho existentes.

Administrar
Administre o ambiente e as cargas de trabalho.

Organizar
Alinhe as pessoas para permitir a adoção e as operações de nuvem.
Objetivos

Embora a nuvem ofereça uma imensa flexibilidade em relação às opções de design e arquitetura, as empresas precisam de uma metodologia consistente e comprovada para adotar tecnologias de nuvem. O Microsoft Cloud Adoption Framework para Azure atende a essa necessidade, ajudando a conduzir as decisões em todo o processo de adoção da nuvem.
No entanto, a adoção da nuvem é apenas um meio para alcançar um fim. A adoção da nuvem bem-sucedida começa bem antes de um fornecedor de plataformas de nuvem ser selecionado. Ela começa quando a empresa e os responsáveis por tomar a decisão de TI percebem que a nuvem pode acelerar um objetivo de transformação empresarial específico. O Cloud Adoption Framework pode ajudar as empresas a alinhar estratégias de negócios, cultura e alteração técnica a fim de atingir os resultados desejados.
A estrutura de adoção de nuvem fornece orientações técnicas relacionadas ao Microsoft Azure. Como os clientes ainda podem estar em processo de escolha de um fornecedor de nuvem, a estrutura fornece diretrizes independentes de nuvem para facilitar as decisões estratégicas.

Público-alvo
Esta orientação afeta os negócios, a tecnologia e a cultura das empresas. As funções afetadas incluem líderes comerciais, tomadores de decisão comercial, tomadores de decisão de TI, finanças, administradores da empresa, operações de TI, segurança de TI e conformidade, governança de TI, entre outros. Cada função usa seu próprio vocabulário e tem diferentes objetivos e indicadores de desempenho. Um único conjunto de boas práticas não é capaz de endereçar todos os públicos-alvo com eficiência.
Aqui entra o Cloud Architect. O Cloud Architect atua como o líder de ideias e facilitador para reunir esses públicos. A Microsoft projetou essa coleção de guias para ajudar os Cloud Architects a facilitar as conversas certas com os públicos-alvo corretos e orientar a tomada de decisões. A transformação capacitada pela nuvem depende da função do Cloud Architect para ajudar a guiar as decisões em toda a empresa e a TI.
Cada seção do Cloud Adoption Framework representa outra especialização ou variante da função de Cloud Architect. Estas seções também criam oportunidades para compartilhar as responsabilidades de arquitetura de nuvem com uma equipe de Cloud Architect. Por exemplo, a seção de governança destina-se a Cloud Architects que tenham foco em mitigar riscos técnicos. Alguns provedores de nuvem referem-se a esses especialistas como Cloud Custodians, mas nós preferimos o termo Cloud Guardian ou, coletivamente, equipe de governança de nuvem.

Como usar o Cloud Adoption Framework para o Azure
Caso sua empresa esteja conhecendo o Azure agora, comece lendo a Introdução ao Cloud Adoption Framework. Essa visão geral apresenta uma orientação prescritiva à transformação digital da sua empresa, explicando cada etapa do processo de jornada para a nuvem.
Além disso, sua empresa pode contar com parceiros especializados como a Kumulus, que já tem apoiando empresas de diversos tamanhos e segmentos na adoção de nuvem, utilizando os conceitos e boas práticas existentes no Cloud Adoption Framework.

Cloud Microsoft Azure

Kumulus Cloud & Data é premiada como Parceiro do ano em Cloud pela Westcon Americas

A Kumulus Cloud & Data, recebeu o Prêmio Cloud Partner of the Year (Parceira em Nuvem do Ano), da Westcon Americas, durante o Microsoft Inspire, que aconteceu em Las Vegas nesta terça-feira (16).

A Westcon é um dos principais canais de distribuição da Microsoft no mundo. O evento contou com a presença de todo time executivo da Westcon, que realizou a entrega dos prêmios que homenagearam as empresas que foram fundamentais para os resultados da companhia. O founder da Kumulus, Thiago Caserta e o CEO da Kumulus, Thiago Iacopini receberam o prêmio.

“Esse prêmio significa que geramos resultados incríveis tanto para a Westcon quanto para a Microsoft e que estamos no caminho certo para ser reconhecida como uma das principais empresas de Cloud da América Latina.” comenta Thiago Caserta, founder da Kumulus.

Fundada por ex-engenheiros da Microsoft, a Kumulus é uma empresa de tecnologia que apoia organizações, de qualquer tamanho e segmento, a adotarem estratégias eficientes para adoção de novas tecnologias com foco em nuvem e dados, com o objetivo de ganharem agilidade e se tornarem mais relevantes e competitivas no mundo atual.

Parabéns a todos os colaboradores que contribuíram para este reconhecimento tão importante para a Kumulus.

LER MAIS ARTIGOS

Acompanhe a Kumulus nas redes sociais:

Facebook

Instagram

Youtube

Envelope

Cloud Microsoft Azure

Learn: Como o Data Lake pode apoiar no processo de tomada de decisão baseada em dados

Antes de aprender sobre o Azure Data Lake, vamos iniciar falando sobre o conceito que existe por trás de um Data Lake.
O que é um Data Lake?
Um Data Lake é um repositório que armazena uma grande quantidade de dados brutos em seu formato nativo. Enquanto um Data Warehouse armazena dados em arquivos e pastas, um Data Lake usa uma arquitetura plana para armazenar dados. Cada elemento de dados em um Data Lake é atribuído a um identificador exclusivo e marcado como um conjunto de tags de metadados estendidos.
Como o Data Lake pode ser usado nos Negócios
Um Data-Lake mantém dados em seus formatos nativos e lida com os três Vs de Big Data – volume, velocidade e variedade – enquanto fornece ferramentas para análise, consulta e processamento. Os Data Lakes eliminam todas as restrições de um sistema de armazenamento de dados típicos, fornecendo espaço ilimitado, tamanho de arquivo irrestrito, esquema de leitura e várias maneiras de acessar dados (incluindo programação, consultas semelhantes a SQL e chamadas REST).

Os principais recursos do Azure Data Lake

O Azure Data Lake oferece os seguintes recursos:

Capacidade de armazenar e analisar dados de qualquer tipo e tamanho
Múltiplos métodos de acesso, incluindo U-SQL, Spark, Hive, Hbase e Storm
Escala dinâmica para corresponder às prioridades da sua empresa
Segurança de nível empresarial com o Active Directory do Azure
Pode ser gerenciado e suportado por um SLA de nível corporativo

Em termos gerais, O Azure Data Lake é classificado em três partes:

Por dentro do Data Lake Store

O Data Lake Store fornece um único repositório no qual as organizações carregam dados de praticamente qualquer volume. Ele foi projetado para processamento e análise de alto desempenho a partir de aplicativos e ferramentas HDFS, incluindo suporte para cargas de trabalho de baixa latência. No Data Lake Store, os dados podem ser compartilhados para colaboração com segurança de nível corporativo.
O poder do Azure Data Lake Analytics
O Data Lake Analytics é um serviço de análise distribuído baseado no Apache YARN que complementa o armazenamento do Data Lake. O serviço de análise pode lidar com trabalhos de qualquer escala instantaneamente com o poder de processamento sob demanda e um modelo de pagamento conforme o uso. Ele inclui um tempo de execução distribuído escalável chamado U-SQL, uma linguagem que unifica os benefícios do SQL..

Fonte: dzone.com

LER MAIS ARTIGOS

Acompanhe a Kumulus nas redes sociais:

Facebook

Instagram

Youtube

Envelope

Big Data Cloud Microsoft Azure

Data Lake vs. Data Warehouse: Saiba qual dos dois modelos é o ideal para o seu negócio!

Data Lake e Data Warehouse são tecnologias críticas para a análise de negócios, mas a diferença entre os dois podem ser confusas. Os dois são diferentes? Um é mais estável que o outro? Qual modelo é o mais adequado ao seu negócio? Criamos este artigo para desmistificar esses dois sistemas de manipulação de dados.O que é um Data Lake?Data Lake é um repositório projetado para armazenar dados estruturados e não estruturados.Um Data Lake pode armazenar qualquer tipo de dado usando seu formato nativo, sem limites de tamanho. Os Data Lakes foram desenvolvidos principalmente para lidar com os volumes de Big Data e, portanto, eles são excelentes no processamento de dados não estruturados.Normalmente movemos todos os dados para um Data-Lake sem transformá-los. Cada elemento de dados em um Data-Lake é atribuído a um identificador exclusivo e é amplamente marcado para que você possa localizar o elemento posteriormente por meio de uma consulta. Um Data Lake funciona como no exemplo da imagem abaixo:  Data Warehouse, o que é?Como já mencionamos no artigo anterior, (Learn: Data Warehouse, como isso pode ajudar a sua empresa a ir para o próximo nível) Um Data Warehouse é um repositório de grande capacidade que fica no topo de vários bancos de dados. Ele é projetado para armazenar quantidades medias a grandes de dados estruturados para análises frequentes e repetitivas. Normalmente, um Data Warehouse é usado para reunir dados de várias fontes estruturadas para análise, geralmente para fins comerciais.  Data Lakes vs. Data WarehousesImagine um depósito: há uma quantidade limitada de espaço e as caixas devem caber em um determinado espaço na prateleira. Cada caixa precisa ser armazenada em ordem para que você possa encontrá-la posteriormente, provavelmente será necessário projetar o Data Warehouse para que o inventário antigo seja removido periodicamente. Os limites de um Data-Lake podem aumentar ou diminuir com base no conteúdo. Se mais dados são lançados, o Data Lake se expande e, quando os dados são removidos, ele diminui. Os dados não precisam ser estruturados, porque são utilizadas tags extensivas para localizar os dados, quando necessário. Como saber o que é mais ideal para a sua empresa, Data Lake ou Data WarehouseA resposta simples é que você provavelmente precisa dos dois.Os Data Warehouses são ideais para tipos de relatório ou visão repetível que é comum nas práticas de negócios, como relatórios de vendas mensais, rastreamento de vendas por região ou tráfego do website. Um Data Lake é útil quando você tem uma análise menos direta para executar. Por exemplo, talvez você queira realizar uma análise do comportamento do tráfego em seu website. Estas são ferramentas complementares em vez de concorrentes.

LER MAIS ARTIGOS

Acompanhe a Kumulus nas redes sociais:

Facebook

Instagram

Youtube

Envelope

Cloud Microsoft Azure

Learn: Data Warehouse, como isso pode ajudar a sua empresa a ir para o próximo nível

Conforme as organizações migram para a nuvem, a arquitetura de um Modern Data Warehouse (MDW) permite um novo nível de desempenho e escalabilidade. Um modern data warehouse permite reunir dados em qualquer escala com facilidade e obter insights por meio de painéis analíticos, relatórios operacionais ou análises avançadas.
Começando pelo início, o que significa Data Warehouse?
Data warehouse, traduzindo ao pé da letra: é um banco de dados de suporte à decisão, que normalmente é mantido separadamente do banco de dados operacional da organização. Data warehouse não é um produto, mas um ambiente. É uma construção de um sistema de informações que fornece aos usuários informações atuais e históricas de suporte à decisão, difíceis de acessar ou apresentar em armazenamento de dados operacionais tradicionais.

Data warehouse é o núcleo do sistema de BI que é construído para análise de dados e relatórios.

Data warehouse também é conhecido pelos seguintes nomes:

·         Sistema de apoio à decisão (DSS)
·         Sistema de informação executiva
·         Sistema de informação gerencial
·         Solução de business intelligence
·         Aplicação analítica
·         Armazém de dados


Como começou o Data warehouse
O Data warehouse nasceu da necessidade de armazenar e apresentar dados à medida que os sistemas de computadores se tornaram mais complexos e necessários para lidar com quantidades crescentes de informações.

Fatos curiosos sobre Data Warehouse ao longo da história:

· O Data Warehousing começou no final dos anos 80, quando o funcionário da IBM Paul Murphy e Barry Devlin desenvolveu o Business Data Warehouse.

· No entanto, o conceito real foi dado por Inmon Bill. Ele foi considerado o pai do data warehouse. Ele havia escrito sobre uma variedade de tópicos para construção, uso e manutenção do armazém e da Fábrica de Informações Corporativas.

· Em 1960 – Dartmouth e General Mills em um projeto de pesquisa conjunta, desenvolvem os termos “dimensões e fatos”.

·  Em 1970 – a Nielsen e a IRI introduzem data marts dimensionais para vendas no varejo.

· Em 1983 – A Tera Data Corporation apresenta um sistema de gerenciamento de banco de dados especificamente projetado para suporte a decisões.

Como funciona um Data warehouse?

Um Data Warehouse funciona como um repositório central onde as informações chegam de uma ou mais fontes de dados. Os dados fluem para um data warehouse a partir do sistema transacional e de outros bancos de dados relacionais.

Os dados podem ser:

Estruturados
Semi-estruturados
Dados não estruturados

Os dados são processados e transformados para que os usuários possam acessar os dados processados no Data Warehouse por meio de ferramentas de Business Intelligence, clientes SQL e planilhas. Um data warehouse mescla informações provenientes de diferentes fontes em um banco de dados.

Ao mesclar todas essas informações em um único local, os tomadores de decisão conseguem analisar seus clientes de maneira mais holística. O armazenamento de dados torna possível a mineração de dados.
Os 03 tipos de Data Warehouse
1. Enterprise Data warehouse: O Enterprise Data Warehouse fornece informações baseadas em dados que dão suporte à tomada decisão para toda a empresa. Ele oferece uma abordagem unificada para organizar e representar dados. Ele também fornece a capacidade de classificar dados de acordo com o assunto e dar acesso de acordo com essas divisões.

2.  Armazenamento de Dados Operacionais: O Operational Data Store, que também é chamado de ODS, é um armazenamento de dados necessário, quando nem o Data warehouse nem os sistemas OLTP oferecem suporte às necessidades de relatórios das organizações. No ODS, o data warehouse é atualizado em tempo real. Por isso, é preferido para atividades de rotina como armazenamento de registros dos funcionários.

3.    Data Mart: Um datamart é um subconjunto do armazagem de dados. É projetado para uma determinada linha de negócios, como vendas ou finanças. Em um datamart independente, os dados podem ser extraídos diretamente das fontes.
As 04 etapas gerais do Data Warehouse
No passado, as organizações iniciaram o uso relativamente simples de data warehousing. No entanto, com o tempo, o uso mais sofisticado de data warehousing começou.

A seguir estão as 04 etapas gerais de uso do data warehouse:

1. Banco de dados operacional offline: Nesse estágio, os dados são copiados de um sistema operacional para outro servidor. Dessa forma, o carregamento, o processamento e o relatório dos dados copiados não afetam o desempenho do sistema operacional.

2. Armazenamento de dados Offline: Os dados do Data warehouse são atualizados regularmente a partir do Banco de Dados Operacional. Os dados no Data warehouse são mapeados e transformados para tender aos objetivos do Data warehouse.

3. Data Warehouse em tempo real:  Nesse estágio, os data warehouses são atualizados sempre que qualquer transação ocorre no banco de dados operacional. Por exemplo, sistemas de reservas de linhas aéreas ou ferroviárias.

4. Data Warehouse integrado: Nesse estágio, os Data Warehouses são atualizados continuamente quando o sistema operacional executa uma transação. O data warehouse gera transações que são repassadas ao sistema operacional.
Componentes do data warehouse:
Os 4 componentes dos Data Warehouses são:

1. Load Manager: também é chamado de componente frontal. Ele executa todas as operações associadas à extração e carga de dados no warehouse. Essas operações incluem transformações para preparar os dados para entrar no Data Warehouse.

2. Warehouse Manager: realiza operações associadas ao gerenciamento de dados. Ele executa operações como análise de dados para garantir consistência, criação de índices e visualizações.

3. Query Manager: o gerenciador de consultas também é conhecido como componente de backend. Realiza todas as operações operacionais relacionadas ao gerenciamento de consultas de usuários. As operações desses componentes do Data Warehouse são consultas diretas às tabelas apropriadas para agendar a execução de consultas.

4. Ferramentas de acesso do usuário final: é categorizado em seis grupos diferentes, como:

a.     Relatório de dados
b.       Ferramentas de consulta
c.       Ferramentas de desenvolvimento de aplicativos
d.       Ferramentas EIS
e.       Ferramentas OLAP
f.       Ferramentas de mineração de dados
Data warehouse apoiando os tomadores de decisão
Gestores usam data warehouse como apoiador para a tomada de decisão baseada em uma grande massa de dados.

·      Usuários que usam processos personalizados e complexos para obter informações de várias fontes de dados;

·     Também é usado por pessoas que precisam de tecnologia simples para acessar os dados;

·   Também é essencial para as pessoas que querem uma abordagem sistemática para tomar decisões;

·   Usuários que precisam de  desempenho rápido em uma grande quantidade de dados, o que é uma necessidade para relatórios, grades ou gráficos, o data warehouse é útil.

Quais são os segmentos em que o Data Warehouse é utilizado?
O Data warehouse é utilizado em diversos setores importantes:

CIAs aéreas: No sistema de companhias aéreas, é usado para fins de operação, como atribuição de tripulação, análises de rentabilidade, promoções de programas de passageiros frequentes, etc.

Bancos: É amplamente utilizado no setor bancário para gerenciar os recursos disponíveis de forma eficaz. Alguns bancos também usam para a pesquisa de mercado, análise de desempenho do produto e operações.

Cuidados de saúde: O setor de serviços de saúde também usou o Data warehouse para criar estratégias e prever resultados, gerar relatórios de tratamento do paciente, compartilhar dados com companhias de seguros, serviços de assistência médica, etc.

Setor público: No setor público, o data warehouse é usado para coleta de informações. Ele ajuda as agências governamentais a manter e analisar registros fiscais e registros de políticas de saúde.

Setor de Investimento e Seguros: Nesse setor, o data warehouse é usado principalmente para analisar padrões de dados, tendências de clientes e acompanhar os movimentos do mercado.

Varejo: Nas redes de varejo, o data warehouse é amplamente utilizado para distribuição e marketing. Também ajuda a rastrear itens, entender padrões de compra de clientes, promoções e também é usado para determinar a política de preços.

Telecomunicação: Um data warehouse é usado para obter insights na criação de promoções de produtos, decisões de vendas e decisões de distribuição.
Os principais passos da implementação do Datawarehouse:

Melhores práticas para implementar um Data Warehouse
·    É importante montar um plano para testar a consistência, precisão e integridade dos dados.
·      O data warehouse deve estar bem integrado, bem definido e com registro de data e hora.
·    Ao projetar o data warehouse, certifique-se de usar a ferramenta certa, manter o ciclo de vida cuidar dos conflitos de dados e estar pronto para aprender seus erros.
·         Garantir a participação de todas as partes interessadas, incluindo as pessoas de negócios, no processo de implementação do data warehouse. Estabeleça que data warehousing é um projeto conjunto/equipe.
·         Prepare um plano de treinamento para os usuários finais.

Ferramentas de Data Warehouse
Existem muitas ferramentas de Data Warehouse disponíveis no mercado. Aqui estão algumas mais proeminentes:
1.       MarkLogic: O MarkLogic é uma solução que facilita e agiliza a integração de dados usando uma variedade de recursos corporativos. Ela ajuda a realizar operações de pesquisa muito complexas. Ele pode consultar diferentes tipos de dados, como documentos, relacionamentos e metadados.
2.       SQL Data Warehouse:  O SQL Data Warehouse é um EDW (Enterprise Data Warehouse) que aproveita o MPP (Massively Parallel Processing) para executar rapidamente consultas complexas em petabytes de dados. Ajuda a otimizar as experiencias dos clientes, aumentando a eficiência operacional.
3.       Oracle: Oracle é um banco de dados que oferece uma ampla gama de opções de soluções de data warehouse, tanto no local quanto na nuvem.
4.       Amazon RedShift: O Amazon Redshift é uma ferramenta de data warehouse. É uma ferramenta simples para analisar todos os tipos de dados usando SQL padrão e ferramentas de BI existentes. Ele também permite executar consultas complexas contra petabytes de dados usando SQL padrão e ferramentas de BI existentes.

LER MAIS ARTIGOS

Acompanhe a Kumulus nas redes sociais:

Facebook

Instagram

Youtube

Envelope

Cloud Microsoft Azure

How To: Executando o Elasticsearch no Kubernetes

Neste conteúdo falaremos sobre Kubernetes, este fantástico e mega conhecido orquestrador de conteiners. E sobre Elasticsearch, essa poderosa ferramenta para buscas e análise de dados, construída para trabalhar com grandes volumes de dados.Vamos iniciar falando sobre alguns princípios e conceitos importantes.O que é Kubernetes?O Kubernetes é uma tecnologia de orquestração de contêiners, que é apenas uma maneira sofisticada de dizer que ajuda a gerenciar e a executar seus aplicativos empacotados. Basicamente parece assim:Kubernetes na prática:O Kubernetes possui um conjunto de excelentes recursos que são muito úteis, especialmente quando falamos de ambientes de produção:Replicação de contêiners entre diferentes nós para garantir alta disponibilidadeRecuperação automática de contêiners quando ele falha por qualquer motivoAutoescala de contêiners com base em métricas de cluster Kubernetes, como o consumo de CPULiberação de deployments e rollbacks de deploymentDescoberta de serviço. Isso é bom para deploying de microsserviçosBalanceamento de carga e gerenciamento de volumeVerificações da saúde do contêinerIsolamento de recursos lógicos usando NamespacesControle de recursos e cotas por NamespacesO que é Elasticsearch?O Elasticsearch é uma poderosa ferramenta para realização de buscas e análise de dados construída para trabalhar com grandes volumes de dados, permitindo indexar documentos e realizar buscas nesses documentos em (quase) tempo real.Por que usar Elasticsearch?O Elasticsearch realiza buscas por índice invertido e esse princípio trabalha da seguinte forma:No momento em que um documento é indexado, o Elasticsearch separa todos os seus termos em Tokens.Em seguida ele faz uma medição para definir quais tokens são relevantes, eliminando assim artigos, preposições, etc.O próximo passo do Elasticsearch é organizar os tokens em um índice e informar em cada token quais documentos contém esse token.Quando uma busca for feita ela agirá sobre esse índice invertido ao invés de vasculhar cada documento individualmente, procurando pelos termos buscados.Esse processo de indexação é o que torna o Elasticsearch um motor de busca em semi-tempo-real.Você sabia?Seu aplicativo (por exemplo, software de blog) é criado e empacotado em um contêiner.O aplicativo conteinerizado é implantado no Kubernetes e executado dentro de um Pod.O Kubernetes Services é o que torna os Pods em outras implementações acessíveis ao nosso Pod, por exemplo, nosso software de blog pode se comunicar com o banco de dados e servidor de e-mail através de seu respectivo serviço, assumindo que eles estão rodando no Kubernetes.Você pode usar regras Affinity e Anti-Affinity para dizer ao Kubernetes como espalhar os Pods em execução nos nós (por exemplo, todos os pods verdes nunca devem ser executados no mesmo nó no caso de falha).As implementações do Kubernetes não mantêm nenhum estado para seus pods, pois supõe-se que o aplicativo executado por baixo seja completamente sem estado. Se você quiser que o aplicativo mantenha o estado e o volume de armazenamento entre as reinicializações, como acontece quando executamos um banco de dados ou o Elasticsearch nesse caso, você deve usar um StatefulSet, que é uma implantação que pode manter o estado:É importante saber:Um PersistentVolume (PV) é uma abstração do Kubernetes para espaço de armazenamento em algum volume fornecido pelo hardware subjacente. Podem ser unidades do AWS EBS, Google Cloud Disks etc.Um PersistentVolumeClaim (PVC) é uma maneira de uma implantação, ou StatefulSet, solicitar algum espaço de armazenamento. O armazenamento que foi alocado sobreviverá às reinicializações de Pod e Node.O StatefulSet é apenas outro tipo de Implantação, mas é capaz de manter as identidades de Pod e os volumes dos Pods.Agora que você já sabe o que é Kubernetes e Elasticsearch, vamos à questão mais importante de todas: O Kubernetes é uma boa escolha para o Elasticsearch?Afinal de contas, o Kubernetes é uma boa escolha para o Elasticsearch?O Kubernetes foi originalmente projetado e construído para executar cargas de trabalhos efêmeras – o que significa aplicativos sem estado e vários trabalhos. Os StatefulSets, que fazem implantações com informações de estado, podem ser utilizados como adicionais, embora funcionem muito bem. Topologia de Cluster do ElasticsearchAo trabalhar com o Elastic Stack, a parte dele que precisa de atenção especial é o próprio Elasticsearch – aquela camada que armazena os dados e faz toda a mágica. Um cluster típico do Elasticsearch será parecido com isto:Existem pelo menos 2 nós de dados que persistem todos os dados; eles recebem consultas e solicitações de indexação e fazem todo o “trabalho pesado”.Existem exatamente 3 nós qualificados pelo mestre, que gerenciarão os metadados do cluster. Ao contrário do que muitos pensam, os nós mestre nunca lidam com operações de dados, apenas operações de metadados de cluster. Eles nem sequer chegam perto dos dados.Opcionalmente, há dois ou mais nós clientes, também conhecidos como nós de coordenação. Esses são os nós que são expostos aos consumidores dos dados do cluster e servem como proxies HTTP. Se eles não forem implantados, os nós de dados servirão como nós de coordenação, o que é algo que geralmente gostamos de evitar em clusters de tamanho decente.O ponto de acesso do cluster é, em seguida, qualquer um dos nós de coordenação ou um balanceador de carga que pode ser colocado na frente deles.Uma topologia de cluster do Elasticsearch em execução no Kubernetes será muito semelhante:É importante saber:O mesmo layout de nós; nós clientes separados ainda são opcionais.Nós de dados são implantados como StatefulSets com PV e PVCs. Portanto, eles preservam sua identidade e armazenamento também por meio de reinicializações e falhas, que é o comportamento desejado.Nós mestres podem ser implantados como Implantações ou StatefulSets. Implantar como StatefulSets apenas tornará as recuperações de cluster mais rápidas.Um serviço sem cabeçalho para cada StatefulSet é criado e usado para a descoberta entre clusters.Um serviço de Kubernetes LoadBalancer é criado para encaminhar solicitações HTTP para os nós coordenadores.Seus aplicativos, bem como ferramentas como Kibana, Logstash, Beats, etc, devem ser configurados para falar com o serviço LoadBalancer. Aqui também é onde você deve configurar a segurança HTTPS via Kubernetes Ingress ou algo semelhante.Implantando o Elasticsearch no KubernetesExistem atualmente dois gráficos Helm que você pode usar para implantar o Elasticsearch no Kubernetes. Ambos criarão a topologia conforme descrito acima:O Elasticsearch Helm Chart do repositório principal de gráficos:https://github.com/helm/charts/tree/master/stable/elasticsearchO Elastic Helm Chart oficial, que está atualmente no status Alpha:https://github.com/elastic/helm-chartsAlternativamente, você pode ir hardcore e escrever os arquivos YAML do Kubernetes você mesmo. Não é muito difícil de arrancar, apenas tem algumas dicas (por exemplo vm.max_map_count, configuração securityContext.fsGroup: 1000, um correto readinessProbe, anti-afinidade, etc).Fonte: dzone.com

LER MAIS ARTIGOS

Acompanhe a Kumulus nas redes sociais:

Facebook

Instagram

Youtube

Envelope

Cloud Microsoft Azure

3/3 – Learn: Azure Databricks – Visualizando os dados no Power BI

Neste terceiro conteúdo, da série de 3 conteúdos sobre o Azure Databricks, veremos como é possível visualizar dados do Azure Databricks no Power BI.

Como já vimos, o Azure Databricks é uma tecnologia poderosa que ajuda a unificar o processo de análise entre os engenheiros de dados e cientistas de dados, fornecendo um fluxo de trabalho que pode ser facilmente entendido e utilizado por ambas as disciplinas de usuários.

No entanto, na vida real, a necessidade de fornecer dados em um formato compreensível que forneça insights úteis amplia as necessidades dos engenheiros de dados e cientistas. Com isso em mente, como podemos esperar que profissionais de marketing, vendedores e executivos de negócios compreendam e utilizem plataformas de análises abrangentes, como o Azure Databricks, para realizar tarefas cotidianas?

Felizmente, podemos conectar nossos clusters dentro do Azure Databricks a ferramentas de BI, como o POWER BI. O objetivo deste conteúdo é ajudar você a entender a como usar tarefas do Banco de dados do Azure e do Power BI para Data Visualization e a como conectar clusters em Databricks ao Power BI.

Para esta demonstração, vamos usar Python para o trabalho de scripts dentro do Databricks. Há algumas bibliotecas de dados realmente interessantes que estão disponíveis em Python e mostraremos como você pode usá-las dentro de um bloco de notas do Databricks.

Vamos começar criando um bloco de notas em Python e carregar nosso conjunto de dados. Escreva o seguinte código:

# carregue nossos dados no Databricks
ourData = “/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv”

# crie um dataframe para os
diamantes de dados = spark.read.format (“csv”). option (“header”, “true”). opção (“inferSchema”, “true”). load (ourData)

Se a compilação foi bem-sucedida, devemos ver a seguinte saída:

Vamos utilizar os nossos dados para que possamos usar diferentes tipos de recursos visuais. Vamos dar uma olhada nos nossos dados primeiro apenas para ver com o que estamos lidando:

exibição (diamantes)

Devemos seguir a seguinte tabela em nosso bloco de notas do Databricks:

Como pode você pode ver, sempre que executarmos uma função display () em Databricks, obteremos um limite de 1.000 linhas em nosso conjunto de dados.
Visualizando dados em bancos de dados
Agora que temos nossos diferentes quadros de dados definidos em Databricks (digamos que 5 vezes mais rápido), podemos começar a experimentar diferentes tipos de dados visuais. Sabemos que colunas nós temos, que tipos de dados eles são e que tipo de dados está dentro do nosso dataframe de diamantes, então vamos começar com algumas agregações.

Vamos começar agrupando nossos diamantes por cor e mostrando seu preço médio. Vamos criar um novo quadro de dados para isso, escrevendo o seguinte código:

# Group por cor
diamonds_color = diamonds.groupBy (‘color’).
Exibição de avg (“price”) (diamonds_color)

Quando executamos nosso código, conseguimos uma tabela, mas você viu o botão do gráfico de barras na parte inferior da nossa tabela? Este botão nos permite visualizar nossos dados. Neste exemplo, usamos um gráfico de barras básico, mas analisaremos o que podemos fazer usando esse recurso.

No Azure Databricks, podemos criar diferentes tipos de visualizações, conforme no diagrama abaixo:

Nem sempre queremos que o resultado apareça no formato de um gráfico de barras.

Também podemos personalizar nossos gráficos usando “Opções de plotagem”

Este é um exemplo bastante básico, mas usando esse recurso, podemos personalizar os campos que queremos usar em nosso gráfico, as chaves, valores, grupos, tipo de agregação e como gráfico é exibido.

Vamos explorar outro exemplo. Escreva o seguinte código em outro bloco de código em seu bloco de notas de bibliotecas de dados:

# depth to carat
depthVcarat = diamonds.select (exibição “profundidade”, “quilate”)
(depthVcarat)

Nesse quadro de dados, queremos ver se existe uma relação entre a profundidade de um diamante seu valor de quilate. Vamos criar um gráfico de dispersão para ver se existe:

Agora que temos algumas visualizações legais em nosso bloco de notas do Databricks, podemos consolidá-las em um painel bem organizado.

Para fazer isso, podemos usar o meu suspenso em nosso bloco de anotações, onde está escrito: Código e clique em Novo painel:

Aqui podemos mover nossos recursos visuais para criar um painel assim:

Aqui podemos mover nossos recursos visuais para se adequar ao nosso painel. Os controles são bastante simples, podemos escolher um opção de layout (empilhada ou flutuada) e uma largura de painel.

Os painéis podem ser muito simples em Databricks ou podem ser mais sofisticados. Podemos fazer uma simulação rápida como a que acabamos de produzir ou adicionamos alguma complexidade a eles criando um trabalho agendado para atualizá-lo. Por exemplo, se criarmos um painel que ofereça recursos visuais para um trabalho de streaming, podemos criar um trabalho que atualize isso de vez em quando.

Embora as ferramentas de visualização no Databricks, sejam boas, elas não são tão abrangentes quanto o Power BI. Vamos conectar nossos dados ao Power BI agora.
Conectando as bases de dados ao Power BI Desktop
O Power BI fornece visualizações de dados interativos que permitem aos usuários criar relatórios e painéis. Como vimos no primeiro artigo da nossa série o Azure Databricks, você pode trazer os benefícios de desempenho para todos os usuários corporativos.

Você pode usar o DirectQuery para transferir as responsabilidades de processamento para o Azure Databricks, que lidará com as vagas quantidades de dados que não necessariamente queremos no Power BI.

O Power BI vem com um conectar Spark embutido que nos permite conectar aos nossos clusters em Databricks.  Para se conectar aos seus clusters, você precisará gerar um token de acesso pessoal no Databricks.

Primeiro, vamos salvar nosso dataframe de diamantes como uma tabela global dentro do Databricks. Tabelas globais estão disponíveis para todos os clusters.
# salvar dataframe de diamantes como uma tabela global
diamonds.write.saveAsTable (“diamonds”)
Vamos confirmar que nossa tabela foi criada, verificando nossa guia de dados:

Agora que salvamos nossa tabela, vamos conectá-la ao Power BI.

Primeiro precisamos obter nosso endereço de servidor JDBC (Java Database Connectivity). Vá para a interface do usuário de clusters e seleciona o cluster ao qual você deseja se conectar. Na página de edição, role para baixo e selecione a guia JDBC / ODBC.

Aqui, vemos vários valores que precisaremos para conectar ao Power BI. Você precisará de um endereço no seguinte formato:

https: // : / sql / protocol / o / /

As duas chaves no final estarão na sua caixa de texto URL do JDBC, portanto copie e cole esses valores.

Depois de ter o URL, vá para o Power BI e clique em Obter Dados na barra de ferramentas e clique em Mais…

Na caixa de dialogo Obter Dados, precisaremos procurar o conectar Spark (beta):

Clique em Conectar. Insira o URL que criamos anteriormente, use HTTP como o protocolo e selecione DirectQuery como o modo de conectividade de dados. Isso permitirá descarregar o processamento para o Spark (como explicado anteriormente).

Agora vamos precisar fazer o login no cluster, Use “token” como o nome de usuário e use o token para a senha (certifique-se de ter gerado um token antes de fazer isso)… clique em Conectar para se conectar ao seu cluster.

Podemos editar nossa importação de dados como faríamos com qualquer fonte de dados no Power BI ou podemos simplesmente carregar tudo. Vamos fazer o último! Clique em Carregar para começar.
Trabalhando com dados dentro do Power BI
Agora que nossa tabela Databricks está disponível para nós dentro do Power BI, podemos começar a criar algumas visualizações fantásticas e impressionantes.

Na guia “campos”, podemos ver nossa tabela que importamos junto com suas respectivas colunas:

Vamos tentar criar nosso gráfico de barras de preços médios por cor que fizemos no Databricks. Na guia de campos, marque as caixas de seleção de cor e preço para inserir esses campos em nosso painel.

Agora, queremos escolher um “Gráfico de Colunas Empilhadas” para nossa visualização. Precisamos alterar algumas coisas para deixar nosso gráfico com bom aspecto. Em nossa guia de visualizações, queremos definir nosso eixo como cor, escolher a cor para nossa legenda e definir o valor para a média da nossa coluna de preços. Deveria ser assim:

Nosso resultado final deve ser algo como o exemplo a seguir:

Este é um exemplo muito simples que criamos aqui, mas esperamos que você já conheça os fundamentos básicos da importação de dados do Databricks no Power BI.

Confira os dois artigos da série de artigos sobre a fantástica plataforma Azure Databricks:

Artigo 1:
Desvendando a fantástica plataforma Azure Databricks

Artigo 2:
Ambiente de produção e criando clusters em escala

fonte: medium

LER MAIS ARTIGOS

Acompanhe a Kumulus nas redes sociais:

Facebook

Instagram

Youtube

Envelope

Cloud Microsoft Azure

2/3 – Learn: Azure Databricks – Ambiente de produção e criando clusters em escala

Neste segundo conteúdo falaremos sobre ambiente de produção do Azure Databricks, como escalar a criação de clusters em segundos e workspace de colaboração e segurança.

O Azure Databricks tem um ambiente de produção seguro e confiável na nuvem, gerenciado e com suporte de especialistas do Spark. Você pode:

Criar clusters em segundos.
Autoescalar clusters dinâmica e verticalmente, incluindo clusters sem servidor, e compartilhá-los entre equipes.

– Usar clusters programaticamente usando as APIs REST.
– Usar recursos de integração de dados seguros criados com base no Spark que permitem unificar seus dados sem centralização.

Obter acesso instantâneo para os recursos mais recentes do Apache Spark com cada versão.

Databricks Runtime

O Databricks Runtime é criado sobre o Apache Spark e é nativamente criado para a nuvem do Azure.

Com a opção Sem servidor, o Azure Databricks abstrai completamente a complexidade da infraestrutura e a necessidade de experiência especializada para instalar e configurar sua infraestrutura de dados. A opção Sem servidor ajuda os cientistas de dados a iterar rapidamente como uma equipe.
Para engenheiros de dados, que se importam com o desempenho dos trabalhos de produção, o Azure Databricks fornece um mecanismo do Spark mais rápido e eficaz por meio de várias otimizações na camada de E/S e na camada de processamento (Databricks I/O).

Workspace de colaboração

Por meio de um ambiente colaborativo e integrado, o Azure Databricks simplifica o processo de exploração de dados, criação de protótipos e de execução de aplicativos controlados por dados no Spark.

Determine como usar dados com fácil exploração de dados.
Documente seu progresso em blocos de notas em R, Python, Scala ou SQL.

Visualize dados com apenas alguns cliques e use ferramentas conhecidas como Matplotlib, ggplot ou d3.

Segurança do Enterprise

O Azure Databricks fornece a segurança a nível empresarial do Azure, incluindo a integração do Azure Active Directory, controles com base em função e SLAs que protegem seus dados e o seu negócio.

– A integração com o Azure Active Directory permite que você execute soluções completas baseadas no Azure usando o Azure Databricks.

– O acesso baseado em funções do Azure Databricks permite que as permissões refinadas de usuário para blocos de notas, clusters, trabalhos e dados.

– SLAs de nível empresarial.

Integração com serviços do Azure

O Azure Databricks integra-se profundamente aos armazenamentos e bancos de dados do Azure: SQL Data Warehouse, Cosmos DB, Data Lake Storage e Armazenamento de Blobs.

Integração com o Power BI

Por meio da integração avançada com o Power BI, o Azure Databricks permite que você descubra e compartilhe seus insights de impacto de forma rápida e fácil. Você também pode usar outras ferramentas de BI, como o Software Tableau, por meio de pontos de extremidade de cluster JDBC/ODBC.

Início Rápido: Executar um trabalho de Spark no Azure Databricks usando o portal do Azure
Em nosso próximo artigo, falaremos sobre como executar um trabalho de Spark no Azure Databricks usando o portal do Azure.
Estamos preparados!
Nossos engenheiros cloud estão preparados para apoiar a sua empresa a extrair o melhor da fantástica plataforma Azure Databricks.

Atuamos em todas as frentes de implementação do Azure Databricks:

– Criação
– Configuração
– Conexão
– Processo de ETL
– Inserção dentro de um Data Warehouse
– Extração dos dados
– Visualização dos dados no Power BI

Clique aqui para falar com um engenheiro cloud.

Fonte: microsoft.com

LER MAIS ARTIGOS

Acompanhe a Kumulus nas redes sociais:

Facebook

Instagram

Youtube

Envelope

Cloud Microsoft Azure

1/3 Learn: Desvendando a fantástica plataforma “Azure Databricks”

Neste primeiro conteúdo falaremos sobre o que é o Azure Databricks, como realizar a configuração inicial, como funciona a plataforma de análise com base no Apache Spark e mais …

Apresentamos o Azure Databricks, uma poderosa solução unificada de Big Data e de processamento escalável, que oferece inúmeros ganhos em relação a escalabilidade e performance.

A Azure Databricks oferece também a possibilidade de escrever em qualquer linguagem:

– R
– Python
– Scala
– SQL

O mais legal de tudo isso: é possível ter todo o seu time de engenharia e ciência de dados trabalhando no mesmo ambiente e mesmo propósito.
O que é o Azure Databricks?
Projetado com os fundadores do Apache Spark, o Databricks é integrado com o Azure para fornecer instalação com um clique, fluxos de trabalho simplificados e um workspace interativo que permite a colaboração entre os cientistas de dados, os engenheiros de dados e os analistas de negócios.

O Azure Databricks é um serviço de análise rápida, fácil e colaborativa baseada no Apache. Para um pipeline de Big Data, os dados (brutos ou estruturados) são inseridos no Azure por meio do Azure Data Factory em lotes ou transmitidos quase em tempo real usando o Kafka, Hub de eventos ou Hub IoT.

Esses dados chegam em um data lake para armazenamento persistente de longo prazo, no Armazenamento de Blobs do Azure ou no Azure Data Lake Storage. Como parte do seu fluxo de trabalho de análise, use o Azure Databricks para ler dados de várias fontes de dados como o Armazenamento de Blobs, Azure Data Lake Storage, Azure Cosmos DB ou SQL Data Warehouse do Azure  e transforme-os em insights inovadores usando o Spark.

Plataforma de análise com base no Apache Spark
O Azure Databricks abrange as tecnologias e os recursos completos de código aberto do cluster do Apache Spark. O Spark no Azure Databricks inclui os seguintes componentes:

Spark SQL e DataFrames: O Spark SQL é o módulo Spark para trabalhar usando dados estruturados. Um DataFrame é uma coleção distribuída de dados organizados em colunas nomeadas. Ele é conceitualmente equivalente a uma tabela em um banco de dados relacional ou uma estrutura de dados em R/Python.

Streaming: processamento de dados em tempo real e análise para aplicativos analíticos e interativos. Integra-se com HDFS, Flume e Kafka.

Mlib: biblioteca Machine Learning que consiste em algoritmos e utilitários de aprendizado comuns, incluindo classificação, regressão, clustering, filtragem colaborativa, redução de dimensionalidade, bem como primitivos de otimização subjacente.

GraphX: gráficos e computação de gráfico para um amplo escopo de casos de uso desde análise cognitiva até exploração de dados.

API do Spark Core: inclui suporte para R, SQL, Python, Scala e Java.
Apache Spark no Azure Databricks
O Azure Databricks compila com base nos recursos do Spark fornecendo uma plataforma de nuvem de gerenciamento zero que inclui:

Clusters do Spark totalmente gerenciados
Um workspace interativo para exploração e visualização
Uma plataforma para capacitar seus aplicativos favoritos baseados no Spark

Clusters do Apache Spark totalmente gerenciados na nuvem
Em nosso próximo artigo, falaremos sobre Clusters do Apache Spark, como criar e escalar cluster em segundos e compartilhá-los entre as equipes.
Estamos preparados!
Nossos engenheiros cloud estão preparados para apoiar a sua empresa a extrair o melhor da fantástica plataforma Azure Databricks.

Atuamos em todas as frentes de implementação do Azure Databricks:

– Criação
– Configuração
– Conexão
– Processo de ETL
– Inserção dentro de um Data Warehouse
– Extração dos dados
– Visualização dos dados no Power BI

Clique aqui para falar com um engenheiro cloud.
Fonte: microsoft.com

LER MAIS ARTIGOS

Acompanhe a Kumulus nas redes sociais:

Facebook

Instagram

Youtube

Envelope

Social media & sharing icons powered by UltimatelySocial