Categoria: Big Data

Big Data Cloud Microsoft Azure

Data Lake vs. Data Warehouse: Saiba qual dos dois modelos é o ideal para o seu negócio!

Data Lake e Data Warehouse são tecnologias críticas para a análise de negócios, mas a diferença entre os dois podem ser confusas. Os dois são diferentes? Um é mais estável que o outro? Qual modelo é o mais adequado ao seu negócio? Criamos este artigo para desmistificar esses dois sistemas de manipulação de dados.O que é um Data Lake?Data Lake é um repositório projetado para armazenar dados estruturados e não estruturados.Um Data Lake pode armazenar qualquer tipo de dado usando seu formato nativo, sem limites de tamanho. Os Data Lakes foram desenvolvidos principalmente para lidar com os volumes de Big Data e, portanto, eles são excelentes no processamento de dados não estruturados.Normalmente movemos todos os dados para um Data-Lake sem transformá-los. Cada elemento de dados em um Data-Lake é atribuído a um identificador exclusivo e é amplamente marcado para que você possa localizar o elemento posteriormente por meio de uma consulta. Um Data Lake funciona como no exemplo da imagem abaixo:  Data Warehouse, o que é?Como já mencionamos no artigo anterior, (Learn: Data Warehouse, como isso pode ajudar a sua empresa a ir para o próximo nível) Um Data Warehouse é um repositório de grande capacidade que fica no topo de vários bancos de dados. Ele é projetado para armazenar quantidades medias a grandes de dados estruturados para análises frequentes e repetitivas. Normalmente, um Data Warehouse é usado para reunir dados de várias fontes estruturadas para análise, geralmente para fins comerciais.  Data Lakes vs. Data WarehousesImagine um depósito: há uma quantidade limitada de espaço e as caixas devem caber em um determinado espaço na prateleira. Cada caixa precisa ser armazenada em ordem para que você possa encontrá-la posteriormente, provavelmente será necessário projetar o Data Warehouse para que o inventário antigo seja removido periodicamente. Os limites de um Data-Lake podem aumentar ou diminuir com base no conteúdo. Se mais dados são lançados, o Data Lake se expande e, quando os dados são removidos, ele diminui. Os dados não precisam ser estruturados, porque são utilizadas tags extensivas para localizar os dados, quando necessário. Como saber o que é mais ideal para a sua empresa, Data Lake ou Data WarehouseA resposta simples é que você provavelmente precisa dos dois.Os Data Warehouses são ideais para tipos de relatório ou visão repetível que é comum nas práticas de negócios, como relatórios de vendas mensais, rastreamento de vendas por região ou tráfego do website. Um Data Lake é útil quando você tem uma análise menos direta para executar. Por exemplo, talvez você queira realizar uma análise do comportamento do tráfego em seu website. Estas são ferramentas complementares em vez de concorrentes.

LER MAIS ARTIGOS

Acompanhe a Kumulus nas redes sociais:

Facebook

Instagram

Youtube

Envelope

Big Data

Gerenciamento de Big Data: 5 coisas que você precisa saber

Os usuários já conseguem fazer Gerenciamento de Big Data sozinhos
À medida que mais organizações adotam plataformas de Big Data, há preocupações de que o desenvolvimento de aplicativos pode sofrer com a falta de boas práticas para gerenciar os dados que alimentam esses aplicativos. Quando falamos em gerenciamento de Big Data em relação a plataformas de Big Data (como as que combinam hardware de commodity com o Hadoop), fica claro que, as tecnologias de Big Data criaram a necessidade de ferramentas e processos de gerenciamento de dados novos e diferentes.

Neste artigo, vamos tratar de cinco  que você precisa saber sobre o gerenciamento de Big Data, que te ajudarão a garantir consistência e confiança em seus resultados analíticos. 

1. Um dos “mantras” de Big Data é a disponibilidade Os usuários de hoje, geralmente querem acessar e preparar os dados operacionais, data warehouses e data marts. Os usuários querem verificar as fontes de dados e elaborar seus relatórios e análises em torno de suas próprias necessidades de negócios.
2. Não é o modelo de dados dos seus pais (ou avós)
Em uma abordagem mais tradicional, capturar e armazenar dados para relatórios e análises concentra-se na absorção de dados em uma estrutura predefinida. Mas, no mundo do Gerenciamento de Big Data, a expectativa é que, tanto os conjuntos de dados estruturados quanto os não estruturados possam ser processados e armazenados em seus formatos originais (ou brutos), evitando o uso de modelos de dados predefinidos. O benefício é que diferentes usuários podem adaptar os conjuntos, da maneira que melhor atende às suas necessidades.
Reduzindo o risco de inconsistência e interpretações conflitantes
Para reduzir o risco de inconsistência e interpretações conflitantes, isso sugere a necessidade de boas práticas no gerenciamento de metadados para grandes conjuntos de dados. Isso significa procedimentos sólidos para documentar o glossário de negócios, mapear termos de negócios para elementos de dados e manter um ambiente colaborativo para compartilhar interpretações e métodos de manipulação de dados para fins analíticos.
Gerenciar Big Data … envolve um novo grupo de tecnologias e processos para permitir maior acessibilidade e usabilidade de dados.”
3. A qualidade está nos olhos de quem vê.

Nos sistemas convencionais, a padronização e limpeza de dados são aplicadas do armazenamento dos dados em seu modelo predefinido. Uma das consequências do Big Data é que fornecer os dados em seu formato original significa que nenhuma limpeza ou padronização são aplicados quando os conjuntos de dados são capturados.

4. Compreender a arquitetura melhora o desempenho.

As plataformas de Big Data dependem de nós de processamento e armazenamento de mercadorias para computação paralela usando armazenamento distribuído. No entanto, se você não estiver familiarizado com os detalhes de qualquer modelo de otimização e execução de consultas do SQL-on-Hadoop, poderá ser desagradavelmente surpreendido por tempos de respostas ruins.

Por exemplo, JOINS complexos podem requerer que partes de conjuntos de dados distribuídos sejam transmitidos para todos os nós de computação – causando inúmeros dados a serem injetados na rede e criando um gargalo significativo no desempenho. O resultado é que entender como a arquitetura de big data organiza os dados e como o modelo de execução de banco de dados otimiza as consultas ajudará você a escrever aplicativos de dados com um desempenho razoavelmente alto.
5. É um mundo de streaming
No passado, muitos dos dados coletados e consumidos para fins analíticos originavam-se dentro da organização e eram armazenados em repositórios de dados estáticos. Hoje, há uma explosão de dados de streaming. Temos o conteúdo gerado por seres humanos, como dados transmitidos de canais de mídia social, blog, e-mails, etc. Temos dados gerados por máquina a partir de inúmeros sensores, dispositivos, medidores e outras máquinas conectadas à internet. Temos conteúdo de streaming gerado automaticamente, como registro de eventos da web. Todas essas fontes geram grandes quantidades de dados e são a principal fonte de análise.

O gerenciamento de big data não apenas inclui muitas das abordagens convencionais de modelagem e arquitetura de dados, mas também envolve um novo grupo de tecnologias e processos para permitir acessibilidade e usabilidade de dados mais amplas. Uma estratégia de gerenciamento de big data deve abranger ferramentas que permitem a descoberta de dados, preparação de dados, acessibilidade de dados de autoatendimento, gerenciamento colaborativo de metadados semânticos, padronizado e limpeza de dados e mecanismos de processamento de fluxo. Estar ciente dessas implicações pode acelerar drasticamente o time-to-value do seu programa de Big Data.

Advanced Analytics Analytics Big Data Business Intelligence Machine Learning

Conceitos de Data Analytics

Data Analytics
Data Analytics (DA) é o processo de examinar conjuntos de dados para tirar conclusões sobre as informações que eles contêm, cada vez mais, com o auxílio de sistemas e softwares especializados. Tecnologias e técnicas de análise de dados são amplamente utilizadas por empresas de tamanhos e segmentos distintos para permitir que as organizações tomem decisões de negócios embasadas em avaliações de cientistas e pesquisadores que verificam ou refutam modelos, teorias e hipóteses científicas.

Como termo, a análise de dados refere-se predominantemente a uma variedade de aplicações, desde Business Intelligence (BI) básico, relatórios e processamento analítico online (OLAP) a várias formas de análise avançada ou Advanced Analytics. Nesse sentido, é semelhante em natureza à análise de negócios, outro termo abrangente para abordagens de análise de dados – com a diferença de que a última é orientada para usos de negócios, enquanto a análise de dados tem um foco mais amplo. A visão abrangente do termo não é universal: em alguns casos, as pessoas usam a análise de dados especificamente para significar análise avançada, tratando BI como uma categoria separada.

Iniciativas de análise de dados podem ajudar as empresas a aumentar receitas, melhorar a eficiência operacional, otimizar campanhas de marketing e esforços de atendimento ao cliente, responder mais rapidamente a tendências de mercado emergentes e obter uma vantagem competitiva sobre os rivais – tudo com o objetivo final de impulsionar o desempenho dos negócios. Dependendo da sua aplicação, os dados analisados ​​podem consistir em registros históricos ou em novas informações que foram processadas para uso analítico em tempo real. Além disso, pode vir de uma mistura de sistemas internos e fontes de dados externas.
Aplicações de Data Analytics
Em alto nível, as metodologias de análise de dados incluem análise exploratória de dados (EDA), que busca encontrar padrões e relacionamentos em dados, e análise confirmatória de dados (CDA), que aplica técnicas estatísticas para determinar se as hipóteses sobre um conjunto de dados são verdadeiras ou falsas. A EDA é frequentemente comparada ao trabalho de um detetive, enquanto a CDA é semelhante ao trabalho de um juiz ou júri durante um julgamento no tribunal.

A análise de dados também pode ser separada em análise quantitativa e análise qualitativa de dados. O primeiro envolve a análise de dados numéricos com variáveis ​​quantificáveis ​​que podem ser comparadas ou medidas estatisticamente. A abordagem qualitativa é mais interpretativa – concentra-se em compreender o conteúdo de dados não numéricos como texto, imagens, áudio e vídeo, incluindo frases comuns, temas e pontos de vista.

No nível do aplicativo, o BI e os relatórios fornecem aos executivos de negócios e outros funcionários corporativos informações acionáveis ​​sobre os principais indicadores de desempenho, operações de negócios, clientes e muito mais. No passado, consultas e relatórios de dados geralmente eram criados para usuários finais por desenvolvedores de BI que trabalhavam em departamentos de TI ou em uma equipe centralizada de BI; Agora, as organizações usam cada vez mais ferramentas de BI self-service que permitem que executivos, analistas de negócios e funcionários operacionais executem suas próprias consultas ad hoc e consigam criar relatórios por conta própria.

Tipos mais avançados de análise de dados incluem mineração de dados, que envolve a classificação de grandes conjuntos de dados para identificar tendências, padrões e relacionamentos; análise preditiva, que procura prever o comportamento do cliente, falhas de equipamentos e outros eventos futuros; e aprendizado de máquina, uma técnica de inteligência artificial que usa algoritmos automatizados para agitar os conjuntos de dados mais rapidamente do que os cientistas de dados podem fazer por meio de modelagem analítica convencional.

A análise de Big Data aplica ferramentas de mineração de dados, análise preditiva e aprendizado de máquina a conjuntos de dados grandes que geralmente contêm dados não estruturados e semi-estruturados.

As iniciativas de análise de dados suportam uma ampla variedade de casos de uso. Por exemplo, bancos e empresas de cartão de crédito analisam padrões de retirada e gastos para evitar fraudes e roubo de identidade. As empresas de comércio eletrônico e os provedores de serviços de marketing fazem uma análise de fluxo contínuo para identificar os visitantes do site que têm maior probabilidade de comprar um determinado produto ou serviço com base nos padrões de navegação e visualização de páginas. As operadoras de celular examinam os dados do cliente para prever a rotatividade, de modo que possam tomar medidas preventivas para evitar migrações de clientes para seus concorrentes.

Conforme vimos neste artigo, a área de Data Analytics pode ser realmente abrangente. O Brasil tem um grande potencial para implementação de técnicas de Data Analytics, desde as mais tradicionais até técnicas de análises avançadas com o uso de AI e Machine Learning, o que se configura como um mercado bastante promissor para os profissionais que se especializarem nesta área.

A Kumulus atua em todas as vertentes de Data & Analytics, desde a implantação de projetos de engenharia de dados, passando pelo BI tradicional e incluindo o desenvolvimento de plataformas e soluções com uso de Advanced Analytics – AI & Machine Learning.

Analytics Big Data

Big Data: Gerando Insights em Tempo Real

O processamento de dados em streaming é uma das tecnologias de Big Data. Ele é usado para consultar um fluxo contínuo de dados e detectar condições, rapidamente, dentro de um pequeno período de tempo a partir do recebimento e ingestão dos dados. O período de tempo de detecção varia de alguns milissegundos a minutos. Em geral, dados processados em fluxo são utilizados para monitoramento e entregam visões near real time que podem ser usadas por empresas de tamanhos e segmentos totalmente distintos. Entre as muitas possívels aplicações do Data Streaming podemos citar, o monitoramento do fluxo de pessoas, monitoramento de máquinas e equipamentos através de sensores IoT, análise de vendas em tempo real, etc.
Cenários de processamento
O processamento via streaming é realizado de forma sequencial e incremental e, as informações podem ser usadas para agregações, amostragem, correlações, filtragem, entre outras aplicações. As informações derivadas de tais análises proporcionam às empresas visibilidade de vários aspectos de suas atividades de negócios e de seus clientes, como o uso de serviços (para medição/faturamento), atividades de uma máquina, cliques em um site, geolocalização de dispositivos, pessoas e mercadorias, permitindo uma resposta imediata a situações emergentes. Por exemplo, as empresas podem monitorar alterações na percepção pública de suas marcas e produtos, analisando continuamente streams de mídias sociais, permitindo que as ações necessárias pare reverter situações indesejadas sejam tomadas rapidamente.
Porque processar os dados em tempo real é tão relevante?
O processamento de dados em streaming é benéfico na maioria dos cenários em que novos dados são gerados de forma contínua. Ele se aplica à maior parte dos casos de uso de empresas de diferentes tamanhos e segmentos. Geralmente, as empresas começam com aplicações simples, como a coleta de logs de sistemas e processamentos mais básicos. Então, essas aplicações se desenvolvem, transformando-se em um processamento mais sofisticado, praticamente em tempo real.

Eventualmente, essas aplicações executam modelos de análise de dados mais sofisticados, com o uso de algoritmos desenvolvidos com Machine Learning para obter informações mais profundas sobre os dados coletados.
Kumulus Any Data Insights
A plataforma Any Data Insights, desenvolvida pela Kumulus, se apoia nas tecnologias mais avançadas de processamento de dados em tempo real, permitindo a aplicação desta tecnologia nos mais diversos tipos de organizações, para o processamento de qualquer tipo de dado.

O processo de enriquecimento desta informação em tempo real, ou próximo ao tempo real (near real time), extende as características desta solução, possibilitando a geração de insights ainda mais poderosos. Com a inclusão das tecnologias de Inteligencia Artificial, podemos ir ainda mais longe, conetando estes dados a um assistente virtual, ou até mesmo permitindo análises preditivas ou prescritivas.
Ficou interessado?
Entre em contato com o time de especialistas da Kumulus e entenda como o processamento de dados em tempo real pode ajudar sua empresa a gerar mais negócios, diminuir custos e aumentar sua eficiência operacional.

Analytics Big Data

Big Data, como isso me afeta como tomador de decisões?

Big Data, um dos termos mais utilizados atualmente após o boom dos dados não estruturados e a massa de dados provenientes das mais variadas fontes.

Empresas no mundo inteiro tem aberto vagas para cientistas de dados e isso não só aqui nos EUA. De acordo com a IDC, este ano o mercado de Big Data atingirá a marca de US$125 bilhões movimentados em todo o mundo. Mas, além dessas novas palavras que viraram trend topics na internet, e todo esse dinheiro movimentado, será que eu deveria me conectar mais a esse mundo?

Como executivo ou tomador de decisões, será que algo que me parece tão técnico, deveria ser tratado como importante?

Bem, recentemente tenho lido diversos artigos mostrando os benefícios da análise destes dados por grandes corporações e como isso tem se tornado um diferencial competitivo num mundo onde milhares de startups se estabelecem todos os dias.

Resolvi postar um, dos muitos casos de sucesso, que provam que você deveria ficar antenado às novas tendências do mercado de dados.

Pra mim, um dos melhores exemplos e, como usuário frequente posso falar por experiência própria, é como o Netflix tem usado informações provenientes da sua plataforma e outras fontes públicas.

Algumas informações de como o Netflix faz uso destes dados foram reveladas no evento Hadoop Summit por Jeff Magnusson.

Durante a apresentação, ele definiu três princípios-chave da filosofia de análise de dados do Netflix:

Dados devem estar disponíveis, fáceis de acessar e fácil para que todos sejam capazes de os processar
Independente do tamanho do repositório dos dados, a disponibilização dos dados deve ser visual, o que torna mais fácil a explicação dos mesmos
Quanto mais tempo você toma para encontrar este dado, menos valioso ele é (concordo em parte com essa afirmação)

O grande segredo da análise dos dados é que ela possa servir não apenas às corporações, mas que faça sentido para o cliente. No final do dia você quer agradar executivos e investidores e ajudá-los a tomar as melhores decisões, mas acima de tudo, o resultado é prover uma melhor experiência ao consumidor, e é exatamente isso o que o Netflix tem feito.

Vou mostrar uma análise interessante feita por eles. Esses dados foram tirados da apresentação feita por Jeff no evento já mencionado, que você pode encontrar aqui: http://www.slideshare.net/JeffMagnusson

Olhe para essas duas capas: House of Cards e a versão de 2010 de Macbeth, Great Performances.
                
 

A questão é, você vê similaridades?

Bem, a princípio vemos o óbvio: Dois homens um pouco acima da meia idade e, com sangue em suas mãos. Contudo, para a Netflix há coisas além do óbvio que foram utilizadas para tentar recriar um sucesso.

Olhe por exemplo o esquema de cores utilizados nas duas capas.

Apesar de pequenas diferenças, elas foram criadas para serem bem similares.
O Netflix percebeu que até mesmo o esquema de cores de uma capa tem um potencial de impacto no consumo dos seus conteúdos.

House of Cards é uma série distribuída pelo próprio Netflix e enquanto a ciência de dados parece ser um mistério para muitos, ela pode enriquecer e muito a tomada de decisões de uma empresa. É isso que o Netflix tem feito para se tornar competitivo e chegar ao patamar em que está hoje.

É claro que há outros dados em que a empresa se baseia para produzir e distribuir conteúdos de sucesso como os hábitos do consumidor, recomendações, pontuação dos títulos, likes em redes sociais, etc. Não vou entrar na questão de como esses dados impactaram na decisão de como produzir ou distribuir essa série. A grande questão que quero levantar nessa discussão é: Quantas empresas entendem o cliente a esse ponto, ou querem impactar nesse nível de detalhe?

O mercado de Big Data tem crescido exponencialmente e tem se tornado um diferencial competitivo para muitas das organizações atuais.
A pergunta é: Sua empresa está se preparando para o futuro?

Enquanto há muitos outros novos termos, como IoT e analytics, no fundo eles são uma extensão do que falei aqui. São métodos, ferramentas, devices, utilizados para analisar esses dados ou que são afetados pela análise dos mesmos, e tem o poder de produzir ainda mais dados, como no caso do IoT. O objetivo final é gerar a capacidade de se criar uma experiência diferenciada ao consumidor, ter um impacto nas decisões a ponto de ser capaz de prever padrões de consumo de forma detalhada, quem sabe até mesmo definir quais cores da capa de uma série mais agrada ou desperta mais interesse no consumidor. Se isso afeta a sua empresa? Sem dúvida!

Aqui falei apenas do ponto de vista do consumo, mas o Big Data pode ajudar a sua empresa em diversos outros aspectos e setores, o que pode gerar maior agilidade para o seu negócio, redução de custos, e muito mais.

Há outros exemplos publicados e acho que vale a pena entender como empresas de sucesso tem utilizado dados para se transformar.
Falando em se transformar, aqui está outra palavra que deveria fazer parte do seu dia-a-dia depois de conhecer um pouco mais sobre Big Data. Os padrões de consumo mudam constantemente, a partir do momento que você começa a avaliar a mudança nesses padrões você deve estar preparado para mudar a forma que sua empresa faz as coisas.

Claro que quanto mais dados relevantes forem sendo trafegados, analisados e consumidos, maiores cuidados se deve ter com a segurança. Esse é um outro assunto que tem se tornado muito preocupante.

Social media & sharing icons powered by UltimatelySocial