·

Análise e Desenvolvimento de Sistemas ·

Banco de Dados

Send your question to AI and receive an answer instantly

Ask Question

Preview text

Banco de Dados Prof Daniel Callegari Aula 10 Aula 10 Conceitos de Big Data e Inteligência de Negócio Características dos Modelos Analíticos Exemplos e Aplicações Dinâmicas Conclusão O que você vai aprender nessa aula Parte 1 Big Data e Inteligência de Negócio Parte 2 Conceito de Data Warehouse Parte 3 Modelagem Multidimensional Parte 4 Operações e Extensões a SQL Parte 5 Dinâmica e Conclusão Aula 10 Parte 1 Big Data e Inteligência de Negócio Modelos Analíticos Introdução a Big Data Introdução a Inteligência de Negócio Introdução a Mineração de Dados Aula 10 Parte 2 Conceito de Data Warehouses Relação com Big Data Definição e detalhamento a respeito de Data Warehouses Aula 10 Parte 3 Modelagem Multidimensional de Dados Características dos Data Warehouses Modelagem Multidimensional Cubo de Dados Aula 10 Parte 4 Operações OLAP e Extensões a SQL Operações sobre um Cubo de Dados Acréscimos à linguagem SQL para suportar algumas operações Aula 10 Parte 5 Dinâmica e Conclusão Dinâmica sobre o Estudo de Caso Conclusão da Disciplina O que você vai aprender nessa aula Parte 1 Big Data e Inteligência de Negócio Parte 2 Conceito de Data Warehouse Parte 3 Modelagem Multidimensional Parte 4 Operações e Extensões a SQL Parte 5 Dinâmica e Conclusão Modelos Analíticos São modelos de dados otimizados para a análise de dados geralmente multidimensionais Permitem a prática do que hoje se conhece por Big Data grandes volumes de dados complexos Mineração de Dados Data Mining Inteligência de Negócio Business Intelligence ou BI Modelos Analíticos Permitem a descoberta de dados e sua visualização em diversas formas e aplicações de análise personalizadas e contextualizadas Exemplos de informações que podem ser extraídas Quais produtos devem ser ofertados para determinados clientes Seria possível predizer as ações mais rentáveis para comprar e vender na próxima sessão de negociação Qual diagnóstico médico deve ser direcionado para um determinando paciente Será que um cliente inadimplente fará o pagamento do empréstimo Quando Por que uma linha de fabricação começa a produzir produtos defeituosos Pirâmide dos Dados Sabedoria Conhecimento Informação Dados httpwwweventtrackercom20130206bigdatainformationinequality Níveis de Decisão Tomada de decisões Visualização de Dados Mineração de Dados Exploração de Dados Processamento Integração Armazenamento de Dados Fontes de Dados DBA Analista de Dados Analista de Negócio Conceito Dado Informação Apresentação Conhecimento Qualquer elemento identificado em sua forma bruta e que por si só não conduz à compreensão de determinado domínio Dados tratados ou organizados de modo significativo Informação possui significado leva à compreensão e pode ajudar na tomada de decisões Forma de apresentar a informação para que possa se tornar mais compreensível ou mais atrativa para diferentes públicos Vai além da informação Além de significado possui uma aplicação Produz ideias e experiências que a informação por si só não é capaz de mostrar Big Data O grande volume de informações que as organizações coletam hoje somente tem valor se for tratado da maneira correta Big Data Tem como objetivo organizar e disponibilizar um grande volume de dados Conceito Business Intelligence BI Inteligência de Negócio É um termo usado para descrever um conjunto amplo coeso e integrado de aplicações utilizadas para captar coletar integrar armazenar e analisar dados para a geração e a apresentação de informações que deem suporte à tomada de decisões de negócios ROB CORONEL Sistemas de Banco de Dados Projeto Implementação e Gerenciamento Cengage 2010 Conceito Business Intelligence BI Inteligência de Negócio É um conjunto de metodologias processos arquiteturas e tecnologias que transformam dados não tratados em informação útil e com significado para permitir uma visão mais estratégica tática operacional e uma tomada de decisão mais eficaz EVELSON Boris 2008 Conceito Business Intelligence BI Inteligência de Negócio Processo de coleta processamento e disseminação de informação para a tomada de decisão para os interessados stakeholders Transformação de dados em informação Processamento analítico Obs BI não é a simples geração de relatórios ainda que estes sejam complexos nem o acesso clandestino ou mesmo espionagem industrial Conceito Data Mining DM Mineração de Dados Extração nãotrivial de informação implícita previamente desconhecida e potencialmente útil a partir de dados Exploração e análise de grandes volumes de dados por meios automáticos ou semiautomáticos para descoberta de padrões significativos Métodos Preditivos Utilização de algum conjunto de variáveis para predição do valor futuro de outras variável variáveis Métodos Descritivos Descobrir padrões interpretáveis que descrevam os dados Conceito Data Mining DM Mineração de Dados Processo de KDD Descoberta de Conhecimento em Bancos de Dados Mineração de Dados Data Mining automatiza a análise de dados operacionais com o objetivo de encontrar características relacionamentos dependências e tendências previamente desconhecidas Envolve a preparação dos dados a classificação e análise dos dados aquisição de conhecimento e prognóstico Técnicas classificação associação predição agrupamento arvores de decisão padrões sequenciais ROB CORONEL Sistemas de Banco de Dados Projeto Implementação e Gerenciamento Cengage 2010 Exemplos de Aplicação Um produtor rural pode melhorar a produtividade analisando dados da produção passada e cruzando com dados sobre a demanda do mercado Uma plataforma de vendas online pode melhorar a experiência do usuário fornecendo sugestões baseadas em seu perfil Uma transportadora pode coletar dados de múltiplas fontes e reduzir tempo e custo das entregas Gestores de saúde pública podem melhorar o atendimento à população com base na priorização dos usos de recursos ROB CORONEL Sistemas de Banco de Dados Projeto Implementação e Gerenciamento Cengage 2010 Dinâmica Quais dos problemas a seguir são tipicamente respondidos por técnicas de Mineração de Dados Data Mining a Fazer uma consulta no Google b Agrupar documentos por similaridade c Procurar um paciente do banco de dados do Hospital d Fazer uma consulta SQL em um banco de dados e Descobrir nomes femininos mais comuns na região norte f Classificar insetos por suas características Resumo do que vimos até agora Modelos Analíticos são otimizados para a análise de dados geralmente multidimensionais Big Data Mineração de Dados Inteligência de Negócio Banco de Dados Prof Daniel Callegari Aula 10 Relembrando o conteúdo do vídeo anterior Modelos Analíticos são otimizados para a análise de dados geralmente multidimensionais Big Data Mineração de Dados Inteligência de Negócio O que você vai aprender nessa aula Parte 1 Big Data e Inteligência de Negócio Parte 2 Conceito de Data Warehouse Parte 3 Modelagem Multidimensional Parte 4 Operações e Extensões a SQL Parte 5 Dinâmica e Conclusão Origens os 4 Vs de Big Data 40 ZETTABYTES 43 TRILLION GIGABYTES of data will be created by 2020 an increase of 300 times from 2005 6 BILLION PEOPLE have cell phones WORLD POPULATION 7 BILLION Its estimated that 25 QUINTILLION BYTES 23 TRILLION GIGABYTES of data are created each day Volume SCALE OF DATA Most companies in the US have at least 100 TERABYTES 100000 GIGABYTES of data stored The New York Stock Exchange captures 1 TB OF TRADE INFORMATION during each trading session Modern cars have close to 100 SENSORS that monitor items such as fuel level and tire pressure Velocity ANALYSIS OF STREAMING DATA By 2016 it is projected there will be 189 BILLION NETWORK CONNECTIONS almost 25 connections per person on earth As of 2011 the global size of data in healthcare was estimated to be 150 EXABYTES 161 BILLION GIGABYTES By 2014 its anticipated there will be 420 MILLION WEARABLE WIRELESS HEALTH MONITORS 4 BILLION HOURS OF VIDEO are watched on YouTube each month 30 BILLION PIECES OF CONTENT are shared on Facebook every month 400 MILLION TWEETS are sent per day by about 200 million monthly active users Variety DIFFERENT FORMS OF DATA 1 IN 3 BUSINESS LEADERS dont trust the information they use to make decisions Poor data quality costs the US economy around 31 TRILLION A YEAR 27 OF RESPONDENTS in one survey were unsure of how much of their data was inaccurate Veracity UNCERTAINTY OF DATA OLAP vs OLTP Dados operacionais não são adequados ao suporte a decisões Dados operacionais são diferentes de dados para suporte a decisões Eles diferem em período de tempo granularidade e dimensionalidade OLTP On Line Transaction Processing Descreve processamento nos sistemas aplicativos OLAP On Line Analytical Processing Descreve processamento em Data Warehouse OLAP vs OLTP ETL OLTP OLAP Extrair Transformar Carregar Conceito Data Warehouse Armazém de Dados É um conjunto de dados orientado a assunto integrado variante no tempo e não volátil para o suporte dos processos de tomada de decisão Data Warehousing Processo de Construção e uso de DWs Data Marts São subconjuntos por departamentos do DW ROB CORONEL Sistemas de Banco de Dados Projeto Implementação e Gerenciamento Cengage 2010 Resumo do que vimos até agora Os 4 Vs de Big Data Conceito de Data Warehouse Suas diferenças com o banco de dados orientado a transações Banco de Dados Prof Daniel Callegari Aula 10 Relembrando o conteúdo do vídeo anterior Data Warehouse Armazém de Dados É um conjunto de dados orientado a assunto integrado variante no tempo e não volátil para o suporte dos processos de tomada de decisão O que você vai aprender nessa aula Parte 1 Big Data e Inteligência de Negócio Parte 2 Conceito de Data Warehouse Parte 3 Modelagem Multidimensional Parte 4 Operações e Extensões a SQL Parte 5 Dinâmica e Conclusão Data Warehouse Características 14 1 Orientado a Assunto Dados organizados de acordo com os principais objetos da organização vendas clientes produtos etc Foco na modelagem e análise dos dados pelos tomadores de decisão Não é utilizado para as operações diárias Provê uma visão simples e concisa sobre questões específicas nos objetos da organização excluindo dados que não são úteis para a tomada de decisão Data Warehouse Características 24 2 Integrado Construído pela integração de dados de fontes diferentes e heterogêneas Exemplos BDs relacionais arquivos convencionais registros de transações dos aplicativos etc Técnicas de limpeza e integração de dados são usadas Garantir a consistência entre nomes de atributos domínios e formas de codificação de dados Quando o dado é copiado para o DW ele é convertido para o padrão adotado Data Warehouse Características 34 3 Variante no Tempo Perspectiva temporal de um DW é bem maior que um sistema aplicativo BD operacional dados correntes Dados em DW informação em um perspectiva histórica de longo prazo ex últimos 5 a 10 anos Toda estrutura de acesso a um DW tem um componente temporal explícito ou implícito o que não necessariamente ocorre nos BDs operacionais Data Warehouse Características 44 4 Nãovolátil DW é um repositório de dados transformados As atualizações que ocorrem no ambiente operacional NÃO acontecem no ambiente DW Não requer processamento de transações nem mecanismos de controle de concorrência e de recuperação de dados Necessita somente duas operações de acesso carga inicial e consulta Data Warehouse Benefícios Elevado retorno de investimento Em médio prazo o retorno do investimento geralmente é muito significativo Embora seja custoso implementar um ambiente de DW Vantagem Competitiva Ganhos obtidos uma vez que gestores passam a ter conhecimento sobre situações até então desconhecidas Tendências riscos de investimento oportunidades de marketing etc Aumento de produtividade dos tomadores de decisão Análises mais precisas Resulta em decisões tomadas mais positivamente impactantes Data Warehouse Benefícios ex Quais são as tendências em relação aos clientes que estamos analisando Estamos captando uma boa quantidade de clientes nos últimos 3 anos Qual o histórico de crédito do cliente X Qual é a categoria do cliente X neste momento Sabedoria Conhecimento Informação Dados Modelagem Multidimensional VENDAS unidadesvendidas reaisvendidos idproduto idproduto nomeproduto marca tipo PRODUTO idfornec idfornec nomefornec tipofornec FORNECEDOR idlocal rua cidade estado país LOCAL idlocal idtempo dia mês trimestre ano TEMPO idtempo Cubo de Dados em um Data Warehouse Um DW é baseado em um modelo de dados multidimensional que organiza os dados na forma de cubo Isto permite que os dados sejam visualizados por múltiplas dimensões soma BR EUA CA TV PC HD 1 Tri 2 Tri 3 Tri soma soma CD Resumo do que vimos até agora Características de um Data Warehouse Modelagem multidimensional Cubo de Dados Banco de Dados Prof Daniel Callegari Aula 10 Relembrando o conteúdo do vídeo anterior Características de um Data Warehouse Modelagem multidimensional Cubo de Dados O que você vai precisar para acompanhar essa aula livesqloraclecom O que você vai aprender nessa aula Parte 1 Big Data e Inteligência de Negócio Parte 2 Conceito de Data Warehouse Parte 3 Modelagem Multidimensional Parte 4 Operações e Extensões a SQL Parte 5 Dinâmica e Conclusão Cubo de Dados em um Data Warehouse Um DW é baseado em um modelo de dados multidimensional que organiza os dados na forma de cubo Isto permite que os dados sejam visualizados por múltiplas dimensões soma BR EUA CA TV PC HD 1 Tri 2 Tri 3 Tri soma soma CD Operações OLAP Constituem as operações analíticas que exploram diferentes pontos de vista de um cubo Tipos de Operações Rollup Drillup Drilldown Slice Dice Rotação Pivot Extensões de SQL para OLAP Acréscimos à linguagem SQL padrão para suportar operações de manipulação de dados do tipo OLAP São extensões à cláusula GROUP BY ROLLUP CUBE Extensões de SQL para OLAP Extensão ROLLUP Usada para gerar agregados por diferentes dimensões Sabemos que GROUP BY gera um agregado para cada combinação de valores ROLLUP gera um subtotal para cada coluna listada exceto para a última para a qual gera um total geral A ordem das colunas especificadas é importante Sintaxe no SGBD Oracle SELECT col1 col2 funcagregcol3 FROM tabela GROUP BY ROLLUP col1 col2 Extensões de SQL para OLAP Extensão CUBE Também funciona adicionada ao GROUP BY Gera agregados pelas colunas listadas inclusive a última Sintaxe no SGBD Oracle SELECT col1 col2 funcagregcol3 FROM tabela GROUP BY CUBE col1 col2 Extensões de SQL para OLAP Comparando ROLLUP calcula N1 agrupamentos onde N é o número de expressões no rollup Portanto um ROLLUP com três colunas retorna 31 4 agrupamentos CUBE calcula 2N agrupamentos onde N é o número de expressões no cubo Portanto um cubo com três colunas retorna 23 8 agrupamentos ROLLUP a b c a b c a b a CUBE a b c a b c a b a c a b c b c Data Warehouses vs Visões views DWs e Views trazem um extrato dos dados apenas para leitura e orientados por assunto No entanto as Views fornecem apenas parte das funções e das capacidades dos DWs Principais diferenças DWs existem como armazenamento permanente em vez de serem materializados sob demanda como é o caso das VIEWs Normalmente os DW não são relacionais mas multidimensionais As visões de um banco de dados relacional são relacionais Os DWs podem ser indexados para otimizar o desempenho As visões não podem ser indexadas de maneira independente dos bancos de dados subjacentes Os DWs fornecem grandes quantidades de dados integrados e frequentemente dados temporais geralmente mais do que o que é contido em um banco de dados enquanto as visões são um extrato de um banco de dados ELMASRI NAVATHE Sistemas de Banco de Dados Pearson 2005 Dinâmica Nosso Estudo de Caso Pequena demonstração temos poucos dados Nosso Estudo de Caso select from pacientes full join fichas on pacientescodpaciente fichascodpaciente full join medicos on fichascrm medicoscrm full join especialidades on medicosespecialidade especialidadescodespecialidade full join fichasexames on fichasnroficha fichasexamesnroficha full join exames on fichasexamescodexame examescodexame Dados úteis Sem utilidade Resumo do que vimos até agora Cubo de Dados OLAP Extensões à linguagem SQL ROLLUP CUBE Diferenciação com relação a VIEWs Banco de Dados Prof Daniel Callegari Aula 10 Relembrando o conteúdo do vídeo anterior Cubo de Dados OLAP Extensões à linguagem SQL ROLLUP CUBE Diferenciação com relação a VIEWs O que você vai aprender nessa aula Parte 1 Big Data e Inteligência de Negócio Parte 2 Conceito de Data Warehouse Parte 3 Modelagem Multidimensional Parte 4 Operações e Extensões a SQL Parte 5 Dinâmica e Conclusão O que você vai precisar para acompanhar essa aula livesqloraclecom Microsoft Excel Dinâmica Nosso Estudo de Caso Pequena demonstração temos poucos dados Dinâmica Estudo de Caso Que perguntas interessantes poderiam ser respondidas com base no nosso estudo de caso A jornada dos dados Coleta Armazenamento Preparação Transformação Análise descritiva Análise preditiva Tomadas de Decisão Dados Operacionais Data Warehouse Extract Transform Load OLAP On Line Analytical Processing Data Mining Ferramentas de Consulta Ferramentas de Relatório Tecnologias de Business Intelligence Dados externos Aplicativos operacionais ERP Outros Data Mart Data Mart Data Mart Data Mart httpswwwtheregistercom20121204hpdiscoverautonomyverticabigdata Conclusão Foi uma longa jornada desde o entendimento sobre o conceito de dado até a compreensão do que a Ciência da Computação e a Estatística nos permitem realizar com os dados Dados são o novo petróleo Ciência de Dados é um campo interdisciplinar que aplica conceitos matemáticoestatísticos para extrair conhecimento ou insights de grandes volumes de dados