·

Cursos Gerais ·

Bases de Dados

Envie sua pergunta para a IA e receba a resposta na hora

Fazer Pergunta

Texto de pré-visualização

15/05/2022 23:53 Atividade 2 (A2): Revisão da tentativa NAP CPA Responsabilidade Socioambiental Seguir para... Revisão Atividade 2 (A2) ▶ https://ambienteacademico.com.br/mod/quiz/review.php?attempt=443425&cmid=152138 7/7 15/05/2022 23:53 Atividade 2 (A2): Revisão da tentativa NAP CPA Responsabilidade Socioambiental Correto Atingiu 1,00 de 1,00 Podemos classificar os métodos de discretização em 5 (cinco) abordagens para sua execução: supervisionado ou não supervisionado, dinâmico ou estático, local ou global, top-down ou bottom-up, direto ou incremental; as quais levam em consideração as faixas contínuas que serão divididas pela sua largura e frequência. Levando em consideração tais abordagens, analise as afirmativas a seguir e assinale V (para a(s) verdadeira(s) e F para a(s) falsa(s)): I. ( ) O método pode ser local ou global, no qual se utiliza de um subconjunto de instâncias ou conjuntos inteiros de dados. II. ( ) O método supervisionado considera as faixas contínuas a serem divididas pela largura ou frequência. III. ( ) O método direto divide a faixa em vários intervalos de forma simultânea. IV. ( ) Os métodos top-down se iniciam de uma lista cut-points vazia e inserem novas listas pelos intervalos devido pela discretização. Assinale a alternativa que apresenta a sequência correta: a. F, F, V, V. b. V, V, F, F. c. F, V, F, V. d. V, F, V, V.Resposta correta. A sequência está correta. O método local gera a discretização de um subconjunto de instâncias, enquanto o global se utiliza de um conjunto inteiro de dados; o método direto divide a faixa em vários intervalos de forma simultânea; os métodos top-down se inicia de uma lista cut-points vazia e inserem novas listas pelos intervalos divididos pela discretização. e. F, V, V, V. A resposta correta é: V, F, V, V. https://ambienteacademico.com.br/mod/quiz/review.php?attempt=443425&cmid=152138 2/7 15/05/2022 23:53 Atividade 2 (A2): Revisão da tentativa NAP CPA Responsabilidade Socioambiental Correto Atingiu 1,00 de 1,00 Regressão múltipla é uma coleção de técnicas estatísticas para construir modelos que descrevem de maneira razoável as relações entre as variáveis explicativas de um determinado processo. Ela deve seguir alguns procedimentos que são a definição de variáveis, desenho do gráfico de dispersão, montagem da equação e substituição dos dados. Levando em consideração a definição de variáveis e o desenho do gráfico de dispersão, analise as afirmativas a seguir: I. É importante verificar pesquisas semelhantes para a definição da variável dependente e das variáveis dependentes. II. Quanto maior a dispersão mais forte é a correlação, o que demonstra a necessidade da variável independente. III. O coeficiente de regressão está relacionado ao número de variáveis dependentes. IV. Com as variáveis definidas, podemos gerar um gráfico demonstrando a dependência e a necessidade de manter a variável independente. Está correto o que se afirma em: a. I e IV, apenas. b. I e IV, apenas. Resposta correta. A alternativa está correta, pois em pesquisas deve-se verificar o que dizem outros autores que trabalham com temas semelhantes na mesma área do conhecimento e definir quais serão as variáveis ou atributos analisados, então é preciso definir qual será a variável dependente e quais serão as independentes. Com as variáveis definidas, podemos gerar um gráfico demonstrando a dependência e a necessidade de manter a variável independente. c. I, III e III, apenas. d. II, III e III, apenas. A resposta correta é: I e IV, apenas. Questão 4 Correto Atingiu 1,00 de 1,00 Consiste em um método popular de centralização de elementos por meio de um cluster que é dividido em N pontos cuja distância é próxima ao seu centro. Faz parte dos algoritmos de mineração de dados onde sua principal fundamentação é o estatística. A quantidade de X partições é definida na entrada. Neste sentido, assinale a alternativa que indique qual é o método descrito: a. K-média. Resposta correta. A alternativa está correta, pois é um dos métodos mais populares e se emprega na mineração de dados. Consiste basicamente em pegar a definição, como parâmetro de entrada, de k pontos de dados centrais dos clusters, em seguida cada registro do banco de dados é atribuído ao cluster cuja distância deste ponto em relação ao centro consiste na menor distância calculada entre os elementos. b. RLM. c. Método por associação. d. Classificador bayesiano. e. Classificador. A resposta correta é: K-média. https://ambienteacademico.com.br/mod/quiz/review.php?attempt=443425&cmid=152138 3/7 15/05/2022 23:53 Atividade 2 (A2): Revisão da tentativa NAP CPA Responsabilidade Socioambiental Correção Avaliação: 1,00 de 1,00 Soma: 1,00 de 1,00 Sumarização consiste na identificação e classificação dos atributos do banco de dados, com base na similaridade entre registros em um conjunto de dados. Com isso, formamos classes de agrupamento dos dados pré-processados que ajudarão na mineração dos dados e, consequentemente, a formação do modelo de conhecimento. Nesse sentido, assinale a afirmativa que faz referência à sumarização: a. A identificação para sumarização não é somente criar índices para os dados envolvidos, mas sim agrupar elementos com características concisas e compreensíveis. ✓ Resposta correta. A alternativa está correta, pois a sumarização dos dados não é simplesmente a enumeração dos dados, mas sim a busca por geração das descrições que caracterizam resumidamente esses dados, permitindo uma possível comparação discriminatória dessas informações. b. A sumarização é uma tarefa complementar e não obrigatória, pois na regressão linear múltipla existe o agrupamento de elementos que substituem esta tarefa. c. A definição do agrupamento dos dados a serem sumarizados está no fato de pertencerem à mesma tabela. d. A sumarização em uma situação envolvendo dados complexos se torna inconsistente, por isso passa a ser desnecessária. e. A sumarização é melhor definida como elementos dicotômicos ou seja, composta por duas categorias ou estados. A resposta correta é: A identificação para sumarização não é somente criar índices para os dados envolvidos, mas sim agrupar elementos com características concisas e compreensíveis. Questão 6 Correção Avaliação: 1,00 de 1,00 Os mapas auto-organizativos, ou mapas de Kohonen, são formados por um número finito e predeterminado de nós dispostos de formas variadas, como um quadrado. Cada nó se conecta a vetores de entrada que constituem o conjunto de treinamento do algoritmo, trabalhando apenas com valores numéricos. Nesse sentido, assinale a alternativa que apresente as características dos mapas auto-organizativos: a. Os pesos definidos para os algoritmos de mineração precisam inicializar de forma distribuída em relação à densidade dos vetores de entrada. ✓ Resposta correta. A alternativa está correta, pois cada nó se conecta a vetores de entrada, que constituem o conjunto de treinamento do algoritmo. Pois o algoritmo de treinamento por convenção trabalha apenas com valores numéricos, o que acaba limitando sua utilização. b. No mapa de Kohonen os neurônios da camada de saída se organizam de forma unidimensional. c. A taxa de aprendizado com o passar do tempo aumentou, utilizando os mapas auto-organizativos. d. Existe a necessidade de estimar o número de grupos na inicialização, o que não permite uma certa imunidade a ruídos. e. No mapa auto-organizativo a atualização dos pesos no algoritmo é feita somente para o neurônio vencedor. A resposta correta é: Os pesos definidos para os algoritmos de mineração precisam inicializar de forma distribuída em relação à densidade dos vetores de entrada. 15/05/2022 23:53 Atividade 2 (A2): Revisão da tentativa NAP CPA Responsabilidade Socioambiental Correção Avaliação: 1,00 de 1,00 Soma: 1,00 de 1,00 O principal objetivo encontrado na mineração de dados está em transformar a base de conhecimento KDD em resposta para problemas fornecidos pelos analistas de negócio. Na mineração de dados em si, etapa que vem após o pré-processamento dos dados, são utilizados algoritmos para resolver a problemática apresentada, sendo que a escolha do que utilizar dependerá da necessidade em si. Dentro do KDD temos uma função que vem para mapear os registros no banco de dados em um intervalo. Nesse sentido, assinale a alternativa que indique essa função: a. Redes neurais. b. PCA. c. Discretização. d. Regressão. ✓ Resposta correta. A alternativa está correta, pois a regressão linear é utilizada agrupando elementos independentes dentro de uma problemática, que é a variável dependente formada, dessa forma, o mapeamento em uma classe analisável com base em um nível de confiança no resultado final. e. Gráfico de dispersão. A resposta correta é: Regressão. Questão 8 Correção Avaliação: 1,00 de 1,00 Em uma equação linear múltipla utilizamos os resultados para prever a probabilidade de ocorrer determinado evento. Por exemplo, podemos prever a chuva para amanhã em milimetros com base na pressão atmosférica e em resultados alcançados em outras ocasiões. Para isso, definimos o nível de acerto que esperamos, que geralmente gira em torno de 95%. Baseando-se nesse conceito, sobre a equação RLM, analise as afirmativas a seguir: I - Deve-se definir o nível de confiança com peso 1, por exemplo, 95% seria calculado com 1 - 0,95 = 0,05, que seria o nível de significância. II - Caso o gráfico gerado seja uma reta, o percentual aceitável estaria disposto nas pontas. III - O mínimo aceitável em relação ao nível de confiança é 50%, que seria o mínimo aceitável entre certo ou errado. IV - A partir do momento que o definindo 90% de confiança no resultado, os 10% restantes se dividem entre as extremidades com 5% composto de valores ignorados. Está correto o que se afirma em: a. I, II e III, apenas. b. II e IV, apenas. ✓ Resposta correta. A alternativa está correta, pois o valor máximo utilizado na equação varia entre 0 e 1, ou seja, trabalhamos o percentual aceitável com peso 1 e realizamos a conta 1 (um) menos a porcentagem peso 1 (um). Assim, jogamos a diferença na cauda do gráfico, que por convenção sempre formará uma curva, com cauda presente nas duas pontas, que possuem os valores a serem ignorados. c. I, II e IV, apenas. d. I, IV e III, apenas. e. II, III e IV, apenas. A resposta correta é: II e IV, apenas. 15/05/2022 23:53 Atividade 2 (A2): Revisão da tentativa NAP CPA Responsabilidade Socioambiental Correção Avaliação: 1,00 de 1,00 Soma: 1,00 de 1,00 A discretização de dados é uma tarefa importante na mineração de dados quando é necessário facilitar a busca de determinadas informações. A discretização consiste na divisão do todo em partes com menor complexidade, a fim de facilitar a formação do modelo de conhecimento. Nesse sentido, assinale a alternativa correta: a. A classificação dos atributos em realizar cut-point com N intervalos entre os dados com uma faixa de valores contínuos. b. Com a necessidade do tempo que determinada pessoa é cliente, por vezes é ideal é discretizar a data de cadastro e anos. ✓ Resposta correta. A alternativa está correta, pois a discretização consiste em pegar os dados e realizar o processo facilitar para realizar a mineração dos dados, e isso ocorre ao dividir o todo em partes com nível menor de complexidade, a fim de facilitar a formação da base de conhecimento. c. Um processo não será parado pelo usuário que realiza a discretização, pois ela ocorre de forma automática sempre. d. Um atributo só permite ser discretizado uma vez, como transformar data em idade, e não pode ser revertido. e. Estruturas como árvores e regras de decisão são estruturas que dispensam dados discretizados para melhora de desempenho. A resposta correta é: Com a necessidade do tempo que determinada pessoa é cliente, por vezes é ideal é discretizar a data de cadastro e anos. Questão 10 Correção Avaliação: 1,00 de 1,00 O Teorema de Bayes está relacionado ao cálculo de probabilidade condicional e é aplicável em tarefas de classificação na mineração de dados. Sua aplicação se estende às áreas como finanças, saúde, desenvolvimento de jogos, entre outras. Por ser robusto, é uma ótima opção para resolução em tempo real. A respeito do contexto apresentado, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s) falsa(s). I. ( ) O classificador bayesiano traz a ideia de verificar, dentro do percentual positivo de um teste, o que realmente é válido e o que é um falso cognato. II. ( ) O classificador é frequentemente utilizado quando os atributos são dependentes entre si. III. ( ) O algoritmo tem sua usualidade muito relacionada a números, tanto inteiros quanto reais. IV. ( ) Para a realização de um diagnóstico de imagens referente a tendências de posteriores surgimentos da doença, o melhor algoritmo seria o classificador bayesiano. Assinale a alternativa que apresenta a sequência correta: a. V, F, F, F. b. V, F, V, V. ✓ Resposta correta. A sequência está correta, pois o classificador vem como opção de avaliar o resultado de um teste e a probabilidade de que seja realmente verdadeiro, e ele tem um melhor desempenho, para análises de imagens médicas, assim como para processamento de linguagem natural por ser um algoritmo mais robusto. c. V, F, F, V. d. V, V, F, V. e. V, V, F, F. A resposta correta é: V, F, F, V.