Conteúdo Programático
Módulos utilizados: IBM SPSS Modeler
Objetivo: Este curso oferece uma visão geral dos fundamentos de Data Mining usando o IBM SPSS Modeler. Tomando por base a metodologia CRISP-DM, são ilustrados os princípios e práticas do processo de Data Mining. A estrutura do curso segue os estágios de um projeto típico de Data Mining, desde a leitura dos dados até a exploração, transformação, modelagem e efetiva interpretação dos resultados. O curso apresenta técnicas básicas para a leitura, exploração e manipulação de dados com o Clementine e a criação e uso com sucesso de modelos na ferramenta.
Duração: 3 dias/18 horas
Pré-requisito: Conhecimentos gerais em computação. Altamente indicado que dispôr de conhecimentos básicos dos dados de sua empresa, assim como de assuntos ligados ao negócio e que possam ser relevantes ao processo de mineração de dados. Conhecimento estatístico prévio não é necessário.
Observação: Apostilas e arquivos estão em inglês.
I – Introdução ao Data Mining
- Introdução ao Data Mining
- Questões-chave num projeto de Data mining
- Uma estratégia de Data mining: a metodologia CRISP-DM
- Conhecimentos necessários para Data mining
- Plano do curso
II – Princípios de uso do IBM SPSS Modeler
-
O IBM SPSS Modeler Client e o IBM SPSS Modeler Server
- Inicializando o IBM SPSS Modeler
- Usando o mouse
- Programação visual
- Construindo fluxos com o IBM SPSS Modeler
- Obtendo ajuda
- Customizando as palhetas
III – Lendo arquivos de dados
- Lendo arquivos de dados no IBM SPSS Modeler
- Lendo dados de arquivos texto com campos livres
- Primeira checagem dos dados
- Lendo arquivos IBM SPSS Statistics
- Lendo arquivos usando ODBC
- Lendo dados de planilhas do Excel
- Lendo dados de produtos IBM SPSS Data Collection
- Arquivos SAS
- Definindo os tipos de campo dos dados
- Direção dos campos
- Salvando um fluxo do IBM SPSS Modeler
- Apêndice A: lendo dados de arquivos com campos livres
- Apêndice B: trabalhando com datas
- Declarando os formatos das datas no IBM SPSS Modeler
IV – Entendimento dos Dados
- Dados ausentes no IBM SPSS Modeler
- Avaliando dados ausentes
- Usando o nó Data Audit para dados ausentes
- Auto-checagem para valores ausentes e além dos limites pré-estabelecidos
- Distribuições de campo e estatísticas descritivas
- Apêndice: conselhos sobre a manipulação dos valores ausentes
V – Dados extremos ou anômalos
- O que é um dado anômalo?
- Dados extremos em campos categóricos
- Dados extremos em campos numéricos
- Dados extremos em campos simultâneos (categóricos e numéricos)
- Dados extremos em dois campos numéricos simultâneos
- O Nó ANOMALY
VI – Introdução à Manipulação dos Dados
- Breve introdução à linguagem do do IBM SPSS Modeler
- Operações com campos e o nó FILTER
- Reordenando os campos
- O nó DERIVE
- O nó RECLASSIFY
- Executando os nós de OPERAÇôES DE CAMPO simultaneamente
- Gerando automaticamente os nós OPERACIONAIS
VII – Procurando por relações nos dados
- Estudando relações entre campos categóricos
- O nó MATRIX: relacionando dois campos categóricos
- O nó CUSTOM Table
- O nó WEB
- Correlações entre campos numéricos
- O Nó MEANS: analisando as relações entre campos numéricos e categóricos
- Usando o Nó GRAPHBOARD para examinar relações
VIII – Combinando arquivos de dados
- Usando o Nó APPEND para combinar arquivos de dados
- Usando o Nó MERGE para combinar arquivos de dados
- SUPERNÓS
- Editando os SUPERNÓS
- Salvando e inserindo os SUPERNÓS
IX – Agregando os dados
- Resumindo dados usando o Nó AGGREGATE
- Reestruturando campos categóricos usando o Nó SET TO FLAG
- Combinando os nós AGGREGATE e SET TO FLAG
- Reestruturando os dados usando o Nó RESTRUCTURE
X - Selecionando, extraindo amostras e particionando os dados
- Usando o nó DISTINCT para remover registros duplicados
- Ordenando registros
- Selecionando registros
- Gerando automaticamente um Nó SELECT
- Usando o Nó SAMPLE para selecionar registros
- Balanceando os dados
- O Nó PARTITION
- Cache dos dados
XI - Técnicas de Modelagem no IBM SPSS Modeler
- Redes Neurais
- Indução de regras
- Rede de BAYES
- SUPPORT VECTOR MACHINES
- SELF-LEARNING RESPONSE MODEL
- Modelos de predição estatística
- Regressão Linear
- Regressão Logística
- Análise Discriminante
- Modelos Lineares Generalizados
- Regressão de Cox
- Classificação Binária
- Predição Numérica
- Agrupamento
- Regras de Associação
- Detecção de Seqüência
- Componentes principais
- Análises de Séries Temporais
- Quais técnicas, quando?
XII - Indução de Regras
- Indução de Regras no IBM SPSS Modeler
- Indução de Regras usando C5.0
- Analisando o modelo
- Gerando e analisando um conjunto de regras
- Determinar a acurácia do modelo
- Indução de regras usando CHAID
XIII - Automatizando os modelos para resposta binária
- Criando um campo-resposta dicotômico
- Usando o Nó BINARY CLASSIFIER
XIV - Automatizando os modelos para resposta numérica
- Usando o Nó NUMERIC PREDICTOR
XV - Entendendo o Modelo
- Revisando a acurácia do modelo com o Nó ANALYSIS
- Previsões do modelo para respostas categóricas
- Previsões do modelo para respostas numéricas
XVI - Comparando e combinando modelos
- Comparando os modelos com o Nó ANALYSIS
- Gráficos de avaliação para comparação do modelo
- Combinando os modelos
XVII - Implementando e usando os modelos
- Implementando um modelo
- Exportando os resultados de um modelo
- Avaliando a performance de um modelo
- Tempo de vida de um modelo
- Atualizando um modelo
XVIII - Apêndice A: Opções do IBM SPSS Modeler e Propriedades dos fluxos
-
Opções do IBM SPSS Modeler
- Propriedades dos fluxos
XIX - Apêndice B: executando os comandos IBM SPSS Statistics do IBM SPSS Modeler
- O Nó IBM SPSS Statistics OUTPUT
- Usando um arquivo de sintaxe existente
|