| 1 | Fundamentos de Programação em Python História e filosofia do Python; Instalação do ambiente de desenvolvimento; Sintaxe básica e estrutura do programa; Estruturas condicionais: if, else, elif; Estruturas de repetição: for, while; Listas, tuplas e conjuntos; Dicionários e manipulação de strings; Funções: definição, parâmetros e retorno; Módulos e organização de código. | 20 h |
| 2 | Programação em Python para Ciência de Dados Manipulação de dados com NumPy e Pandas; Introdução ao NumPy (arrays, operações matemáticas); Manipulação de DataFrames com Pandas; Leitura e escrita de dados (CSV, Excel, SQL); Indexação e filtragem de dados; Visualização de dados com Matplotlib e Seaborn; Criação de gráficos simples; gráficos estatísticos avançados com Seaborn; Personalização de gráficos (títulos, rótulos, cores); Visualização de séries temporais; Construção de subplots e visualizações complexas. | 20 h |
| 3 | Estatística para Ciência de Dados Introdução à Estatística Descritiva; Conceitos básicos: média, mediana, moda, variância, desvio padrão; Visualização de dados: histogramas, boxplots; Probabilidade para Ciência de Dados; Noções básicas de probabilidade; Distribuições de probabilidade: normal, binomial, Poisson; Teorema do Limite Central; Amostragem e Estimação; Métodos de amostragem; Estimação de parâmetros populacionais; Intervalos de confiança. | 20 h |
| 4 | Teste de Hipótese e Inferência Estatística Introdução à Inferência Estatística; Conceitos fundamentais; População, amostra e parâmetros estatísticos; Tipos de inferência: estimativa e teste de hipóteses; Testes Paramétricos: Teste t de Student (uma e duas amostras), ANOVA; Testes de proporções; Testes Não Paramétricos: Teste de Wilcoxon, Mann-Whitney, Kruskal-Wallis; Qui-Quadrado; Análise de Regressão e Correlação; Construção de intervalos de confiança; Interpretação dos Intervalos; Erros Tipo I e Tipo II; Estratégias para minimizar erros. | 20 h |
| 5 | Bancos de Dados SQL e NoSQL Introdução a Bancos de Dados; Conceitos fundamentais de bancos de dados; Modelagem de dados: entidades, atributos, relacionamentos; Diferença entre bancos de dados SQL e NoSQL; Bancos de Dados Relacionais (SQL); Estrutura de uma tabela e tipos de dados; Consultas SQL: SELECT, WHERE, JOIN; Manipulação de dados: INSERT, UPDATE, DELETE; Índices e otimização de consultas; Modelagem de Dados Relacional; Normalização de Tabelas; Chaves primárias e estrangeiras; Relacionamentos: um para um, um para muitos, muitos para muitos; Bancos de Dados NoSQL; Tipos de bancos de dados NoSQL (documentais, chave-valor, colunares, grafos); Vantagens e desvantagens em comparação com bancos de dados SQL; Exemplos de bancos de dados NoSQL populares. | 20 h |
| 6 | Coleta de Dados Locais, Remoto e Redes Sociais Introdução a ETL (Extração, Transformação e Carga); Definição e importância do ETL; Processo ETL em projetos de dados; Extração de Dados Locais; Importação de dados de fontes locais; Leitura de dados de arquivos CSV, Excel, e bancos de dados locais; Utilização de APIs para extração de dados; Extração de Dados Remotos; Acesso a APIs e serviços web para extração de dados; Integração com fontes de dados na nuvem; Segurança e autenticação em ambientes remotos; Extração de Dados de Redes Sociais; Coleta de dados de plataformas como Twitter, Facebook, e LinkedIn; Utilização de APIs de redes sociais; Tratamento de dados não estruturados. | 20 h |
| 7 | Tratamento de Dados – Feature Engineering, Outiliers Introdução ao Tratamento de Dados; Importância do tratamento de dados em Ciência de Dados; Diferença entre dados brutos e dados preparados; Exploração inicial de dados; Feature Engineering (Engenharia de Características); Seleção e criação de variáveis preditoras; Transformação de variáveis: normalização e padronização; Criação de variáveis dummy para dados categóricos; Tratamento de valores ausentes; Detecção e Tratamento de Outliers; Identificação de outliers: métodos estatísticos e gráficos; Estratégias para lidar com outliers; Impacto dos outliers na modelagem estatística; Técnicas avançadas de detecção de outliers; Transformações Avançadas em Variáveis; Aplicação de log, raiz quadrada e outras transformações; Discretização de variáveis contínuas; Criação de variáveis compostas; Feature Scaling e Normalização; Normalização Min-Max e Z-score; Técnicas de Imputação de Dados; Métodos para preenchimento de valores ausentes; Imputação estatística e por modelo; Avaliação da eficácia das técnicas de imputação. | 20 h |
| 8 | Análise Exploratória de Dados – Análise Univariada Diferenciação entre dados qualitativos e quantitativos; Identificação de variáveis categóricas e numéricas; Transformações de variáveis para análise univariada; Estatísticas Descritivas e Medidas de Tendência Central; Cálculo e interpretação da média, mediana e moda; Uso de medidas de dispersão como desvio padrão e intervalo interquartil; Aplicações práticas em conjuntos de dados reais; Visualização Gráfica para Análise Univariada; Histogramas e gráficos de densidade; Gráficos de caixa (boxplots) e seus insights; Gráficos de barra e setor para variáveis categóricas; Gráficos de dispersão para identificar padrões; Análise de Outliers; Análise Univariada em Dados Categóricos; Tabelas de frequência e porcentagens; Gráficos de barras e diagramas de setor para dados categóricos. | 20 h |
| 9 | Análise Exploratória de Dados – Análise Bivariada Tipos de Variáveis e Medidas de Associação; Variáveis categóricas e quantitativas; Coeficiente de correlação para variáveis quantitativas; Tabelas de contingência e testes de associação para variáveis categóricas; Visualização de Relacionamentos; Gráficos de dispersão para variáveis quantitativas; Gráficos de barras e heatmaps para variáveis categóricas; Box plots e violin plots para comparar distribuições. | 20 h |
| 10 | Aprendizado Supervisionado – Árvores e Florestas Árvores de Decisão; Conceitos básicos de árvores de decisão; Construção de árvores: critérios de divisão, ganho de informação; Podas de árvores para evitar overfitting; Algoritmos de Florestas Aleatórias (Random Forest); Compreensão do conceito de ensemble learning; Estrutura e funcionamento das florestas aleatórias; Parâmetros e ajustes para otimização do modelo; Gradient Boosting; Visão geral do algoritmo de boosting; Gradient Boosting e suas variantes (XGBoost, LightGBM); Ajuste de hiperparâmetros e interpretação dos resultados; Aplicações Práticas de Árvores e Florestas; Implementação de modelos de árvores e florestas em Python; Seleção de características e engenharia de recursos; Avaliação de desempenho e métricas de avaliação; Manuseio de Dados Desbalanceados; Estratégias para lidar com conjuntos de dados desbalanceados; Técnicas de amostragem e ponderação para classes minoritárias; Interpretação de Modelos; Ferramentas para interpretação de modelos de árvores; Análise de importância de características; Visualização de árvores de decisão. | 20 h |
| 11 | Aprendizado Supervisionado – Regressão Linear Regressão Linear Simples; Formulação da regressão linear simples; Estimação de parâmetros: método dos mínimos quadrados; Interpretação dos coeficientes; Regressão Linear Múltipla; Extensão da regressão linear para múltiplas variáveis independentes; Avaliação da multicolinearidade; Interpretação dos resultados em regressão múltipla; Avaliação de Modelos de Regressão; Métricas de desempenho: R², erro quadrático médio (MSE), erro absoluto médio (MAE); Validação cruzada; Overfitting e underfitting; Regularização em Regressão; Regressão Ridge (L2) e Lasso (L1); Escolha de parâmetros de regularização; Comparação entre modelos regularizados e não regularizados. | 20 h |
| 12 | Aprendizado Não Supervisionado – Clusterização Introdução ao Aprendizado Não-Supervisionado; Definição de aprendizado não-supervisionado; Diferenças entre aprendizado supervisionado e não-supervisionado; Aplicações práticas em Ciência de Dados; Conceitos Básicos de Clusterização; Definição de clusterização; Tipos de algoritmos de clusterização; Medidas de similaridade e dissimilaridade; Algoritmos de Clusterização Hierárquica; Aglomerativos vs. Divisivos; Métodos de ligação (single, complete, average); Construção e interpretação de dendrogramas; 4. K-Means e K-Medoids; Princípios do algoritmo K-Means; Seleção de número ideal de clusters (K); Adaptação do K-Medoids para dados não euclidianos; 5. Algoritmos de Mistura de Gaussianas; Modelo probabilístico de clusterização; Expectation-Maximization (EM) para estimativa de parâmetros; Aplicações em modelagem de distribuições complexas. | 20 h |
| 13 | Redes Neurais Artificiais e Deep Learning Introdução a Redes Neurais Artificiais (RNAs); Neurônios e suas interconexões; Arquitetura básica de uma rede neural; Funções de ativação e sua importância; Treinamento de Redes Neurais; Backpropagation: algoritmo fundamental de treinamento; Otimização de pesos e bias; Gradiente descendente e suas variações; Redes Neurais Convolucionais (CNNs); Princípios básicos de convolução; Camadas convolucionais, de pooling e totalmente conectadas; Aplicações em processamento de imagem; Redes Neurais Recorrentes (RNNs); Estrutura temporal em dados; Memória de curto e longo prazo em RNNs; Aplicações em processamento de sequências; Deep Learning e Arquiteturas Avançadas; Visão geral do conceito de Deep Learning; Redes Neurais Profundas (DNNs); Arquiteturas avançadas como autoencoders e redes generativas; Frameworks e Bibliotecas em Deep Learning; Uso de frameworks populares como TensorFlow e PyTorch; Construção e treinamento de modelos com APIs específicas. | 20 h |
| 14 | Amostragem – Downsampling e Upsampling Definição de amostragem em contextos de Ciência de Dados; Importância da amostragem na análise de dados; Comparação entre população e amostra; Downsampling e Upsampling; Conceitos de downsampling (subamostragem) e upsampling (sobreamostragem); Aplicações e cenários adequados para cada técnica; Vantagens e desvantagens de downsampling e upsampling; Técnicas de Downsampling; Random downsampling; Downsampling estratificado; Downsampling baseado em agrupamento (clustering); Técnicas de Upsampling; Duplicação simples de dados; Upsampling sintético (SMOTE – Synthetic Minority Over-sampling Technique) Upsampling baseado em interpolação. | 20 h |
| 15 | Processamento de Linguagem Natural Introdução ao Processamento de Linguagem Natural (PLN); Definição e escopo do PLN; Aplicações práticas em diferentes setores; Desafios e complexidades no processamento de linguagem natural; Pré-processamento de Texto com NLTK; Tokenização de texto; Remoção de stop words; Stemming e lematização; Transformação de texto em minúsculas; Análise de Frequência de Palavras; Construção de histogramas de palavras; Identificação de palavras mais frequentes; Visualização de nuvens de palavras; Extração de Recursos de Texto; Identificação de entidades nomeadas; Análise de Sentimentos; Extração de termos-chave; Modelagem de Tópicos; Utilização de modelos como o Latent Dirichlet Allocation (LDA); Aplicação em documentos textuais; Interpretação e avaliação dos resultados; Classificação de Texto com NLTK; Preparação de dados para classificação; Implementação de classificadores usando o NLTK; Avaliação de desempenho; Processamento de Linguagem Natural em Aplicações Práticas; Desenvolvimento de chatbots simples; Análise de Sentimentos em Redes Sociais; Aplicações em sistemas de recomendação baseados em texto; Combinação do NLTK com outras bibliotecas como NumPy e Pandas. | 20 h |
| 16 | Ensembles e Avaliação de Desempenho de Modelos Noções básicas de treinamento e teste de modelos; Ensembles: Conceitos Básicos; Definição de ensembles e sua importância; Tipos de ensembles: bagging, boosting, stacking; Random Forest como exemplo de ensemble; Bagging e Random Forest; Bagging: Bootstrap Aggregating; Random Forest: construção e aplicação; Vantagens e desvantagens; Boosting e Gradient Boosting; Princípios do boosting; Gradient Boosting: algoritmo e implementação; XGBoost e LightGBM como variantes populares; Stacking e Modelos Ensemble Avançados; Stacking: combinação de modelos; Modelos ensemble avançados (por exemplo, Ensemble de Redes Neurais); Estratégias para construção de ensembles personalizados; Avaliação de Desempenho de Modelos; Métricas comuns: acurácia, precisão, recall, F1-score; Curvas ROC e AUC; Matriz de Confusão e interpretação de resultados; Validação Cruzada e Overfitting; Técnicas de validação cruzada; Identificação e mitigação de overfitting. | 20 h |
| 17 | Otimização e Tuning Introdução à Otimização de Hiperparâmetros; Definição de hiperparâmetros e sua importância; O papel da otimização na melhoria do desempenho do modelo; Seleção de Hiperparâmetros Manual; Avaliação de hiperparâmetros com base na intuição; Experimentação manual para ajuste fino; Otimização Automática de Hiperparâmetros; Algoritmos de otimização como Grid Search e Random Search; Ferramentas e bibliotecas em Python para otimização automática; | 20 h |
| 18 | Otimização Bayesiana; Fundamentos da otimização bayesiana; Implementação prática com bibliotecas como scikit-optimize ou hyperopt; Tuning de Hiperparâmetros para Algoritmos Específicos; Ajuste de hiperparâmetros em algoritmos populares (por exemplo, Random Forest, SVM, Redes Neurais); Estratégias específicas para diferentes tipos de modelos; Feature Engineering e Otimização; Automatização do Processo de Tuning; Desenvolvimento de pipelines automatizados de tuning de hiperparâmetros.
Inteligência de Negócios e Report Executivo Técnicas de interpretação de dados para extração de insights; Análise de tendências e padrões relevantes para o negócio; Uso de ferramentas analíticas para descoberta de informações valiosas; Elaboração de Recomendações Estratégicas; Desenvolvimento de recomendações baseadas em análises de dados; Identificação de áreas de melhoria e oportunidades de crescimento; Formulação de estratégias orientadas por dados para impulsionar o sucesso do negócio; Apresentação de Resultados para Tomada de Decisão; Estratégias de apresentação de dados de forma persuasiva; Uso de visualizações de dados eficazes; Abordagem prática para transformar insights em ações tangíveis. | 20 h |