MAPA – CDAC – ANÁLISE PREDITIVA E CLASSIFICAÇÃO – 53_2025
Olá, estudante!
Nesta atividade MAPA, você terá a oportunidade de colocar em prática seus conhecimentos. A proposta simula um desafio real do mercado, no qual é necessário compreender, preparar e analisar dados para gerar valor e insights relevantes.
Você terá que desenvolver um projeto completo de análise preditiva e classificação, baseado em uma base de dados semelhante à famosa *Iris Dataset*.
O objetivo principal é aplicar todos os conceitos vistos ao longo do curso, incluindo:
– Limpeza e pré-processamento de dados.
– Análise exploratória (EDA).
– Mineração e vetorização de textos (se houver colunas textuais).
– Criação de modelo preditivo.
– Avaliação do modelo.
– Explicação e interpretação dos resultados.
Base de Dados
Você deverá utilizar um conjunto de dados real do Kaggle.
[Base de Dados – Iris Species](https://www.kaggle.com/datasets/uciml/iris)
Etapas Obrigatórias do Projeto
1. Importação e leitura dos dados.
2. Análise exploratória com visualizações.
3. Tratamento de valores ausentes, duplicados e outliers.
4. Codificação de variáveis categóricas (se necessário).
5. Pré-processamento para classificação (scaling, vetorização se houver texto).
6. Divisão entre treino e teste.
7. Criação de pelo menos dois modelos classificadores.
8. Avaliação de performance com métricas.
9. Conclusão com insights e interpretação.
10. Documentação clara e bem comentada.
Dicas
– Explore bem os gráficos como `pairplot`, `heatmap`, `scatter`, `boxplot`.
– Avalie o desempenho com **accuracy, f1-score, matriz de confusão**.
– Utilize `train_test_split`, `StandardScaler`, `CountVectorizer`, `LogisticRegression`, `RandomForestClassifier`, `Naive Bayes`, entre outros.
– Justifique as escolhas de modelo e mostre o raciocínio por trás das decisões.
Para a entrega da atividade siga as seguintes orientações.
1. Importação e Leitura dos Dados
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
url = ‘https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv’
df.head(
# 2. Análise Exploratória (EDA)
# Estatísticas descritivas
# Informações do DataFrame
# Gráfico de pares
plt.show()
# Heatmap de correlação (apenas colunas numéricas)
plt.show()
3. Limpeza de Dados
df.isnull().sum()
df.duplicated().sum()
df.drop_duplicates(inplace=True)
Pré-processamento
from sklearn.preprocessing import LabelEncoder, StandardScaler


