Prétraitement des Données de Maladie Cardiaque
Ce projet se concentre sur le prétraitement du jeu de données Heart Disease UCI pour l'entraînement de modèles d'apprentissage automatique. Le notebook démontre des techniques de prétraitement de données complètes incluant analyse exploratoire des données (EDA), transformation de données, imputation de valeurs manquantes, encodage de caractéristiques et création de pipeline. Le projet prépare le jeu de données pour la modélisation prédictive en gérant différents types de variables (numériques, catégorielles, ordinales, binaires) et en créant un pipeline de prétraitement réutilisable utilisant Pipeline et ColumnTransformer de scikit-learn.
Aperçu
Ce projet se concentre sur le prétraitement du jeu de données Heart Disease UCI pour l'entraînement de modèles d'apprentissage automatique. Le notebook démontre des techniques de prétraitement de données complètes incluant analyse exploratoire des données (EDA), transformation de données, imputation de valeurs manquantes, encodage de caractéristiques et création de pipeline. Le projet prépare le jeu de données pour la modélisation prédictive en gérant différents types de variables (numériques, catégorielles, ordinales, binaires) et en créant un pipeline de prétraitement réutilisable utilisant Pipeline et ColumnTransformer de scikit-learn.
Fonctionnalités clés
Analyse exploratoire de données complète (EDA) avec visualisations
Pipelines de prétraitement spécifiques au type (numérique, catégoriel, ordinal, binaire)
Imputation de valeurs manquantes avec stratégies appropriées
Encodage de caractéristiques (One-Hot Encoding, Ordinal Encoding)
Normalisation de données utilisant MinMaxScaler
Division train/test avec stratification pour classes équilibrées
Prétraitement unifié avec ColumnTransformer
Export de jeux de données prétraités pour entraînement de modèle
Analyse de corrélation et visualisations bivariées
Principales fonctionnalités
Création de pipelines de prétraitement spécifiques au type pour différents types de variables
Implémentation d'un workflow de prétraitement unifié utilisant ColumnTransformer
Réalisation d'une EDA complète avec analyse de corrélation et visualisations
Application de stratégies d'imputation appropriées pour valeurs manquantes
Utilisation de division train/test stratifiée pour maintenir la distribution de classes
Prévention de fuite de données en ajustant uniquement sur données d'entraînement
Défis et solutions
Traitement Spécifique au Type
Création de pipelines séparés pour variables numériques, catégorielles, ordinales et binaires
Gestion des Valeurs Manquantes
Application de stratégies d'imputation appropriées (moyenne pour numérique, plus_frequent pour catégoriel)
Encodage de Caractéristiques
Utilisation de OneHotEncoder pour catégoriel et OrdinalEncoder pour variables ordinales
Prévention de Fuite de Données
Assurance que l'ensemble de test n'influence pas le prétraitement en ajustant uniquement sur données d'entraînement
Technologies
Data Processing
Machine Learning
Preprocessing
Visualization
Environment
Informations du projet
- Statut
- Completed
- Année
- 2024
- Architecture
- Architecture de Prétraitement Basée sur Pipeline
- Category
- Data Science