❤️

Prétraitement des Données de Maladie Cardiaque

Completed 2024 Architecture de Prétraitement Basée sur Pipeline

Ce projet se concentre sur le prétraitement du jeu de données Heart Disease UCI pour l'entraînement de modèles d'apprentissage automatique. Le notebook démontre des techniques de prétraitement de données complètes incluant analyse exploratoire des données (EDA), transformation de données, imputation de valeurs manquantes, encodage de caractéristiques et création de pipeline. Le projet prépare le jeu de données pour la modélisation prédictive en gérant différents types de variables (numériques, catégorielles, ordinales, binaires) et en créant un pipeline de prétraitement réutilisable utilisant Pipeline et ColumnTransformer de scikit-learn.

Data Science Apprentissage automatique Développement Python Ingénierie Logicielle Prétraitement de Données Analyse de Santé

Aperçu

Ce projet se concentre sur le prétraitement du jeu de données Heart Disease UCI pour l'entraînement de modèles d'apprentissage automatique. Le notebook démontre des techniques de prétraitement de données complètes incluant analyse exploratoire des données (EDA), transformation de données, imputation de valeurs manquantes, encodage de caractéristiques et création de pipeline. Le projet prépare le jeu de données pour la modélisation prédictive en gérant différents types de variables (numériques, catégorielles, ordinales, binaires) et en créant un pipeline de prétraitement réutilisable utilisant Pipeline et ColumnTransformer de scikit-learn.

Fonctionnalités clés

Analyse exploratoire de données complète (EDA) avec visualisations

Pipelines de prétraitement spécifiques au type (numérique, catégoriel, ordinal, binaire)

Imputation de valeurs manquantes avec stratégies appropriées

Encodage de caractéristiques (One-Hot Encoding, Ordinal Encoding)

Normalisation de données utilisant MinMaxScaler

Division train/test avec stratification pour classes équilibrées

Prétraitement unifié avec ColumnTransformer

Export de jeux de données prétraités pour entraînement de modèle

Analyse de corrélation et visualisations bivariées

Principales fonctionnalités

Création de pipelines de prétraitement spécifiques au type pour différents types de variables

Implémentation d'un workflow de prétraitement unifié utilisant ColumnTransformer

Réalisation d'une EDA complète avec analyse de corrélation et visualisations

Application de stratégies d'imputation appropriées pour valeurs manquantes

Utilisation de division train/test stratifiée pour maintenir la distribution de classes

Prévention de fuite de données en ajustant uniquement sur données d'entraînement

Défis et solutions

Traitement Spécifique au Type

Création de pipelines séparés pour variables numériques, catégorielles, ordinales et binaires

Gestion des Valeurs Manquantes

Application de stratégies d'imputation appropriées (moyenne pour numérique, plus_frequent pour catégoriel)

Encodage de Caractéristiques

Utilisation de OneHotEncoder pour catégoriel et OrdinalEncoder pour variables ordinales

Prévention de Fuite de Données

Assurance que l'ensemble de test n'influence pas le prétraitement en ajustant uniquement sur données d'entraînement

Technologies

Data Processing

Pandas NumPy

Machine Learning

Scikit-learn Pipeline ColumnTransformer

Preprocessing

SimpleImputer MinMaxScaler OneHotEncoder OrdinalEncoder

Visualization

Matplotlib Seaborn

Environment

Python Jupyter Notebook

Informations du projet

Statut
Completed
Année
2024
Architecture
Architecture de Prétraitement Basée sur Pipeline
Category
Data Science