❤️

Prétraitement des Données de Maladie Cardiaque

Completed 2024 • Architecture de Prétraitement Basée sur Pipeline

Ce projet se concentre sur le prétraitement du jeu de données Heart Disease UCI pour l'entraînement de modèles d'apprentissage automatique. Le notebook démontre des techniques de prétraitement de données complètes incluant analyse exploratoire des données (EDA), transformation de données, imputation de valeurs manquantes, encodage de caractéristiques et création de pipeline. Le projet prépare le jeu de données pour la modélisation prédictive en gérant différents types de variables (numériques, catégorielles, ordinales, binaires) et en créant un pipeline de prétraitement réutilisable utilisant Pipeline et ColumnTransformer de scikit-learn.

Data Science Apprentissage automatique Développement Python Ingénierie Logicielle Prétraitement de Données Analyse de Santé

Aperçu

Fonctionnalités clés

✓

Analyse exploratoire de données complète (EDA) avec visualisations

✓

Pipelines de prétraitement spécifiques au type (numérique, catégoriel, ordinal, binaire)

✓

Imputation de valeurs manquantes avec stratégies appropriées

✓

Encodage de caractéristiques (One-Hot Encoding, Ordinal Encoding)

✓

Normalisation de données utilisant MinMaxScaler

✓

Division train/test avec stratification pour classes équilibrées

✓

Prétraitement unifié avec ColumnTransformer

✓

Export de jeux de données prétraités pour entraînement de modèle

✓

Analyse de corrélation et visualisations bivariées

Principales fonctionnalités

⚡

Création de pipelines de prétraitement spécifiques au type pour différents types de variables

⚡

Implémentation d'un workflow de prétraitement unifié utilisant ColumnTransformer

⚡

Réalisation d'une EDA complète avec analyse de corrélation et visualisations

⚡

Application de stratégies d'imputation appropriées pour valeurs manquantes

⚡

Utilisation de division train/test stratifiée pour maintenir la distribution de classes

⚡

Prévention de fuite de données en ajustant uniquement sur données d'entraînement

Défis et solutions

Traitement Spécifique au Type

Création de pipelines séparés pour variables numériques, catégorielles, ordinales et binaires

Gestion des Valeurs Manquantes

Application de stratégies d'imputation appropriées (moyenne pour numérique, plus_frequent pour catégoriel)

Encodage de Caractéristiques

Utilisation de OneHotEncoder pour catégoriel et OrdinalEncoder pour variables ordinales

Prévention de Fuite de Données

Assurance que l'ensemble de test n'influence pas le prétraitement en ajustant uniquement sur données d'entraînement

Technologies

Data Processing

Pandas NumPy

Machine Learning

Scikit-learn Pipeline ColumnTransformer

Preprocessing

SimpleImputer MinMaxScaler OneHotEncoder OrdinalEncoder

Visualization

Matplotlib Seaborn

Environment

Python Jupyter Notebook

Informations du projet

Statut: Completed
Année: 2024
Architecture: Architecture de Prétraitement Basée sur Pipeline
Category: Data Science

Retour à Portfolio Voir les projets Data Science