✈️

Analyse de Données Aériennes - ML Multi-Tâche

Completed 2024 • Workflow ML Multi-Tâche avec Pipelines Binaires, Multi-Classes et Régression

Ce projet est une analyse d'apprentissage automatique complète de données aériennes, implémentant trois tâches ML distinctes: classification binaire, classification multi-classes et régression. Le projet compare plusieurs algorithmes (Naive Bayes Gaussian, Naive Bayes Catégoriel, SVC Linéaire, Régression Logistique, Random Forest) à travers les trois tâches, avec évaluation, comparaison et persistance de modèles étendues. Le travail inclut réglage d'hyperparamètres, sélection de modèle et analyse de performance complète. Random Forest a été identifié comme le modèle le plus performant pour les tâches de classification binaire et multi-classes.

Data Science Apprentissage automatique Développement Python Classification Régression Comparaison de Modèles Réglage d'Hyperparamètres

Aperçu

Fonctionnalités clés

✓

Classification binaire avec 5 types d'algorithmes

✓

Classification multi-classes avec même suite d'algorithmes

✓

Modèles de régression pour cibles continues

✓

Réglage d'hyperparamètres avec plusieurs variantes de modèles

✓

Sélection de meilleur modèle (Random Forest pour classification)

✓

Comparaison et évaluation complètes de modèles

✓

Persistance de modèles et stockage de résultats

✓

Graphiques de comparaison visuels (précision, exactitude)

✓

Répertoires de résultats organisés (Binaire_Res, Multi_Res, Regression__Res)

✓

Traitement de grand jeu de données (15MB données aériennes)

✓

pages.portfolio.projects.airline_data_analysis_multi_task.features.10

Principales fonctionnalités

⚡

Implémentation de 5+ algorithmes à travers 3 tâches ML (binaire, multi-classes, régression)

⚡

Identification de Random Forest comme meilleur modèle pour tâches de classification

⚡

Création de comparaison complète de modèles avec visualisations

⚡

Réalisation de réglage d'hyperparamètres avec plusieurs variantes de modèles

⚡

Organisation de persistance de modèles avec fichiers pickle et rapports

⚡

Traitement efficace de grand jeu de données aériennes (15MB)

Défis et solutions

Sélection d'Algorithmes

Comparaison de 5+ algorithmes à travers toutes les tâches pour identifier les meilleurs performeurs

Réglage d'Hyperparamètres

Création de plusieurs variantes de modèles avec réglage d'hyperparamètres et sélection de meilleurs modèles

Évaluation Multi-Tâche

Implémentation de pipelines d'évaluation séparés avec métriques cohérentes à travers les tâches

Persistance de Modèles

Organisation de fichiers pickle et rapports dans répertoires séparés pour reproductibilité

Comparaison de Performance

Création de graphiques de comparaison, graphiques de précision et graphiques d'exactitude pour visualisation

Gestion de Grand Jeu de Données

Traitement efficace de jeu de données aériennes 15MB avec pipelines de données optimisés

Technologies

ML Models

GaussianNB CategoricalNB LinearSVC LogisticRegression RandomForestClassifier

Tuning

GridSearchCV RandomizedSearchCV

Pipeline

Pipeline ColumnTransformer

Evaluation

Classification Reports Regression Metrics Model Comparison

Persistence

Joblib Pickle

Data

Pandas NumPy Matplotlib Seaborn

Environment

Python Jupyter Notebook

Informations du projet

Statut: Completed
Année: 2024
Architecture: Workflow ML Multi-Tâche avec Pipelines Binaires, Multi-Classes et Régression
Category: Data Science

Retour à Portfolio Voir les projets Data Science