✈️

Analyse de Données Aériennes - ML Multi-Tâche

Completed 2024 Workflow ML Multi-Tâche avec Pipelines Binaires, Multi-Classes et Régression

Ce projet est une analyse d'apprentissage automatique complète de données aériennes, implémentant trois tâches ML distinctes: classification binaire, classification multi-classes et régression. Le projet compare plusieurs algorithmes (Naive Bayes Gaussian, Naive Bayes Catégoriel, SVC Linéaire, Régression Logistique, Random Forest) à travers les trois tâches, avec évaluation, comparaison et persistance de modèles étendues. Le travail inclut réglage d'hyperparamètres, sélection de modèle et analyse de performance complète. Random Forest a été identifié comme le modèle le plus performant pour les tâches de classification binaire et multi-classes.

Data Science Apprentissage automatique Développement Python Classification Régression Comparaison de Modèles Réglage d'Hyperparamètres

Aperçu

Ce projet est une analyse d'apprentissage automatique complète de données aériennes, implémentant trois tâches ML distinctes: classification binaire, classification multi-classes et régression. Le projet compare plusieurs algorithmes (Naive Bayes Gaussian, Naive Bayes Catégoriel, SVC Linéaire, Régression Logistique, Random Forest) à travers les trois tâches, avec évaluation, comparaison et persistance de modèles étendues. Le travail inclut réglage d'hyperparamètres, sélection de modèle et analyse de performance complète. Random Forest a été identifié comme le modèle le plus performant pour les tâches de classification binaire et multi-classes.

Fonctionnalités clés

Classification binaire avec 5 types d'algorithmes

Classification multi-classes avec même suite d'algorithmes

Modèles de régression pour cibles continues

Réglage d'hyperparamètres avec plusieurs variantes de modèles

Sélection de meilleur modèle (Random Forest pour classification)

Comparaison et évaluation complètes de modèles

Persistance de modèles et stockage de résultats

Graphiques de comparaison visuels (précision, exactitude)

Répertoires de résultats organisés (Binaire_Res, Multi_Res, Regression__Res)

Traitement de grand jeu de données (15MB données aériennes)

pages.portfolio.projects.airline_data_analysis_multi_task.features.10

Principales fonctionnalités

Implémentation de 5+ algorithmes à travers 3 tâches ML (binaire, multi-classes, régression)

Identification de Random Forest comme meilleur modèle pour tâches de classification

Création de comparaison complète de modèles avec visualisations

Réalisation de réglage d'hyperparamètres avec plusieurs variantes de modèles

Organisation de persistance de modèles avec fichiers pickle et rapports

Traitement efficace de grand jeu de données aériennes (15MB)

Défis et solutions

Sélection d'Algorithmes

Comparaison de 5+ algorithmes à travers toutes les tâches pour identifier les meilleurs performeurs

Réglage d'Hyperparamètres

Création de plusieurs variantes de modèles avec réglage d'hyperparamètres et sélection de meilleurs modèles

Évaluation Multi-Tâche

Implémentation de pipelines d'évaluation séparés avec métriques cohérentes à travers les tâches

Persistance de Modèles

Organisation de fichiers pickle et rapports dans répertoires séparés pour reproductibilité

Comparaison de Performance

Création de graphiques de comparaison, graphiques de précision et graphiques d'exactitude pour visualisation

Gestion de Grand Jeu de Données

Traitement efficace de jeu de données aériennes 15MB avec pipelines de données optimisés

Technologies

ML Models

GaussianNB CategoricalNB LinearSVC LogisticRegression RandomForestClassifier

Tuning

GridSearchCV RandomizedSearchCV

Pipeline

Pipeline ColumnTransformer

Evaluation

Classification Reports Regression Metrics Model Comparison

Persistence

Joblib Pickle

Data

Pandas NumPy Matplotlib Seaborn

Environment

Python Jupyter Notebook

Informations du projet

Statut
Completed
Année
2024
Architecture
Workflow ML Multi-Tâche avec Pipelines Binaires, Multi-Classes et Régression
Category
Data Science