Analyse de Données Aériennes - ML Multi-Tâche
Ce projet est une analyse d'apprentissage automatique complète de données aériennes, implémentant trois tâches ML distinctes: classification binaire, classification multi-classes et régression. Le projet compare plusieurs algorithmes (Naive Bayes Gaussian, Naive Bayes Catégoriel, SVC Linéaire, Régression Logistique, Random Forest) à travers les trois tâches, avec évaluation, comparaison et persistance de modèles étendues. Le travail inclut réglage d'hyperparamètres, sélection de modèle et analyse de performance complète. Random Forest a été identifié comme le modèle le plus performant pour les tâches de classification binaire et multi-classes.
Aperçu
Ce projet est une analyse d'apprentissage automatique complète de données aériennes, implémentant trois tâches ML distinctes: classification binaire, classification multi-classes et régression. Le projet compare plusieurs algorithmes (Naive Bayes Gaussian, Naive Bayes Catégoriel, SVC Linéaire, Régression Logistique, Random Forest) à travers les trois tâches, avec évaluation, comparaison et persistance de modèles étendues. Le travail inclut réglage d'hyperparamètres, sélection de modèle et analyse de performance complète. Random Forest a été identifié comme le modèle le plus performant pour les tâches de classification binaire et multi-classes.
Fonctionnalités clés
Classification binaire avec 5 types d'algorithmes
Classification multi-classes avec même suite d'algorithmes
Modèles de régression pour cibles continues
Réglage d'hyperparamètres avec plusieurs variantes de modèles
Sélection de meilleur modèle (Random Forest pour classification)
Comparaison et évaluation complètes de modèles
Persistance de modèles et stockage de résultats
Graphiques de comparaison visuels (précision, exactitude)
Répertoires de résultats organisés (Binaire_Res, Multi_Res, Regression__Res)
Traitement de grand jeu de données (15MB données aériennes)
pages.portfolio.projects.airline_data_analysis_multi_task.features.10
Principales fonctionnalités
Implémentation de 5+ algorithmes à travers 3 tâches ML (binaire, multi-classes, régression)
Identification de Random Forest comme meilleur modèle pour tâches de classification
Création de comparaison complète de modèles avec visualisations
Réalisation de réglage d'hyperparamètres avec plusieurs variantes de modèles
Organisation de persistance de modèles avec fichiers pickle et rapports
Traitement efficace de grand jeu de données aériennes (15MB)
Défis et solutions
Sélection d'Algorithmes
Comparaison de 5+ algorithmes à travers toutes les tâches pour identifier les meilleurs performeurs
Réglage d'Hyperparamètres
Création de plusieurs variantes de modèles avec réglage d'hyperparamètres et sélection de meilleurs modèles
Évaluation Multi-Tâche
Implémentation de pipelines d'évaluation séparés avec métriques cohérentes à travers les tâches
Persistance de Modèles
Organisation de fichiers pickle et rapports dans répertoires séparés pour reproductibilité
Comparaison de Performance
Création de graphiques de comparaison, graphiques de précision et graphiques d'exactitude pour visualisation
Gestion de Grand Jeu de Données
Traitement efficace de jeu de données aériennes 15MB avec pipelines de données optimisés
Technologies
ML Models
Tuning
Pipeline
Evaluation
Persistence
Data
Environment
Informations du projet
- Statut
- Completed
- Année
- 2024
- Architecture
- Workflow ML Multi-Tâche avec Pipelines Binaires, Multi-Classes et Régression
- Category
- Data Science