Fluggesellschafts-Datenanalyse - Multi-Task-ML
Dieses Projekt ist eine umfassende Machine-Learning-Analyse von Fluggesellschafts-Daten, implementiert drei verschiedene ML-Aufgaben: binäre Klassifikation, Multi-Klassen-Klassifikation und Regression. Das Projekt vergleicht mehrere Algorithmen (Gaussian Naive Bayes, Categorical Naive Bayes, Linear SVC, Logistische Regression, Random Forest) über alle drei Aufgaben hinweg, mit umfangreicher Modell-Evaluierung, Vergleich und Persistenz. Die Arbeit umfasst Hyperparameter-Tuning, Modell-Auswahl und umfassende Performance-Analyse. Random Forest wurde als bestperformendes Modell für sowohl binäre als auch Multi-Klassen-Klassifikations-Aufgaben identifiziert.
Übersicht
Dieses Projekt ist eine umfassende Machine-Learning-Analyse von Fluggesellschafts-Daten, implementiert drei verschiedene ML-Aufgaben: binäre Klassifikation, Multi-Klassen-Klassifikation und Regression. Das Projekt vergleicht mehrere Algorithmen (Gaussian Naive Bayes, Categorical Naive Bayes, Linear SVC, Logistische Regression, Random Forest) über alle drei Aufgaben hinweg, mit umfangreicher Modell-Evaluierung, Vergleich und Persistenz. Die Arbeit umfasst Hyperparameter-Tuning, Modell-Auswahl und umfassende Performance-Analyse. Random Forest wurde als bestperformendes Modell für sowohl binäre als auch Multi-Klassen-Klassifikations-Aufgaben identifiziert.
Schlüsselfunktionen
Binäre Klassifikation mit 5 Algorithmus-Typen
Multi-Klassen-Klassifikation mit gleicher Algorithmus-Suite
Regressions-Modelle für kontinuierliche Ziele
Hyperparameter-Tuning mit mehreren Modell-Varianten
Beste Modell-Auswahl (Random Forest für Klassifikation)
Umfassender Modell-Vergleich und Evaluierung
Modell-Persistenz und Ergebnis-Speicherung
Visuelle Vergleichs-Plots (Genauigkeit, Exaktheit)
Organisierte Ergebnis-Verzeichnisse (Binaire_Res, Multi_Res, Regression__Res)
Großes Datensatz-Verarbeitung (15MB Fluggesellschafts-Daten)
pages.portfolio.projects.airline_data_analysis_multi_task.features.10
Technische Highlights
Implementierung von 5+ Algorithmen über 3 ML-Aufgaben (binär, Multi-Klassen, Regression)
Identifikation von Random Forest als bestes Modell für Klassifikations-Aufgaben
Erstellung umfassender Modell-Vergleich mit Visualisierungen
Durchführung von Hyperparameter-Tuning mit mehreren Modell-Varianten
Organisation von Modell-Persistenz mit Pickle-Dateien und Berichten
Effiziente Verarbeitung großer Fluggesellschafts-Datensätze (15MB)
Herausforderungen und Lösungen
Algorithmus-Auswahl
Vergleich von 5+ Algorithmen über alle Aufgaben hinweg zur Identifikation bestperformender
Hyperparameter-Tuning
Erstellung mehrerer Modell-Varianten mit Hyperparameter-Tuning und Auswahl bester Modelle
Multi-Task-Evaluierung
Implementierung separater Evaluierungs-Pipelines mit konsistenten Metriken über Aufgaben hinweg
Modell-Persistenz
Organisation von Pickle-Dateien und Berichten in separaten Verzeichnissen für Reproduzierbarkeit
Performance-Vergleich
Erstellung von Vergleichs-Plots, Genauigkeits-Plots und Exaktheits-Plots zur Visualisierung
Große Datensatz-Behandlung
Effiziente Verarbeitung von 15MB Fluggesellschafts-Datensatz mit optimierten Daten-Pipelines
Technologien
ML Models
Tuning
Pipeline
Evaluation
Persistence
Data
Environment
Projektinformationen
- Status
- Completed
- Jahr
- 2024
- Architektur
- Multi-Task-ML-Workflow mit binären, Multi-Klassen- und Regressions-Pipelines
- Category
- Data Science