✈️

Fluggesellschafts-Datenanalyse - Multi-Task-ML

Completed 2024 Multi-Task-ML-Workflow mit binären, Multi-Klassen- und Regressions-Pipelines

Dieses Projekt ist eine umfassende Machine-Learning-Analyse von Fluggesellschafts-Daten, implementiert drei verschiedene ML-Aufgaben: binäre Klassifikation, Multi-Klassen-Klassifikation und Regression. Das Projekt vergleicht mehrere Algorithmen (Gaussian Naive Bayes, Categorical Naive Bayes, Linear SVC, Logistische Regression, Random Forest) über alle drei Aufgaben hinweg, mit umfangreicher Modell-Evaluierung, Vergleich und Persistenz. Die Arbeit umfasst Hyperparameter-Tuning, Modell-Auswahl und umfassende Performance-Analyse. Random Forest wurde als bestperformendes Modell für sowohl binäre als auch Multi-Klassen-Klassifikations-Aufgaben identifiziert.

Data Science Maschinelles Lernen Python-Entwicklung Klassifikation Regression Modell-Vergleich Hyperparameter-Tuning

Übersicht

Dieses Projekt ist eine umfassende Machine-Learning-Analyse von Fluggesellschafts-Daten, implementiert drei verschiedene ML-Aufgaben: binäre Klassifikation, Multi-Klassen-Klassifikation und Regression. Das Projekt vergleicht mehrere Algorithmen (Gaussian Naive Bayes, Categorical Naive Bayes, Linear SVC, Logistische Regression, Random Forest) über alle drei Aufgaben hinweg, mit umfangreicher Modell-Evaluierung, Vergleich und Persistenz. Die Arbeit umfasst Hyperparameter-Tuning, Modell-Auswahl und umfassende Performance-Analyse. Random Forest wurde als bestperformendes Modell für sowohl binäre als auch Multi-Klassen-Klassifikations-Aufgaben identifiziert.

Schlüsselfunktionen

Binäre Klassifikation mit 5 Algorithmus-Typen

Multi-Klassen-Klassifikation mit gleicher Algorithmus-Suite

Regressions-Modelle für kontinuierliche Ziele

Hyperparameter-Tuning mit mehreren Modell-Varianten

Beste Modell-Auswahl (Random Forest für Klassifikation)

Umfassender Modell-Vergleich und Evaluierung

Modell-Persistenz und Ergebnis-Speicherung

Visuelle Vergleichs-Plots (Genauigkeit, Exaktheit)

Organisierte Ergebnis-Verzeichnisse (Binaire_Res, Multi_Res, Regression__Res)

Großes Datensatz-Verarbeitung (15MB Fluggesellschafts-Daten)

pages.portfolio.projects.airline_data_analysis_multi_task.features.10

Technische Highlights

Implementierung von 5+ Algorithmen über 3 ML-Aufgaben (binär, Multi-Klassen, Regression)

Identifikation von Random Forest als bestes Modell für Klassifikations-Aufgaben

Erstellung umfassender Modell-Vergleich mit Visualisierungen

Durchführung von Hyperparameter-Tuning mit mehreren Modell-Varianten

Organisation von Modell-Persistenz mit Pickle-Dateien und Berichten

Effiziente Verarbeitung großer Fluggesellschafts-Datensätze (15MB)

Herausforderungen und Lösungen

Algorithmus-Auswahl

Vergleich von 5+ Algorithmen über alle Aufgaben hinweg zur Identifikation bestperformender

Hyperparameter-Tuning

Erstellung mehrerer Modell-Varianten mit Hyperparameter-Tuning und Auswahl bester Modelle

Multi-Task-Evaluierung

Implementierung separater Evaluierungs-Pipelines mit konsistenten Metriken über Aufgaben hinweg

Modell-Persistenz

Organisation von Pickle-Dateien und Berichten in separaten Verzeichnissen für Reproduzierbarkeit

Performance-Vergleich

Erstellung von Vergleichs-Plots, Genauigkeits-Plots und Exaktheits-Plots zur Visualisierung

Große Datensatz-Behandlung

Effiziente Verarbeitung von 15MB Fluggesellschafts-Datensatz mit optimierten Daten-Pipelines

Technologien

ML Models

GaussianNB CategoricalNB LinearSVC LogisticRegression RandomForestClassifier

Tuning

GridSearchCV RandomizedSearchCV

Pipeline

Pipeline ColumnTransformer

Evaluation

Classification Reports Regression Metrics Model Comparison

Persistence

Joblib Pickle

Data

Pandas NumPy Matplotlib Seaborn

Environment

Python Jupyter Notebook

Projektinformationen

Status
Completed
Jahr
2024
Architektur
Multi-Task-ML-Workflow mit binären, Multi-Klassen- und Regressions-Pipelines
Category
Data Science