✈️

Fluggesellschafts-Datenanalyse - Multi-Task-ML

Completed 2024 • Multi-Task-ML-Workflow mit binären, Multi-Klassen- und Regressions-Pipelines

Dieses Projekt ist eine umfassende Machine-Learning-Analyse von Fluggesellschafts-Daten, implementiert drei verschiedene ML-Aufgaben: binäre Klassifikation, Multi-Klassen-Klassifikation und Regression. Das Projekt vergleicht mehrere Algorithmen (Gaussian Naive Bayes, Categorical Naive Bayes, Linear SVC, Logistische Regression, Random Forest) über alle drei Aufgaben hinweg, mit umfangreicher Modell-Evaluierung, Vergleich und Persistenz. Die Arbeit umfasst Hyperparameter-Tuning, Modell-Auswahl und umfassende Performance-Analyse. Random Forest wurde als bestperformendes Modell für sowohl binäre als auch Multi-Klassen-Klassifikations-Aufgaben identifiziert.

Data Science Maschinelles Lernen Python-Entwicklung Klassifikation Regression Modell-Vergleich Hyperparameter-Tuning

Übersicht

Schlüsselfunktionen

✓

Binäre Klassifikation mit 5 Algorithmus-Typen

✓

Multi-Klassen-Klassifikation mit gleicher Algorithmus-Suite

✓

Regressions-Modelle für kontinuierliche Ziele

✓

Hyperparameter-Tuning mit mehreren Modell-Varianten

✓

Beste Modell-Auswahl (Random Forest für Klassifikation)

✓

Umfassender Modell-Vergleich und Evaluierung

✓

Modell-Persistenz und Ergebnis-Speicherung

✓

Visuelle Vergleichs-Plots (Genauigkeit, Exaktheit)

✓

Organisierte Ergebnis-Verzeichnisse (Binaire_Res, Multi_Res, Regression__Res)

✓

Großes Datensatz-Verarbeitung (15MB Fluggesellschafts-Daten)

✓

pages.portfolio.projects.airline_data_analysis_multi_task.features.10

Technische Highlights

⚡

Implementierung von 5+ Algorithmen über 3 ML-Aufgaben (binär, Multi-Klassen, Regression)

⚡

Identifikation von Random Forest als bestes Modell für Klassifikations-Aufgaben

⚡

Erstellung umfassender Modell-Vergleich mit Visualisierungen

⚡

Durchführung von Hyperparameter-Tuning mit mehreren Modell-Varianten

⚡

Organisation von Modell-Persistenz mit Pickle-Dateien und Berichten

⚡

Effiziente Verarbeitung großer Fluggesellschafts-Datensätze (15MB)

Herausforderungen und Lösungen

Algorithmus-Auswahl

Vergleich von 5+ Algorithmen über alle Aufgaben hinweg zur Identifikation bestperformender

Hyperparameter-Tuning

Erstellung mehrerer Modell-Varianten mit Hyperparameter-Tuning und Auswahl bester Modelle

Multi-Task-Evaluierung

Implementierung separater Evaluierungs-Pipelines mit konsistenten Metriken über Aufgaben hinweg

Modell-Persistenz

Organisation von Pickle-Dateien und Berichten in separaten Verzeichnissen für Reproduzierbarkeit

Performance-Vergleich

Erstellung von Vergleichs-Plots, Genauigkeits-Plots und Exaktheits-Plots zur Visualisierung

Große Datensatz-Behandlung

Effiziente Verarbeitung von 15MB Fluggesellschafts-Datensatz mit optimierten Daten-Pipelines

Technologien

ML Models

GaussianNB CategoricalNB LinearSVC LogisticRegression RandomForestClassifier

Tuning

GridSearchCV RandomizedSearchCV

Pipeline

Pipeline ColumnTransformer

Evaluation

Classification Reports Regression Metrics Model Comparison

Persistence

Joblib Pickle

Data

Pandas NumPy Matplotlib Seaborn

Environment

Python Jupyter Notebook

Projektinformationen

Status: Completed
Jahr: 2024
Architektur: Multi-Task-ML-Workflow mit binären, Multi-Klassen- und Regressions-Pipelines
Category: Data Science

Zurück zu Portfolio Projekte anzeigen Data Science