💎

Twitter-Klassifikation & Diamant-Preis-Vorhersage

Completed 2024 • Dual-Task-ML-Workflow mit Klassifikations- und Regressions-Pipelines

Dieses Projekt enthält zwei verschiedene Machine-Learning-Aufgaben: (1) Twitter-Textklassifikation mit Random Forest auf präprozessierten Twitter-Daten, erreicht ~87% Genauigkeit mit 3 Klassen, und (2) Diamant-Preis-Vorhersage mit Regressions-Modellen auf einem Datensatz von 53.940 Diamanten. Die Twitter-Klassifikation baut auf vorheriger Präprozessierungs-Arbeit auf, während die Diamant-Vorhersage Regressions-Techniken auf strukturierten Daten mit gemischten Feature-Typen (numerisch und ordinal) demonstriert. Das Projekt zeigt Feature-Importanz-Analyse, ordnungsgemäße Handhabung gemischter Datentypen und umfassende Datenexploration.

Data Science Maschinelles Lernen Python-Entwicklung Textklassifikation Regression Feature-Engineering Modell-Evaluierung

Übersicht

Schlüsselfunktionen

✓

Random Forest-Klassifikation für Twitter-Daten (~87% Genauigkeit)

✓

Multi-Klassen-Klassifikation mit 3 Klassen

✓

Feature-Importanz-Analyse (Top 20 Features)

✓

Diamant-Preis-Vorhersage-Regression

✓

Gemischte Datentyp-Behandlung (numerisch und ordinal)

✓

Datenexploration und Visualisierung

✓

Strukturierte Präprozessierungs-Pipelines

✓

Train/Test-Split mit optionaler Validierung

✓

Umfassende Evaluierungsmetriken

✓

Modell-Interpretierbarkeits-Insights

✓

pages.portfolio.projects.twitter_classification_diamond_prediction.features.10

Technische Highlights

⚡

Implementierung von Random Forest für Twitter-Klassifikation mit ~87% Genauigkeit

⚡

Aufbau Regressions-Pipeline für Diamant-Preis-Vorhersage auf 53.940 Stichproben

⚡

Analyse von Feature-Importanz für Modell-Interpretierbarkeit

⚡

Handhabung gemischter Datentypen mit separaten Präprozessierungs-Pipelines

⚡

Durchführung umfassender Datenexploration und Visualisierung

⚡

Demonstration Dual-Task-ML-Workflow (Klassifikation und Regression)

Herausforderungen und Lösungen

Klassen-Ungleichgewicht

Random Forest handhabte ungleichmäßige Klassen-Verteilung über 3 Klassen effektiv

Gemischte Datentypen

Erstellung separater Präprozessierungs-Pipelines für numerische und ordinale Features mit ColumnTransformer

Feature-Importanz-Kompatibilität

Dokumentation und Handhabung scikit-learn-Versions-Kompatibilität für Feature-Importanz-Attribute

Preis-Verteilung

Verwendung von Datenvisualisierung und angemessenen Regressions-Techniken für schiefe Preis-Verteilung

Ordinale Feature-Kodierung

Anwendung von OrdinalEncoder zur Erhaltung ordinaler Beziehungen in Cut-, Color- und Clarity-Features

Dimensions-Analyse

Erkundung von Beziehungen zwischen Dimensionen (x, y, z) und Preis unter Verwendung von Streudiagrammen und Histogrammen

Technologien

ML Models

RandomForestClassifier Regression Models

Preprocessing

MinMaxScaler OrdinalEncoder Custom Transformers

Pipeline

Pipeline ColumnTransformer

Analysis

Feature Importance Data Visualization

Data

Pandas NumPy Matplotlib

Environment

Python Jupyter Notebook Joblib

Projektinformationen

Status: Completed
Jahr: 2024
Architektur: Dual-Task-ML-Workflow mit Klassifikations- und Regressions-Pipelines
Category: Data Science

Zurück zu Portfolio Projekte anzeigen Data Science