💎

Twitter-Klassifikation & Diamant-Preis-Vorhersage

Completed 2024 Dual-Task-ML-Workflow mit Klassifikations- und Regressions-Pipelines

Dieses Projekt enthält zwei verschiedene Machine-Learning-Aufgaben: (1) Twitter-Textklassifikation mit Random Forest auf präprozessierten Twitter-Daten, erreicht ~87% Genauigkeit mit 3 Klassen, und (2) Diamant-Preis-Vorhersage mit Regressions-Modellen auf einem Datensatz von 53.940 Diamanten. Die Twitter-Klassifikation baut auf vorheriger Präprozessierungs-Arbeit auf, während die Diamant-Vorhersage Regressions-Techniken auf strukturierten Daten mit gemischten Feature-Typen (numerisch und ordinal) demonstriert. Das Projekt zeigt Feature-Importanz-Analyse, ordnungsgemäße Handhabung gemischter Datentypen und umfassende Datenexploration.

Data Science Maschinelles Lernen Python-Entwicklung Textklassifikation Regression Feature-Engineering Modell-Evaluierung

Übersicht

Dieses Projekt enthält zwei verschiedene Machine-Learning-Aufgaben: (1) Twitter-Textklassifikation mit Random Forest auf präprozessierten Twitter-Daten, erreicht ~87% Genauigkeit mit 3 Klassen, und (2) Diamant-Preis-Vorhersage mit Regressions-Modellen auf einem Datensatz von 53.940 Diamanten. Die Twitter-Klassifikation baut auf vorheriger Präprozessierungs-Arbeit auf, während die Diamant-Vorhersage Regressions-Techniken auf strukturierten Daten mit gemischten Feature-Typen (numerisch und ordinal) demonstriert. Das Projekt zeigt Feature-Importanz-Analyse, ordnungsgemäße Handhabung gemischter Datentypen und umfassende Datenexploration.

Schlüsselfunktionen

Random Forest-Klassifikation für Twitter-Daten (~87% Genauigkeit)

Multi-Klassen-Klassifikation mit 3 Klassen

Feature-Importanz-Analyse (Top 20 Features)

Diamant-Preis-Vorhersage-Regression

Gemischte Datentyp-Behandlung (numerisch und ordinal)

Datenexploration und Visualisierung

Strukturierte Präprozessierungs-Pipelines

Train/Test-Split mit optionaler Validierung

Umfassende Evaluierungsmetriken

Modell-Interpretierbarkeits-Insights

pages.portfolio.projects.twitter_classification_diamond_prediction.features.10

Technische Highlights

Implementierung von Random Forest für Twitter-Klassifikation mit ~87% Genauigkeit

Aufbau Regressions-Pipeline für Diamant-Preis-Vorhersage auf 53.940 Stichproben

Analyse von Feature-Importanz für Modell-Interpretierbarkeit

Handhabung gemischter Datentypen mit separaten Präprozessierungs-Pipelines

Durchführung umfassender Datenexploration und Visualisierung

Demonstration Dual-Task-ML-Workflow (Klassifikation und Regression)

Herausforderungen und Lösungen

Klassen-Ungleichgewicht

Random Forest handhabte ungleichmäßige Klassen-Verteilung über 3 Klassen effektiv

Gemischte Datentypen

Erstellung separater Präprozessierungs-Pipelines für numerische und ordinale Features mit ColumnTransformer

Feature-Importanz-Kompatibilität

Dokumentation und Handhabung scikit-learn-Versions-Kompatibilität für Feature-Importanz-Attribute

Preis-Verteilung

Verwendung von Datenvisualisierung und angemessenen Regressions-Techniken für schiefe Preis-Verteilung

Ordinale Feature-Kodierung

Anwendung von OrdinalEncoder zur Erhaltung ordinaler Beziehungen in Cut-, Color- und Clarity-Features

Dimensions-Analyse

Erkundung von Beziehungen zwischen Dimensionen (x, y, z) und Preis unter Verwendung von Streudiagrammen und Histogrammen

Technologien

ML Models

RandomForestClassifier Regression Models

Preprocessing

MinMaxScaler OrdinalEncoder Custom Transformers

Pipeline

Pipeline ColumnTransformer

Analysis

Feature Importance Data Visualization

Data

Pandas NumPy Matplotlib

Environment

Python Jupyter Notebook Joblib

Projektinformationen

Status
Completed
Jahr
2024
Architektur
Dual-Task-ML-Workflow mit Klassifikations- und Regressions-Pipelines
Category
Data Science