Twitter-Klassifikation & Diamant-Preis-Vorhersage
Dieses Projekt enthält zwei verschiedene Machine-Learning-Aufgaben: (1) Twitter-Textklassifikation mit Random Forest auf präprozessierten Twitter-Daten, erreicht ~87% Genauigkeit mit 3 Klassen, und (2) Diamant-Preis-Vorhersage mit Regressions-Modellen auf einem Datensatz von 53.940 Diamanten. Die Twitter-Klassifikation baut auf vorheriger Präprozessierungs-Arbeit auf, während die Diamant-Vorhersage Regressions-Techniken auf strukturierten Daten mit gemischten Feature-Typen (numerisch und ordinal) demonstriert. Das Projekt zeigt Feature-Importanz-Analyse, ordnungsgemäße Handhabung gemischter Datentypen und umfassende Datenexploration.
Übersicht
Dieses Projekt enthält zwei verschiedene Machine-Learning-Aufgaben: (1) Twitter-Textklassifikation mit Random Forest auf präprozessierten Twitter-Daten, erreicht ~87% Genauigkeit mit 3 Klassen, und (2) Diamant-Preis-Vorhersage mit Regressions-Modellen auf einem Datensatz von 53.940 Diamanten. Die Twitter-Klassifikation baut auf vorheriger Präprozessierungs-Arbeit auf, während die Diamant-Vorhersage Regressions-Techniken auf strukturierten Daten mit gemischten Feature-Typen (numerisch und ordinal) demonstriert. Das Projekt zeigt Feature-Importanz-Analyse, ordnungsgemäße Handhabung gemischter Datentypen und umfassende Datenexploration.
Schlüsselfunktionen
Random Forest-Klassifikation für Twitter-Daten (~87% Genauigkeit)
Multi-Klassen-Klassifikation mit 3 Klassen
Feature-Importanz-Analyse (Top 20 Features)
Diamant-Preis-Vorhersage-Regression
Gemischte Datentyp-Behandlung (numerisch und ordinal)
Datenexploration und Visualisierung
Strukturierte Präprozessierungs-Pipelines
Train/Test-Split mit optionaler Validierung
Umfassende Evaluierungsmetriken
Modell-Interpretierbarkeits-Insights
pages.portfolio.projects.twitter_classification_diamond_prediction.features.10
Technische Highlights
Implementierung von Random Forest für Twitter-Klassifikation mit ~87% Genauigkeit
Aufbau Regressions-Pipeline für Diamant-Preis-Vorhersage auf 53.940 Stichproben
Analyse von Feature-Importanz für Modell-Interpretierbarkeit
Handhabung gemischter Datentypen mit separaten Präprozessierungs-Pipelines
Durchführung umfassender Datenexploration und Visualisierung
Demonstration Dual-Task-ML-Workflow (Klassifikation und Regression)
Herausforderungen und Lösungen
Klassen-Ungleichgewicht
Random Forest handhabte ungleichmäßige Klassen-Verteilung über 3 Klassen effektiv
Gemischte Datentypen
Erstellung separater Präprozessierungs-Pipelines für numerische und ordinale Features mit ColumnTransformer
Feature-Importanz-Kompatibilität
Dokumentation und Handhabung scikit-learn-Versions-Kompatibilität für Feature-Importanz-Attribute
Preis-Verteilung
Verwendung von Datenvisualisierung und angemessenen Regressions-Techniken für schiefe Preis-Verteilung
Ordinale Feature-Kodierung
Anwendung von OrdinalEncoder zur Erhaltung ordinaler Beziehungen in Cut-, Color- und Clarity-Features
Dimensions-Analyse
Erkundung von Beziehungen zwischen Dimensionen (x, y, z) und Preis unter Verwendung von Streudiagrammen und Histogrammen
Technologien
ML Models
Preprocessing
Pipeline
Analysis
Data
Environment
Projektinformationen
- Status
- Completed
- Jahr
- 2024
- Architektur
- Dual-Task-ML-Workflow mit Klassifikations- und Regressions-Pipelines
- Category
- Data Science