💎

Classification Twitter et Prédiction de Prix de Diamants

Completed 2024 Workflow ML Double Tâche avec Pipelines de Classification et Régression

Ce projet contient deux tâches d'apprentissage automatique distinctes: (1) classification de texte Twitter utilisant Random Forest sur données Twitter prétraitées, atteignant ~87% de précision avec 3 classes, et (2) prédiction de prix de diamants utilisant modèles de régression sur un jeu de données de 53,940 diamants. La classification Twitter s'appuie sur un travail de prétraitement précédent, tandis que la prédiction de diamants démontre techniques de régression sur données structurées avec types de caractéristiques mixtes (numériques et ordinales). Le projet présente analyse d'importance de caractéristiques, gestion appropriée de types de données mixtes et exploration de données complète.

Data Science Apprentissage automatique Développement Python Classification de Texte Régression Ingénierie de Caractéristiques Évaluation de Modèle

Aperçu

Ce projet contient deux tâches d'apprentissage automatique distinctes: (1) classification de texte Twitter utilisant Random Forest sur données Twitter prétraitées, atteignant ~87% de précision avec 3 classes, et (2) prédiction de prix de diamants utilisant modèles de régression sur un jeu de données de 53,940 diamants. La classification Twitter s'appuie sur un travail de prétraitement précédent, tandis que la prédiction de diamants démontre techniques de régression sur données structurées avec types de caractéristiques mixtes (numériques et ordinales). Le projet présente analyse d'importance de caractéristiques, gestion appropriée de types de données mixtes et exploration de données complète.

Fonctionnalités clés

Classification Random Forest pour données Twitter (~87% de précision)

Classification multi-classes avec 3 classes

Analyse d'importance de caractéristiques (top 20 caractéristiques)

Régression de prédiction de prix de diamants

Gestion de types de données mixtes (numérique et ordinal)

Exploration et visualisation de données

Pipelines de prétraitement structurés

Division train/test avec validation optionnelle

Métriques d'évaluation complètes

Insights d'interprétabilité de modèle

pages.portfolio.projects.twitter_classification_diamond_prediction.features.10

Principales fonctionnalités

Implémentation de Random Forest pour classification Twitter avec ~87% de précision

Construction d'un pipeline de régression pour prédiction de prix de diamants sur 53,940 échantillons

Analyse d'importance de caractéristiques pour interprétabilité de modèle

Gestion de types de données mixtes avec pipelines de prétraitement séparés

Réalisation d'exploration et visualisation de données complètes

Démonstration d'un workflow ML double tâche (classification et régression)

Défis et solutions

Déséquilibre de Classes

Random Forest a géré efficacement la distribution de classes inégale à travers 3 classes

Types de Données Mixtes

Création de pipelines de prétraitement séparés pour caractéristiques numériques et ordinales utilisant ColumnTransformer

Compatibilité d'Importance de Caractéristiques

Documentation et gestion de compatibilité de version scikit-learn pour attributs d'importance de caractéristiques

Distribution de Prix

Utilisation de visualisation de données et techniques de régression appropriées pour distribution de prix asymétrique

Encodage de Caractéristiques Ordinales

Application d'OrdinalEncoder pour préserver relations ordinales dans caractéristiques cut, color et clarity

Analyse de Dimensions

Exploration de relations entre dimensions (x, y, z) et prix utilisant nuages de points et histogrammes

Technologies

ML Models

RandomForestClassifier Regression Models

Preprocessing

MinMaxScaler OrdinalEncoder Custom Transformers

Pipeline

Pipeline ColumnTransformer

Analysis

Feature Importance Data Visualization

Data

Pandas NumPy Matplotlib

Environment

Python Jupyter Notebook Joblib

Informations du projet

Statut
Completed
Année
2024
Architecture
Workflow ML Double Tâche avec Pipelines de Classification et Régression
Category
Data Science