Classification Twitter et Prédiction de Prix de Diamants
Ce projet contient deux tâches d'apprentissage automatique distinctes: (1) classification de texte Twitter utilisant Random Forest sur données Twitter prétraitées, atteignant ~87% de précision avec 3 classes, et (2) prédiction de prix de diamants utilisant modèles de régression sur un jeu de données de 53,940 diamants. La classification Twitter s'appuie sur un travail de prétraitement précédent, tandis que la prédiction de diamants démontre techniques de régression sur données structurées avec types de caractéristiques mixtes (numériques et ordinales). Le projet présente analyse d'importance de caractéristiques, gestion appropriée de types de données mixtes et exploration de données complète.
Aperçu
Ce projet contient deux tâches d'apprentissage automatique distinctes: (1) classification de texte Twitter utilisant Random Forest sur données Twitter prétraitées, atteignant ~87% de précision avec 3 classes, et (2) prédiction de prix de diamants utilisant modèles de régression sur un jeu de données de 53,940 diamants. La classification Twitter s'appuie sur un travail de prétraitement précédent, tandis que la prédiction de diamants démontre techniques de régression sur données structurées avec types de caractéristiques mixtes (numériques et ordinales). Le projet présente analyse d'importance de caractéristiques, gestion appropriée de types de données mixtes et exploration de données complète.
Fonctionnalités clés
Classification Random Forest pour données Twitter (~87% de précision)
Classification multi-classes avec 3 classes
Analyse d'importance de caractéristiques (top 20 caractéristiques)
Régression de prédiction de prix de diamants
Gestion de types de données mixtes (numérique et ordinal)
Exploration et visualisation de données
Pipelines de prétraitement structurés
Division train/test avec validation optionnelle
Métriques d'évaluation complètes
Insights d'interprétabilité de modèle
pages.portfolio.projects.twitter_classification_diamond_prediction.features.10
Principales fonctionnalités
Implémentation de Random Forest pour classification Twitter avec ~87% de précision
Construction d'un pipeline de régression pour prédiction de prix de diamants sur 53,940 échantillons
Analyse d'importance de caractéristiques pour interprétabilité de modèle
Gestion de types de données mixtes avec pipelines de prétraitement séparés
Réalisation d'exploration et visualisation de données complètes
Démonstration d'un workflow ML double tâche (classification et régression)
Défis et solutions
Déséquilibre de Classes
Random Forest a géré efficacement la distribution de classes inégale à travers 3 classes
Types de Données Mixtes
Création de pipelines de prétraitement séparés pour caractéristiques numériques et ordinales utilisant ColumnTransformer
Compatibilité d'Importance de Caractéristiques
Documentation et gestion de compatibilité de version scikit-learn pour attributs d'importance de caractéristiques
Distribution de Prix
Utilisation de visualisation de données et techniques de régression appropriées pour distribution de prix asymétrique
Encodage de Caractéristiques Ordinales
Application d'OrdinalEncoder pour préserver relations ordinales dans caractéristiques cut, color et clarity
Analyse de Dimensions
Exploration de relations entre dimensions (x, y, z) et prix utilisant nuages de points et histogrammes
Technologies
ML Models
Preprocessing
Pipeline
Analysis
Data
Environment
Informations du projet
- Statut
- Completed
- Année
- 2024
- Architecture
- Workflow ML Double Tâche avec Pipelines de Classification et Régression
- Category
- Data Science