🌍

Clustering et Analyse d'Hymnes Nationaux

Complété 2024 Pipeline d'Apprentissage Non Supervisé avec Prétraitement de Texte et Clustering

Ce projet réalise une analyse d'apprentissage non supervisé sur hymnes nationaux utilisant techniques de clustering de texte. Le projet analyse 190 hymnes nationaux pour découvrir motifs, similarités et groupements basés sur contenu textuel. Il emploie prétraitement NLP avancé (tokenisation, racinisation, lemmatisation, suppression de mots vides), vectorisation TF-IDF et plusieurs algorithmes de clustering (KMeans, Clustering Agrégatif) pour identifier similarités thématiques ou linguistiques parmi hymnes nationaux. Le projet inclut nettoyage de texte complet, normalisation Unicode, évaluation de score de silhouette et visualisation dendrogramme pour analyse de clusters.

Data Science Apprentissage automatique Développement Python Traitement du Langage Naturel Apprentissage Non Supervisé Clustering Analyse de Texte

Aperçu

Ce projet réalise une analyse d'apprentissage non supervisé sur hymnes nationaux utilisant techniques de clustering de texte. Le projet analyse 190 hymnes nationaux pour découvrir motifs, similarités et groupements basés sur contenu textuel. Il emploie prétraitement NLP avancé (tokenisation, racinisation, lemmatisation, suppression de mots vides), vectorisation TF-IDF et plusieurs algorithmes de clustering (KMeans, Clustering Agrégatif) pour identifier similarités thématiques ou linguistiques parmi hymnes nationaux. Le projet inclut nettoyage de texte complet, normalisation Unicode, évaluation de score de silhouette et visualisation dendrogramme pour analyse de clusters.

Fonctionnalités clés

Clustering de texte de 190 hymnes nationaux

Prétraitement NLP complet (tokenisation, racinisation, lemmatisation)

Vectorisation TF-IDF pour extraction de caractéristiques textuelles

Plusieurs algorithmes de clustering (KMeans, Clustering Agrégatif)

Évaluation de score de silhouette pour qualité de cluster

Clustering hiérarchique avec visualisation dendrogramme

Normalisation Unicode pour texte multilingue

Suppression de mots personnalisée (noms de pays, nationalités) pour prévenir biais

Gestion de valeurs manquantes et nettoyage de données

Visualisation et analyse de clusters

pages.portfolio.projects.country_anthems_clustering.features.10

Principales fonctionnalités

Analyse de 190 hymnes nationaux utilisant apprentissage non supervisé

Implémentation de plusieurs algorithmes de clustering (KMeans, Agrégatif)

Prétraitement NLP complet avec NLTK

Vectorisation TF-IDF pour caractéristiques textuelles haute dimension

Analyse de score de silhouette pour sélection de cluster optimal

Gestion de texte multilingue avec normalisation Unicode

Défis et solutions

Texte Multilingue

Utilisation de normalisation Unicode (unidecode) et suppression d'accents pour gestion de texte international

Complexité de Prétraitement de Texte

Implémentation de plusieurs étapes de prétraitement (racinisation, lemmatisation, suppression de mots vides) pour équilibrer préservation de sens et réduction de bruit

Haute Dimensionnalité

Utilisation de représentation de matrice creuse et normalisation pour gestion efficace de caractéristiques TF-IDF haute dimension

Nombre Optimal de Clusters

Application d'analyse de score de silhouette et inspection de dendrogramme pour déterminer meilleur nombre de clusters

Biais de Nom de Pays

Suppression de noms de pays et nationalités du texte pour prévenir biais de clustering

Données Manquantes

Implémentation d'imputation de données et gestion soignée de codes de pays manquants et hymnes vides

Technologies

NLP

NLTK Unidecode Regular Expressions

Clustering

KMeans AgglomerativeClustering

Feature Extraction

TF-IDF Vectorizer

Evaluation

Silhouette Score Dendrogram

Preprocessing

Tokenization Stemming Lemmatization Stop Word Removal

Data

Pandas NumPy Matplotlib

Environment

Python Jupyter Notebook

Informations du projet

Statut
Complété
Année
2024
Architecture
Pipeline d'Apprentissage Non Supervisé avec Prétraitement de Texte et Clustering
Category
Data Science