🩺

Modélisation KNN Maladie Cardiaque

Completed 2024 Expérimentation ML avec k-NN, recherche Grid/Random et pipeline d'évaluation

Ce projet entraîne et règle des classificateurs k-NN pour la prédiction de maladie cardiaque en utilisant deux scénarios: caractéristiques prétraitées baseline du pipeline J1, et ensembles de caractéristiques KNN-imputés. Il compare GridSearchCV (baseline) et RandomizedSearchCV (KNN-imputé) pour le réglage d'hyperparamètres, évalue précision/rappel/F1, et inclut matrices de confusion, rapports de classification, courbes ROC et PR. Un quirk connu de sklearn 1.3 predict est géré en passant des tableaux numpy au lieu de DataFrames.

Data Science Apprentissage automatique Développement Python Analyse de Santé Classification Réglage de Modèle

Aperçu

Ce projet entraîne et règle des classificateurs k-NN pour la prédiction de maladie cardiaque en utilisant deux scénarios: caractéristiques prétraitées baseline du pipeline J1, et ensembles de caractéristiques KNN-imputés. Il compare GridSearchCV (baseline) et RandomizedSearchCV (KNN-imputé) pour le réglage d'hyperparamètres, évalue précision/rappel/F1, et inclut matrices de confusion, rapports de classification, courbes ROC et PR. Un quirk connu de sklearn 1.3 predict est géré en passant des tableaux numpy au lieu de DataFrames.

Fonctionnalités clés

k-NN baseline sur données de maladie cardiaque prétraitées

Variante KNN-imputée avec réglage séparé

pages.portfolio.projects.heart_disease_knn_modeling.features.2

pages.portfolio.projects.heart_disease_knn_modeling.features.3

pages.portfolio.projects.heart_disease_knn_modeling.features.4

Gère l'exigence de tableau numpy de sklearn predict (DataFrame vers numpy)

Division stratifiée préservée de l'étape de prétraitement

Principales fonctionnalités

Comparaison de baseline vs ensembles de caractéristiques KNN-imputés avec modèles k-NN réglés

Utilisation de GridSearchCV pour recherche exhaustive et RandomizedSearchCV pour réduire le calcul

Rapport de suite complète de métriques et diagnostics visuels (matrice de confusion, ROC, PR)

Contournement du bug sklearn 1.3 predict en utilisant des tableaux numpy

Défis et solutions

Portée de Recherche d'Hyperparamètres

Équilibrage de grille exhaustive pour baseline avec recherche randomisée pour réduire le calcul sur ensemble imputé

Quirk API Predict

Gestion du problème predict DataFrame sklearn en passant des tableaux numpy

Couverture d'Évaluation

Capture de précision, rappel, F1 plus matrice de confusion, ROC et courbes PR

Technologies

ML

Scikit-learn KNeighborsClassifier GridSearchCV RandomizedSearchCV

Data

Pandas NumPy

Viz

Matplotlib Seaborn

Environment

Python Jupyter Notebook

Informations du projet

Statut
Completed
Année
2024
Architecture
Expérimentation ML avec k-NN, recherche Grid/Random et pipeline d'évaluation
Category
Data Science