Modélisation KNN Maladie Cardiaque
Ce projet entraîne et règle des classificateurs k-NN pour la prédiction de maladie cardiaque en utilisant deux scénarios: caractéristiques prétraitées baseline du pipeline J1, et ensembles de caractéristiques KNN-imputés. Il compare GridSearchCV (baseline) et RandomizedSearchCV (KNN-imputé) pour le réglage d'hyperparamètres, évalue précision/rappel/F1, et inclut matrices de confusion, rapports de classification, courbes ROC et PR. Un quirk connu de sklearn 1.3 predict est géré en passant des tableaux numpy au lieu de DataFrames.
Aperçu
Ce projet entraîne et règle des classificateurs k-NN pour la prédiction de maladie cardiaque en utilisant deux scénarios: caractéristiques prétraitées baseline du pipeline J1, et ensembles de caractéristiques KNN-imputés. Il compare GridSearchCV (baseline) et RandomizedSearchCV (KNN-imputé) pour le réglage d'hyperparamètres, évalue précision/rappel/F1, et inclut matrices de confusion, rapports de classification, courbes ROC et PR. Un quirk connu de sklearn 1.3 predict est géré en passant des tableaux numpy au lieu de DataFrames.
Fonctionnalités clés
k-NN baseline sur données de maladie cardiaque prétraitées
Variante KNN-imputée avec réglage séparé
pages.portfolio.projects.heart_disease_knn_modeling.features.2
pages.portfolio.projects.heart_disease_knn_modeling.features.3
pages.portfolio.projects.heart_disease_knn_modeling.features.4
Gère l'exigence de tableau numpy de sklearn predict (DataFrame vers numpy)
Division stratifiée préservée de l'étape de prétraitement
Principales fonctionnalités
Comparaison de baseline vs ensembles de caractéristiques KNN-imputés avec modèles k-NN réglés
Utilisation de GridSearchCV pour recherche exhaustive et RandomizedSearchCV pour réduire le calcul
Rapport de suite complète de métriques et diagnostics visuels (matrice de confusion, ROC, PR)
Contournement du bug sklearn 1.3 predict en utilisant des tableaux numpy
Défis et solutions
Portée de Recherche d'Hyperparamètres
Équilibrage de grille exhaustive pour baseline avec recherche randomisée pour réduire le calcul sur ensemble imputé
Quirk API Predict
Gestion du problème predict DataFrame sklearn en passant des tableaux numpy
Couverture d'Évaluation
Capture de précision, rappel, F1 plus matrice de confusion, ROC et courbes PR
Technologies
ML
Data
Viz
Environment
Informations du projet
- Statut
- Completed
- Année
- 2024
- Architecture
- Expérimentation ML avec k-NN, recherche Grid/Random et pipeline d'évaluation
- Category
- Data Science