🩺

Herz-Krankheits-KNN-Modellierung

Completed 2024 ML-Experimentierung mit k-NN, Grid/Random-Suche und Evaluierungs-Pipeline

Dieses Projekt trainiert und stimmt k-NN-Klassifikatoren für Herz-Krankheits-Vorhersage unter Verwendung von zwei Szenarien ab: baseline-präprozessierte Features aus der J1-Pipeline und KNN-imputierte Feature-Sets. Es vergleicht GridSearchCV (Baseline) und RandomizedSearchCV (KNN-imputiert) für Hyperparameter-Tuning, evaluiert Genauigkeit/Präzision/Recall/F1 und umfasst Konfusionsmatrizen, Klassifikationsberichte, ROC- und PR-Kurven. Ein bekannter sklearn 1.3 predict-Quirk wird durch Übergeben von numpy-Arrays anstelle von DataFrames behandelt.

Data Science Maschinelles Lernen Python-Entwicklung Gesundheitsanalyse Klassifikation Modell-Tuning

Übersicht

Dieses Projekt trainiert und stimmt k-NN-Klassifikatoren für Herz-Krankheits-Vorhersage unter Verwendung von zwei Szenarien ab: baseline-präprozessierte Features aus der J1-Pipeline und KNN-imputierte Feature-Sets. Es vergleicht GridSearchCV (Baseline) und RandomizedSearchCV (KNN-imputiert) für Hyperparameter-Tuning, evaluiert Genauigkeit/Präzision/Recall/F1 und umfasst Konfusionsmatrizen, Klassifikationsberichte, ROC- und PR-Kurven. Ein bekannter sklearn 1.3 predict-Quirk wird durch Übergeben von numpy-Arrays anstelle von DataFrames behandelt.

Schlüsselfunktionen

Baseline k-NN auf präprozessierten Herz-Krankheits-Daten

KNN-imputierte Variante mit separatem Tuning

pages.portfolio.projects.heart_disease_knn_modeling.features.2

pages.portfolio.projects.heart_disease_knn_modeling.features.3

pages.portfolio.projects.heart_disease_knn_modeling.features.4

Handhabung sklearn predict Array-Anforderung (DataFrame zu numpy)

Stratifizierter Split aus Präprozessierungsstufe erhalten

Technische Highlights

Vergleich Baseline vs KNN-imputierte Feature-Sets mit abgestimmten k-NN-Modellen

Verwendung von GridSearchCV für exhaustive Suche und RandomizedSearchCV zur Rechenreduzierung

Bericht vollständiger Metrik-Suite und visueller Diagnostik (Konfusionsmatrix, ROC, PR)

Umgehung sklearn 1.3 predict-Bug durch Verwendung von numpy-Arrays

Herausforderungen und Lösungen

Hyperparameter-Suchbereich

Ausgewogene exhaustive Grid für Baseline mit randomisierter Suche zur Rechenreduzierung auf imputiertem Set

Predict API-Quirk

Handhabung sklearn DataFrame predict-Problem durch Übergeben von numpy-Arrays

Evaluierungs-Abdeckung

Erfassung von Genauigkeit, Präzision, Recall, F1 plus Konfusionsmatrix, ROC und PR-Kurven

Technologien

ML

Scikit-learn KNeighborsClassifier GridSearchCV RandomizedSearchCV

Data

Pandas NumPy

Viz

Matplotlib Seaborn

Environment

Python Jupyter Notebook

Projektinformationen

Status
Completed
Jahr
2024
Architektur
ML-Experimentierung mit k-NN, Grid/Random-Suche und Evaluierungs-Pipeline
Category
Data Science