❤️

Herz-Krankheits-Daten-Präprozessierung

Completed 2024 Pipeline-basierte Präprozessierungs-Architektur

Dieses Projekt konzentriert sich auf die Präprozessierung des Heart Disease UCI-Datensatzes für das Training von Machine-Learning-Modellen. Das Notebook demonstriert umfassende Datenpräprozessierungstechniken einschließlich explorativer Datenanalyse (EDA), Datentransformation, fehlende Werte-Imputation, Feature-Encoding und Pipeline-Erstellung. Das Projekt bereitet den Datensatz für prädiktive Modellierung vor, indem verschiedene Variablentypen (numerisch, kategorisch, ordinal, binär) behandelt und eine wiederverwendbare Präprozessierungs-Pipeline mit scikit-learns Pipeline und ColumnTransformer erstellt werden.

Data Science Maschinelles Lernen Python-Entwicklung Softwareentwicklung Datenpräprozessierung Gesundheitsanalyse

Übersicht

Dieses Projekt konzentriert sich auf die Präprozessierung des Heart Disease UCI-Datensatzes für das Training von Machine-Learning-Modellen. Das Notebook demonstriert umfassende Datenpräprozessierungstechniken einschließlich explorativer Datenanalyse (EDA), Datentransformation, fehlende Werte-Imputation, Feature-Encoding und Pipeline-Erstellung. Das Projekt bereitet den Datensatz für prädiktive Modellierung vor, indem verschiedene Variablentypen (numerisch, kategorisch, ordinal, binär) behandelt und eine wiederverwendbare Präprozessierungs-Pipeline mit scikit-learns Pipeline und ColumnTransformer erstellt werden.

Schlüsselfunktionen

Umfassende explorative Datenanalyse (EDA) mit Visualisierungen

Typspezifische Präprozessierungs-Pipelines (numerisch, kategorisch, ordinal, binär)

Fehlende Werte-Imputation mit angemessenen Strategien

Feature-Encoding (One-Hot Encoding, Ordinal Encoding)

Daten-Normalisierung mit MinMaxScaler

Train/Test-Split mit Stratifizierung für ausgewogene Klassen

Einheitliche Präprozessierung mit ColumnTransformer

Export präprozessierter Datensätze für Modell-Training

Korrelationsanalyse und bivariate Visualisierungen

Technische Highlights

Erstellung typspezifischer Präprozessierungs-Pipelines für verschiedene Variablentypen

Implementierung einheitlichen Präprozessierungs-Workflows mit ColumnTransformer

Durchführung umfassender EDA mit Korrelationsanalyse und Visualisierungen

Anwendung angemessener Imputationsstrategien für fehlende Werte

Verwendung stratifizierter Train/Test-Splits zur Aufrechterhaltung der Klassenverteilung

Verhinderung von Datenleckage durch Anpassung nur auf Trainingsdaten

Herausforderungen und Lösungen

Typspezifische Verarbeitung

Erstellung separater Pipelines für numerische, kategorische, ordinale und binäre Variablen

Fehlende Werte-Behandlung

Anwendung angemessener Imputationsstrategien (Mittelwert für numerisch, most_frequent für kategorisch)

Feature-Encoding

Verwendung von OneHotEncoder für kategorische und OrdinalEncoder für ordinale Variablen

Datenleckage-Verhinderung

Gewährleistung, dass Test-Set die Präprozessierung nicht beeinflusst, indem nur auf Trainingsdaten angepasst wird

Technologien

Data Processing

Pandas NumPy

Machine Learning

Scikit-learn Pipeline ColumnTransformer

Preprocessing

SimpleImputer MinMaxScaler OneHotEncoder OrdinalEncoder

Visualization

Matplotlib Seaborn

Environment

Python Jupyter Notebook

Projektinformationen

Status
Completed
Jahr
2024
Architektur
Pipeline-basierte Präprozessierungs-Architektur
Category
Data Science