❤️

Herz-Krankheits-Daten-Präprozessierung

Completed 2024 • Pipeline-basierte Präprozessierungs-Architektur

Dieses Projekt konzentriert sich auf die Präprozessierung des Heart Disease UCI-Datensatzes für das Training von Machine-Learning-Modellen. Das Notebook demonstriert umfassende Datenpräprozessierungstechniken einschließlich explorativer Datenanalyse (EDA), Datentransformation, fehlende Werte-Imputation, Feature-Encoding und Pipeline-Erstellung. Das Projekt bereitet den Datensatz für prädiktive Modellierung vor, indem verschiedene Variablentypen (numerisch, kategorisch, ordinal, binär) behandelt und eine wiederverwendbare Präprozessierungs-Pipeline mit scikit-learns Pipeline und ColumnTransformer erstellt werden.

Data Science Maschinelles Lernen Python-Entwicklung Softwareentwicklung Datenpräprozessierung Gesundheitsanalyse

Übersicht

Schlüsselfunktionen

✓

Umfassende explorative Datenanalyse (EDA) mit Visualisierungen

✓

Typspezifische Präprozessierungs-Pipelines (numerisch, kategorisch, ordinal, binär)

✓

Fehlende Werte-Imputation mit angemessenen Strategien

✓

Feature-Encoding (One-Hot Encoding, Ordinal Encoding)

✓

Daten-Normalisierung mit MinMaxScaler

✓

Train/Test-Split mit Stratifizierung für ausgewogene Klassen

✓

Einheitliche Präprozessierung mit ColumnTransformer

✓

Export präprozessierter Datensätze für Modell-Training

✓

Korrelationsanalyse und bivariate Visualisierungen

Technische Highlights

⚡

Erstellung typspezifischer Präprozessierungs-Pipelines für verschiedene Variablentypen

⚡

Implementierung einheitlichen Präprozessierungs-Workflows mit ColumnTransformer

⚡

Durchführung umfassender EDA mit Korrelationsanalyse und Visualisierungen

⚡

Anwendung angemessener Imputationsstrategien für fehlende Werte

⚡

Verwendung stratifizierter Train/Test-Splits zur Aufrechterhaltung der Klassenverteilung

⚡

Verhinderung von Datenleckage durch Anpassung nur auf Trainingsdaten

Herausforderungen und Lösungen

Typspezifische Verarbeitung

Erstellung separater Pipelines für numerische, kategorische, ordinale und binäre Variablen

Fehlende Werte-Behandlung

Anwendung angemessener Imputationsstrategien (Mittelwert für numerisch, most_frequent für kategorisch)

Feature-Encoding

Verwendung von OneHotEncoder für kategorische und OrdinalEncoder für ordinale Variablen

Datenleckage-Verhinderung

Gewährleistung, dass Test-Set die Präprozessierung nicht beeinflusst, indem nur auf Trainingsdaten angepasst wird

Technologien

Data Processing

Pandas NumPy

Machine Learning

Scikit-learn Pipeline ColumnTransformer

Preprocessing

SimpleImputer MinMaxScaler OneHotEncoder OrdinalEncoder

Visualization

Matplotlib Seaborn

Environment

Python Jupyter Notebook

Projektinformationen

Status: Completed
Jahr: 2024
Architektur: Pipeline-basierte Präprozessierungs-Architektur
Category: Data Science

Zurück zu Portfolio Projekte anzeigen Data Science