Herz-Krankheits-Daten-Präprozessierung
Dieses Projekt konzentriert sich auf die Präprozessierung des Heart Disease UCI-Datensatzes für das Training von Machine-Learning-Modellen. Das Notebook demonstriert umfassende Datenpräprozessierungstechniken einschließlich explorativer Datenanalyse (EDA), Datentransformation, fehlende Werte-Imputation, Feature-Encoding und Pipeline-Erstellung. Das Projekt bereitet den Datensatz für prädiktive Modellierung vor, indem verschiedene Variablentypen (numerisch, kategorisch, ordinal, binär) behandelt und eine wiederverwendbare Präprozessierungs-Pipeline mit scikit-learns Pipeline und ColumnTransformer erstellt werden.
Übersicht
Dieses Projekt konzentriert sich auf die Präprozessierung des Heart Disease UCI-Datensatzes für das Training von Machine-Learning-Modellen. Das Notebook demonstriert umfassende Datenpräprozessierungstechniken einschließlich explorativer Datenanalyse (EDA), Datentransformation, fehlende Werte-Imputation, Feature-Encoding und Pipeline-Erstellung. Das Projekt bereitet den Datensatz für prädiktive Modellierung vor, indem verschiedene Variablentypen (numerisch, kategorisch, ordinal, binär) behandelt und eine wiederverwendbare Präprozessierungs-Pipeline mit scikit-learns Pipeline und ColumnTransformer erstellt werden.
Schlüsselfunktionen
Umfassende explorative Datenanalyse (EDA) mit Visualisierungen
Typspezifische Präprozessierungs-Pipelines (numerisch, kategorisch, ordinal, binär)
Fehlende Werte-Imputation mit angemessenen Strategien
Feature-Encoding (One-Hot Encoding, Ordinal Encoding)
Daten-Normalisierung mit MinMaxScaler
Train/Test-Split mit Stratifizierung für ausgewogene Klassen
Einheitliche Präprozessierung mit ColumnTransformer
Export präprozessierter Datensätze für Modell-Training
Korrelationsanalyse und bivariate Visualisierungen
Technische Highlights
Erstellung typspezifischer Präprozessierungs-Pipelines für verschiedene Variablentypen
Implementierung einheitlichen Präprozessierungs-Workflows mit ColumnTransformer
Durchführung umfassender EDA mit Korrelationsanalyse und Visualisierungen
Anwendung angemessener Imputationsstrategien für fehlende Werte
Verwendung stratifizierter Train/Test-Splits zur Aufrechterhaltung der Klassenverteilung
Verhinderung von Datenleckage durch Anpassung nur auf Trainingsdaten
Herausforderungen und Lösungen
Typspezifische Verarbeitung
Erstellung separater Pipelines für numerische, kategorische, ordinale und binäre Variablen
Fehlende Werte-Behandlung
Anwendung angemessener Imputationsstrategien (Mittelwert für numerisch, most_frequent für kategorisch)
Feature-Encoding
Verwendung von OneHotEncoder für kategorische und OrdinalEncoder für ordinale Variablen
Datenleckage-Verhinderung
Gewährleistung, dass Test-Set die Präprozessierung nicht beeinflusst, indem nur auf Trainingsdaten angepasst wird
Technologien
Data Processing
Machine Learning
Preprocessing
Visualization
Environment
Projektinformationen
- Status
- Completed
- Jahr
- 2024
- Architektur
- Pipeline-basierte Präprozessierungs-Architektur
- Category
- Data Science