Feature Engineering: Erklärung, Methoden und Beispiele | Data Driven Company (2024)

Als Feature Engineering bezeichnet man die Vorbereitung von Daten für die Verarbeitung in Machine Learning Algorithmen. Dabei ist Feature Engineering mitunter der wichtigste Teil im gesamten Machine Learning Prozess: Nur anhand hochqualitativer Features mit großem Informationsgehalt kann ein Modell mit hohem Erfolg trainiert werden. In diesem Artikel möchten wir Feature Engineering vorstellen, Methoden und Prozesse darstellen und eine Abgrenzung zu anderen Begriffen wie Feature Selection und Feature Extraction treffen.

Inhaltsverzeichnis

Inhalte Verbergen

1 Inhaltsverzeichnis

2 Was ist Feature Engineering und wofür benötigt man es? Eine Definition

3 Methoden und Prozesse im Feature Engineering

3.1 Fachwissen einsetzen um optimale Features zu generieren

3.2 Zusätzliche Datenquellen anbinden

3.4 Interaktionen zwischen mehreren Attributen

3.5 Dummy Variablen definieren und hinzufügen

3.6 Ungenutzte, unnötige und redundante Attribute entfernen

4 Begriffsdefinition Feature Engineering

4.1 Feature Engineering vs. Data Wrangling: Was ist der Unterschied?

4.2 Feature Engineering vs. Feature Selection: Was ist der Unterschied?

4.3 Feature Engineering vs. Feature Extraction: Was ist der Unterschied?

4.4 Feature Engineering vs. PCA: Was ist der Unterschied?

5 Weitere Informationen

5.1 Feature Engineering in python

5.2 Feature Engineering in R

5.4 Related Posts:

Was ist Feature Engineering und wofür benötigt man es? Eine Definition

Als Feature Engineering werden alle Prozesse bezeichnet, bei denen Rohdaten so aufbereitet werden, dass sie direkt von Machine Learning Algorithmen verarbeitet werden können. Die Idee ist, dass man durch Feature Engineering eine bessere Ausgangslage für das spätere Trainieren eines Machine Learning Modells schafft, indem man relevante, aussagekräftige und korrekte Attribute mitliefert.

Die Herausforderung beim Feature Engineering ist es, einerseits keine unnötige Daten weiterzuverarbeiten, andererseits aber auch keine Informationen zu verlieren (Information loss). Ersteres ist relevant durch steigenden Anforderungen an Daten und Infrastruktur (Curse of Dimensionality), zweiteres fördert die Gefahr, die “wahren Gründe” für die Zielvariablen versehentlich auszuschließen.

Insgesamt ist Feature Engineering ein sehr wichtiger Teil in jedem datenbasierten Projekt und fällt in die Kategorie “Data Preparation”. Als Nachfolgeschritt werden entweder aus den kreierten Features bestimmte für den Algorithmus ausgewählt oder man nutzt Algorithmen die diese Feature Selection direkt eingebaut haben (automated Feature Selection).

Methoden und Prozesse im Feature Engineering

Fachwissen einsetzen um optimale Features zu generieren

Bei allen technischen Methoden um passende Features zu engineeren hilft eine Sache immer unterstützend: Fachwissen aus der Domäne bzw. dem Business. Fachwissen hat den Vorteil, vorhandene Attribute gut einschätzen zu können bezüglich Wichtigkeit, erwarteter Datenqualität und Aussagekraft. Daher ist eine der wichtigen Regeln: Mit Fachwissen ist sowohl Qualität als auch Effizienz im Feature Engineering höher.

So gibt es zum Beispiel oft unscheinbare Features, die allerdings zentral zur Unterscheidung von Kunden beitragen. Oft sind dies gewisse Umsatzgrenzen, Einkaufshäufigkeiten, bestimmte Produktkategorien oder ähnliches, was einen sehr großen Unterschied für das Business macht, aber rein anhand der Datenbasis nicht unbedingt erkenntlich ist.

Zusätzliche Datenquellen anbinden

Auch dieser Aspekt ist formell gesehen kein direktes Feature Engineering, zählt für uns aber zum Prozess: Die Identifikation und Anbindung von zusätzlichen Datenquellen. Spricht man im Gedanken des CRISP-DM Prozesses, würde dieser Aspekt eher in “Data Understanding” fallen statt in “Data Preparation”. Dennoch ist er absolut zentral für ein gutes Ergebnis im Machine Learning. Meist sind die einfach zu erreichenden, offensichtlichen Datenquellen nicht unbedingt die wichtigsten, sondern erst durch Miteinbezug von externen Datenquellen wird ein verlässliches Ergebnis erreicht.

Wenn man einen Data Scientist nach zusätzlichen Datenquellen fragt, gibt es meist eine erste Antwort: Wetterdaten! Dieser Holzhammer wird immer in Predictive Modelling mitgeführt, da doch sehr viele Produkte saisonale Einflüsse haben und es somit oft eine ausschlaggebende Rolle spielen kann.

Attribute in aussagekräftige Features transformieren

Eine der häufigsten Operation im Feature Engineering ist die Transformation von Features in aussagekräftige Werte. Dabei wird ein vorhandenes Attribut genutzt um es in einen sinnvolleren Wert zu interpretieren. In den einfachsten Fällen sind dies Rechenoperationen oder auch IF-ELSE Bedingungen, die basierend auf dem Inhalt in eine Kategorie einordnen.

Ein übliches Beispiel ist die Transformation eines Datums in die seitdem vergangenen Tage. Dies kann entweder an einem fixen Datum ausgerichtet werden oder am Ausführungszeitpunkt der Data Pipeline.

Interaktionen zwischen mehreren Attributen

Eine der grundlegendsten Methoden im Feature Engineering ist die Berechnung von Interaktionen (interaction features). Einfach gesagt heißt das, dass eine Kombination aus zwei oder mehreren Features berechnet wird, um einen inhaltlichen Mehrwert zu schaffen.

Dabei gelten alle grundlegenden Rechenoperationen (Multiplikation, Division, Summen, Abstraktionen) als Möglichkeit, eine Interaktion zu erstellen. In jedem Fall gilt es auch immer zu überprüfen, ob ein interaktives Feature einen Mehrwert gegenüber den Rohattributen bietet.

Ein klassisches Beispiel für ein Interaktionsfeature das durch Feature Engineering generiert wird ist die Berechnung von Customer Lifetime Value (CLTV). Dabei werden im einfachsten Fall die Anzahl an Bestellungen eines Kunden mit dem Bestellwert multipliziert. Das neu entstandene Feature bezeichnet damit den erreichten Gesamtumsatz mit einem Kunden statt die isolierten Attribute.

Dummy Variablen definieren und hinzufügen

Dummy Coding oder Dummy Variables nennt man Features, die Kategorien oder Text ersetzen, damit der Input für Machine Learning Algorithmen verarbeitbar ist. Dies kann durch binäres Coding (0 oder 1) oder auch eine Distanzmetrik realisiert werden. Doch achtung: Bei manchen Algorithmen (z.B. Clustering) hat eine Dummy Variable durch ihren Split plötzlich eine höhere Gewichtung, da jedes Feature generell gleichgewichtet werden.

Als einfaches Beispiel kann man Kundendaten anführen, in denen der Wohnort angegeben ist. Nun kann man dadurch eine Dummy Variable generieren, ob die Person in einer Stadt oder eher im ländlichen Raum wohnt.

Ungenutzte, unnötige und redundante Attribute entfernen

Nach vielen Transformationen, Erstellung von neuen Features und ähnlichem gilt es vor der Nutzung der Daten noch aufzuräumen. Dazu werden alle ungenutzten, unnötigen und redundanten Attribute entfernt, um einen finalen Datensatz zu erhalten. Arbeitet man hierbei in einem Data Lake speichert man optimalerweise jedes entstandene Datenset (Rohdaten, alle Features, aufbereitete Daten) als distillierte Version zu speichern und entsprechend der Data Governance zu dokumentieren.

Typische Features zur Entfernung sind Identifier, Features die im Falle einer Operationalisierung nicht verfügbar sind oder hoch korrelative Features.

Weitere Beiträge zum Thema Data Driven Company direkt per E-Mail bekommen:

Begriffsdefinition Feature Engineering

Feature Engineering vs. Data Wrangling: Was ist der Unterschied?

Feature Engineering bezeichnet einen bestimmten Teilschritt, der nach dem eigentlichen Data Wrangling kommt. Data Wrangling bezeichnet die gesamte Verarbeitung und Vorbereitung von Daten für nachfolgende Schritte, während Feature Engineering sich ganz spezifisch auf die Extraktion und Definition von Features für Machine Learning bezieht.

Feature Engineering vs. Feature Selection: Was ist der Unterschied?

Feature Engineering bereitet die Datensätze auf und transformiert die Daten in Features, während Feature Selection dann potentiell ein Subset dieser Features für das Training des Modells auswählt. Das Ziel ist es, die Anforderungen an Daten und Ressourcen (Curse of Dimensionality) zu reduzieren und irrelevante Features zu exkludieren. Es gibt sowohl manuelle als auch automatische (supervised und unsupervised) Methoden um diese Selektion durchzuführen.

Feature Engineering vs. Feature Extraction: Was ist der Unterschied?

Feature Extraction verarbeitet die Attribute, die durch Feature Engineering entstanden sind und kreiert neue Features daraus. Dabei zielt auch Feature Extraction auf die Reduktion der Computational Complexity ab, aber statt einfach Features zu extrahieren wie Feature Selection, versucht es alle Information in eine Kombination von neuen Features zu transformieren.

Feature Engineering vs. PCA: Was ist der Unterschied?

Principle Component Analysis (PCA) ist eine (unsupervised) Methode um Feature Extraction durchzuführen.

Weitere Informationen

Feature Engineering in python

Ob pandas oder pyspark: Feature Engineering ist ein Standardprozess in python. Hier eine vierteilige Video-Serie für einen praktischen Kurs:

Feature Engineering in R

Was panda für python ist, ist dplyr für R. Auch hier ein Video-Tutorial:

Buch zu Feature Engineering & Selection

Wer ausführliche, weiterführende Informationen zum Thema Feature Engineering & Selection sucht, dem sei das Buch “Feature Engineering and Selection: A Practical Approach for Predictive Models” von Max Kuhn ans Herz gelegt. Max arbeitet seit 20 Jahren im Bereich prädiktiver Modellierung und ist Mitglied des Teams rund um R-Studio.

In seinem Buch geht er ausführlich auf die Konstruktion von Features ein und zeigt in mehreren Kapiteln die verschiedenen Methoden und Vorteile der Feature Selection Algorithmen auf. Neben dem umfangreichen Informationsgehalt hat uns vor allem die einfache, sehr praktische Schreibweise des Buches sehr beeindruckt.

Weitere Beiträge zum Thema Data Driven Company direkt per E-Mail bekommen:

Related Posts:

  • Was ist eine Data Pipeline? Erklärung und Beispiele
  • Was ist Clustering? Definition, Methoden und Beispiele
  • Was ist Smart Data? Definition und Erklärung des Begriffs
  • Was ist Data Mining? Definition, Methoden und Tools
  • Was ist Explainable AI (XAI)? Definition und Beispiele
  • Big Data Value: Was ist das? Definition und Beispiele

Pretium lorem primis senectus habitasse lectus donec ultricies tortor adipiscing fusce morbi volutpat pellentesque consectetur risus molestie curae malesuada. Dignissim lacus convallis massa mauris enim mattis magnis senectus montes mollis phasellus.

Feature Engineering: Erklärung, Methoden und Beispiele | Data Driven Company (2024)
Top Articles
Alan Wake II: Night Springs Review
Alan Wake 2: Night Springs Review - Unpredictable Narrative Insanity
Pau.blaz
Watch After Ever Happy 123Movies
Is Whitney Williams Wgem Married
Boomerang Uk Screen Bug
Pollen Levels Richmond
Best Restaurants In Nyack On The Water
Brenda Song Wikifeet
What Was D-Day Weegy
Best Laundry Mat Near Me
Dryers At Abc Warehouse
Round Yellow Adderall
Amc Theatres Website
I Don'T Give A Rat'S Ass: The Meaning And Origin Of This Phrase - Berry Patch Farms
Body Rub Phoenix
1800Comcast
Walking through the Fire: Why nothing stops Jesus’ love for you - Ann Voskamp
Ultimate Guide to Visiting Dungeness, UK
Gncc Live Timing And Scoring
O'reilly's Iron Mountain Michigan
Nu Do Society Menu
Regal Stone Pokemon Gaia
Max Prep Baseball
When Is Moonset Tonight
What Does Spd2 Mean On Whirlpool Microwave
Skechers Outlet Greensboro Nc
Amerikaanse dollar bestellen | USD kopen
Cheeksorpillows
The Anthem Tonight
Walb Game Forecast
Joy Ride 2023 Showtimes Near Century 16 Anchorage
Waive Upgrade Fee
Actionman23
Arsenal’s Auston Trusty: Inspired by Ronaldinho, World Cup dreams and Birmingham loan
Morning Call Obits Today Legacy
Nahant Magic Seaweed
Princeton Mn Snow Totals
Kpq News Wenatchee Washington
Luchtvaart- en Ruimtevaarttechniek - Technische Universiteit Delft - Studiekeuze123 - Studiekeuze123
Ten Conservative Principles
Hershey Company Myhr
Borderlands 2 Mechromancer Leveling Build
North Haven Power School
Pulp Fiction 123Movies
This Meteorologist Was Wardrobe Shamed, So She Fought Back | Star 101.3 | Marcus & Corey
Ascensionpress Com Login
Rune Factory 5 Dual Blade Recipes
Ap Bio Unit 2 Progress Check Mcq
Markella Magliola Obituary
Four Observations from Germany’s barnstorming 5-0 victory over Hungary
Twisted Bow Osrs Ge Tracker
Latest Posts
Article information

Author: Corie Satterfield

Last Updated:

Views: 5844

Rating: 4.1 / 5 (42 voted)

Reviews: 89% of readers found this page helpful

Author information

Name: Corie Satterfield

Birthday: 1992-08-19

Address: 850 Benjamin Bridge, Dickinsonchester, CO 68572-0542

Phone: +26813599986666

Job: Sales Manager

Hobby: Table tennis, Soapmaking, Flower arranging, amateur radio, Rock climbing, scrapbook, Horseback riding

Introduction: My name is Corie Satterfield, I am a fancy, perfect, spotless, quaint, fantastic, funny, lucky person who loves writing and wants to share my knowledge and understanding with you.