Was ist Data Mining? Wie es funktioniert, Vorteile, Techniken und Beispiele

Data Mining ist die softwaregesteuerte Analyse grosser Datenmengen, um aussagekräftige Muster zu erkennen.
Was ist Data Mining? Wie es funktioniert, Vorteile, Techniken und Beispiele

Inhaltsverzeichnis

Unter Data Mining versteht man das Durchsuchen und Analysieren einer großen Menge von Rohdaten, um Muster zu erkennen und nützliche Informationen zu gewinnen.

 

Unternehmen nutzen Data-Mining-Software, um mehr über ihre Kunden zu erfahren. Sie kann ihnen helfen, effektivere Marketingstrategien zu entwickeln, den Umsatz zu steigern und die Kosten zu senken. Data Mining beruht auf einer effektiven Datenerfassung, -speicherung und -verarbeitung.

 

SCHLUSSFOLGERUNGEN

  • Data Mining ist der Prozess der Analyse einer großen Menge von Informationen, um Trends und Muster zu erkennen.
  • Data Mining kann von Unternehmen für alles Mögliche genutzt werden, von Informationen darüber, was Kunden interessiert oder kaufen wollen, bis hin zur Betrugserkennung und Spam-Filterung.
  • Data-Mining-Programme schlüsseln Muster und Zusammenhänge in Daten auf, die auf den vom Benutzer angeforderten oder bereitgestellten Informationen basieren.
  • Unternehmen der sozialen Medien nutzen Data-Mining-Techniken, um ihre Nutzer zur Ware zu machen und so Gewinne zu erzielen.
  • Dieser Einsatz von Data Mining ist in die Kritik geraten, da sich die Nutzer oft nicht bewusst sind, dass mit ihren persönlichen Daten Data Mining betrieben wird, vor allem wenn es dazu dient, ihre Präferenzen zu beeinflussen.

Wie Data Mining funktioniert

Beim Data Mining werden große Informationsblöcke untersucht und analysiert, um aussagekräftige Muster und Trends zu erkennen. Es wird beim Kreditrisikomanagement, bei der Betrugserkennung und beim Filtern von Spam eingesetzt. Es ist auch ein Marktforschungsinstrument, das dabei hilft, die Stimmung oder Meinung einer bestimmten Gruppe von Menschen zu ermitteln. Der Data-Mining-Prozess gliedert sich in vier Schritte:

 
  1. Die Daten werden gesammelt und in Data Warehouses vor Ort oder in einem Cloud-Dienst gespeichert.
  2. Unternehmensanalysten, Managementteams und Informationstechnologieexperten greifen auf die Daten zu und bestimmen, wie sie sie organisieren wollen.
  3. Individuelle Anwendungssoftware sortiert und organisiert die Daten.
  4. Der Endnutzer präsentiert die Daten in einem leicht zugänglichen Format, z. B. als Diagramm oder Tabelle.
 

Data Warehousing und Mining Software

Data-Mining-Programme analysieren Beziehungen und Muster in Daten auf der Grundlage von Benutzeranfragen. Sie ordnen Informationen in Klassen ein.

 

Ein Restaurant möchte beispielsweise mithilfe von Data Mining ermitteln, welche Angebote es an welchen Tagen anbieten sollte. Die Daten können in Klassen eingeteilt werden, je nachdem, wann die Kunden kommen und was sie bestellen.

 

In anderen Fällen suchen Data Miner nach Informationsclustern, die auf logischen Beziehungen beruhen, oder sie untersuchen Assoziationen und sequenzielle Muster, um Rückschlüsse auf Trends im Verbraucherverhalten zu ziehen.

 

Warehousing ist ein wichtiger Aspekt des Data Mining. Warehousing ist die Zentralisierung der Daten eines Unternehmens in einer Datenbank oder einem Programm. Es ermöglicht dem Unternehmen die Ausgliederung von Datensegmenten für bestimmte Benutzer, die diese je nach ihren Bedürfnissen analysieren und nutzen können.

Cloud-Data-Warehouse-Lösungen nutzen den Platz und die Leistung eines Cloud-Anbieters zur Speicherung von Daten. So können auch kleinere Unternehmen digitale Lösungen für Speicherung, Sicherheit und Analyse nutzen.

Data-Mining-Techniken

Beim Data Mining werden Algorithmen und verschiedene andere Techniken eingesetzt, um große Datensammlungen in nützliche Ergebnisse umzuwandeln. Zu den beliebtesten Data-Mining-Techniken gehören Assoziationsregeln, Klassifizierung, Clustering, Entscheidungsbäume, K-Nearest Neighbor, neuronale Netze und prädiktive Analysen.

 
  • Assoziationsregeln, die auch als Warenkorbanalyse bezeichnet werden, suchen nach Beziehungen zwischen Variablen. Diese Beziehung an sich schafft einen zusätzlichen Wert innerhalb des Datensatzes, da sie danach strebt, Datenteile zu verknüpfen. Mit Hilfe von Assoziationsregeln kann beispielsweise die Umsatzhistorie eines Unternehmens durchsucht werden, um festzustellen, welche Produkte am häufigsten zusammen gekauft werden; mit diesen Informationen können Geschäfte planen, werben und Prognosen erstellen.
  • Klassifizierung verwendet vordefinierte Klassen, um Objekte zuzuordnen. Diese Klassen beschreiben die Merkmale von Objekten oder stellen dar, was die Datenpunkte miteinander gemeinsam haben. Mit dieser Data-Mining-Technik lassen sich die zugrundeliegenden Daten besser kategorisieren und über ähnliche Merkmale oder Produktlinien zusammenfassen.
  • Clustering ist ähnlich wie die Klassifizierung. Beim Clustering werden jedoch Ähnlichkeiten zwischen Objekten festgestellt und diese dann anhand der Merkmale, die sie von anderen Objekten unterscheiden, gruppiert. Während die Klassifizierung zu Gruppen wie «Shampoo», «Spülung», «Seife» und «Zahnpasta» führen kann, kann das Clustering Gruppen wie «Haarpflege» und «Zahngesundheit» identifizieren.
  • Entscheidungsbäume werden zur Klassifizierung oder Vorhersage eines Ergebnisses auf der Grundlage einer Liste von Kriterien oder Entscheidungen verwendet. Ein Entscheidungsbaum wird verwendet, um die Eingabe einer Reihe von kaskadierenden Fragen zu verlangen, die den Datensatz auf der Grundlage der gegebenen Antworten sortieren. Ein Entscheidungsbaum wird manchmal als baumähnliche Grafik dargestellt und ermöglicht eine spezifische Ausrichtung und Benutzereingabe, wenn man tiefer in die Daten eindringt.
  • K-Nächster Nachbar (KNN) ist ein Algorithmus, der Daten auf der Grundlage ihrer Nähe zu anderen Daten klassifiziert. Die Grundlage für KNN beruht auf der Annahme, dass Datenpunkte, die nahe beieinander liegen, einander ähnlicher sind als andere Datenpunkte. Diese nichtparametrische, überwachte Technik wird verwendet, um die Merkmale einer Gruppe auf der Grundlage einzelner Datenpunkte vorherzusagen.
  • Neuronale Netze verarbeiten Daten durch die Verwendung von Knotenpunkten. Diese Knoten bestehen aus Eingängen, Gewichten und einem Ausgang. Die Daten werden durch überwachtes Lernen abgebildet, ähnlich wie das menschliche Gehirn vernetzt ist. Dieses Modell kann so programmiert werden, dass es Schwellenwerte vorgibt, um die Genauigkeit eines Modells zu bestimmen.
  • Die Prädiktive Analyse versucht, historische Informationen zu nutzen, um grafische oder mathematische Modelle zur Vorhersage künftiger Ergebnisse zu erstellen. Diese Technik, die sich mit der Regressionsanalyse überschneidet, zielt darauf ab, eine unbekannte Zahl in der Zukunft auf der Grundlage der aktuellen Daten zu unterstützen.
 

Der Data-Mining-Prozess

Um möglichst effektiv arbeiten zu können, folgen Datenanalysten im Allgemeinen einem bestimmten Ablauf von Aufgaben im Data-Mining-Prozess. Ohne diese Struktur kann ein Analytiker mitten in seiner Analyse auf ein Problem stoßen, das leicht hätte vermieden werden können, wenn er sich früher darauf vorbereitet hätte. Der Data-Mining-Prozess ist in der Regel in die folgenden Schritte unterteilt.

 

Schritt 1: Verstehen Sie das Geschäft

Bevor Daten berührt, extrahiert, bereinigt oder analysiert werden, ist es wichtig, das zugrunde liegende Unternehmen und das jeweilige Projekt zu verstehen. Welche Ziele will das Unternehmen mit der Datenauswertung erreichen? Wie sieht die aktuelle Geschäftslage aus? Was sind die Ergebnisse einer SWOT-Analyse? Bevor man sich Daten ansieht, muss man sich zunächst darüber klar werden, was den Erfolg am Ende des Prozesses ausmachen wird.

 

Schritt 2: Verstehen der Daten

Sobald das Geschäftsproblem klar definiert ist, ist es an der Zeit, sich Gedanken über die Daten zu machen. Dazu gehört, welche Quellen zur Verfügung stehen, wie sie gesichert und gespeichert werden, wie die Informationen gesammelt werden und wie das Endergebnis oder die Analyse aussehen könnte. In diesem Schritt werden auch die Grenzen der Daten, der Speicherung, der Sicherheit und der Erfassung bestimmt und bewertet, wie sich diese Einschränkungen auf den Data-Mining-Prozess auswirken werden.

 

Schritt 3: Aufbereitung der Daten

Daten werden gesammelt, hochgeladen, extrahiert oder berechnet. Anschließend werden sie bereinigt, standardisiert, auf Ausreißer untersucht, auf Fehler geprüft und auf ihre Angemessenheit hin untersucht. In dieser Phase des Data Mining können die Daten auch auf ihre Größe hin überprüft werden, da eine zu große Sammlung von Informationen die Berechnungen und Analysen unnötig verlangsamen kann.

 

Schritt 4: Erstellen des Modells

Mit einem sauberen Datensatz in der Hand ist es nun an der Zeit, die Zahlen zu verarbeiten. Datenwissenschaftler nutzen die oben genannten Arten des Data Mining, um nach Beziehungen, Trends, Assoziationen oder sequenziellen Mustern zu suchen. Die Daten können auch in Vorhersagemodelle eingespeist werden, um zu beurteilen, wie sich frühere Informationen auf zukünftige Ergebnisse auswirken können.

 

Schritt 5: Bewerten Sie die Ergebnisse

Der datenzentrierte Aspekt des Data Mining schließt mit der Bewertung der Ergebnisse des Datenmodells oder der Datenmodelle ab. Die Ergebnisse der Analyse können aggregiert, interpretiert und Entscheidungsträgern präsentiert werden, die bis zu diesem Zeitpunkt vom Data-Mining-Prozess weitgehend ausgeschlossen waren. In diesem Schritt können die Unternehmen auf der Grundlage der Ergebnisse Entscheidungen treffen.

 

Schritt 6: Veränderung umsetzen und überwachen

Der Data-Mining-Prozess endet damit, dass die Unternehmensleitung Maßnahmen ergreift, um auf die Ergebnisse der Analyse zu reagieren. Das Unternehmen kann beschließen, dass die Informationen nicht aussagekräftig genug oder die Ergebnisse nicht relevant waren, oder es kann auf der Grundlage der Ergebnisse eine strategische Neuausrichtung vornehmen. In beiden Fällen prüft die Geschäftsleitung die endgültigen Auswirkungen auf das Geschäft und erstellt neue Data-Mining-Schleifen, indem sie neue Geschäftsprobleme oder -möglichkeiten identifiziert.

 

Verschiedene Data-Mining-Verarbeitungsmodelle haben unterschiedliche Schritte, obwohl der allgemeine Prozess in der Regel recht ähnlich ist. Das Knowledge Discovery Databases Modell hat beispielsweise neun Schritte, das CRISP-DM Modell hat sechs Schritte und das SEMMA Prozessmodell hat fünf Schritte.

Anwendungen von Data Mining

Im heutigen Informationszeitalter kann fast jede Abteilung, Branche oder jedes Unternehmen von Data Mining Gebrauch machen.

 

Vertrieb

Data Mining fördert eine intelligentere und effizientere Nutzung des Kapitals, um das Umsatzwachstum zu steigern. Denken Sie an die Registrierkasse in Ihrem Lieblingscafé vor Ort. Dort wird bei jedem Verkauf erfasst, wann der Kauf getätigt wurde und welche Produkte verkauft wurden. Anhand dieser Informationen kann das Geschäft sein Produktsortiment strategisch ausrichten.

 

Marketing

Sobald das Kaffeehaus sein ideales Angebot kennt, ist es an der Zeit, die Änderungen umzusetzen. Um seine Marketingbemühungen effektiver zu gestalten, kann das Geschäft jedoch Data Mining nutzen, um zu verstehen, wo seine Kunden Anzeigen sehen, welche demografischen Zielgruppen angesprochen werden sollen, wo digitale Anzeigen geschaltet werden sollen und welche Marketingstrategien bei den Kunden am besten ankommen. Dazu gehört auch die Ausrichtung von Marketingkampagnen, Werbeangeboten, Cross-Sell-Angeboten und Programmen an den Ergebnissen des Data Mining.

 

Herstellung

Für Unternehmen, die ihre eigenen Waren herstellen, spielt Data Mining eine wesentliche Rolle bei der Analyse, wie viel die einzelnen Rohstoffe kosten, welche Materialien am effizientesten eingesetzt werden, wie viel Zeit im Fertigungsprozess verbraucht wird und welche Engpässe den Prozess negativ beeinflussen. Data Mining trägt dazu bei, dass der Warenfluss ununterbrochen ist.

 

Aufdeckung von Betrug

Das Herzstück des Data Mining ist die Suche nach Mustern, Trends und Korrelationen, die Datenpunkte miteinander verbinden. Daher kann ein Unternehmen Data Mining nutzen, um Ausreißer oder Korrelationen zu identifizieren, die nicht existieren sollten. So kann ein Unternehmen beispielsweise seinen Cashflow analysieren und eine wiederkehrende Transaktion auf ein unbekanntes Konto feststellen. Wenn dies unerwartet ist, möchte das Unternehmen vielleicht untersuchen, ob Gelder falsch verwaltet werden.

 

Personalwesen

Personalabteilungen verfügen oft über ein breites Spektrum an Daten, die sie verarbeiten können, darunter Daten zu Mitarbeiterbindung, Beförderungen, Gehaltsspannen, betrieblichen Leistungen, Inanspruchnahme dieser Leistungen und Umfragen zur Mitarbeiterzufriedenheit. Data Mining kann diese Daten miteinander in Beziehung setzen, um ein besseres Verständnis dafür zu bekommen, warum Mitarbeiter das Unternehmen verlassen und was neue Mitarbeiter anlockt.

 

Kundenbetreuung

Die Kundenzufriedenheit kann durch viele Ereignisse oder Interaktionen verursacht (oder zerstört) werden. Stellen Sie sich ein Unternehmen vor, das Waren versendet. Ein Kunde kann mit den Versandzeiten, der Versandqualität oder der Kommunikation unzufrieden sein. Derselbe Kunde kann über lange Wartezeiten am Telefon oder langsame E-Mail-Antworten frustriert sein. Data Mining sammelt operative Informationen über Kundeninteraktionen und fasst die Ergebnisse zusammen, um Schwachstellen zu ermitteln und hervorzuheben, was das Unternehmen richtig macht.

 

Vorteile und Nachteile von Data Mining

Vorteile von Data Mining

  • Sie fördert Rentabilität und Effizienz
  • Es kann auf jede Art von Daten und Geschäftsproblemen angewendet werden.
  • Sie kann verborgene Informationen und Trends aufdecken

Nachteile von Data Mining

  • Sie ist komplex
  • Ergebnisse und Vorteile sind nicht garantiert
  • Das kann teuer werden
 

Profis erklärt

  • Wirtschaftlichkeit und Effizienz: Data Mining stellt sicher, dass ein Unternehmen zuverlässige Daten sammelt und analysiert. Es handelt sich dabei oft um einen strengeren, strukturierten Prozess, bei dem ein Problem formell identifiziert wird, Daten im Zusammenhang mit dem Problem gesammelt werden und versucht wird, eine Lösung zu formulieren. Daher hilft Data Mining einem Unternehmen, profitabler, effizienter oder operativ stärker zu werden.
  • Weite Anwendungen: Data Mining kann je nach Anwendung sehr unterschiedlich aussehen, aber der Gesamtprozess kann bei fast jeder neuen oder bestehenden Anwendung eingesetzt werden. Im Grunde genommen kann jede Art von Daten erfasst und analysiert werden, und fast jedes Geschäftsproblem, das auf qualifizierbaren Beweisen beruht, kann mit Data Mining angegangen werden.
  • Verborgene Informationen und Trends: Das Endziel des Data Mining ist es, rohe Informationsbits zu nehmen und festzustellen, ob es eine Kohäsion oder Korrelation zwischen den Daten gibt. Dieser Vorteil des Data Mining ermöglicht es einem Unternehmen, mit den ihm vorliegenden Informationen einen Wert zu schaffen, der sonst nicht so offensichtlich wäre. Obwohl Datenmodelle komplex sein können, können sie auch faszinierende Ergebnisse liefern, verborgene Trends aufdecken und einzigartige Strategien vorschlagen.
 

Nachteile erklärt

  • Komplexität: Die Komplexität von Data Mining ist einer der größten Nachteile. Die Datenanalyse erfordert oft technische Fähigkeiten und bestimmte Software-Tools. Für kleinere Unternehmen kann dies eine zu schwer zu überwindende Einstiegshürde darstellen.
  • Keine Garantien: Data Mining bedeutet nicht immer garantierte Ergebnisse. Es kann vorkommen, dass ein Unternehmen statistische Analysen durchführt, Schlussfolgerungen auf der Grundlage aussagekräftiger Daten zieht, Änderungen vornimmt und dann keine Vorteile daraus zieht. Dies kann auf ungenaue Ergebnisse, Marktveränderungen, Modellfehler oder ungeeignete Datenpopulationen zurückzuführen sein. Data Mining kann nur als Entscheidungshilfe dienen, nicht aber als Ergebnisgarantie.
  • Hohe Kosten: Das Data Mining hat auch eine Kostenkomponente. Daten-Tools können teure Abonnements erfordern, und einige Daten können teuer sein, um sie zu erhalten. Bedenken hinsichtlich der Sicherheit und des Datenschutzes können ausgeräumt werden, allerdings kann eine zusätzliche IT-Infrastruktur ebenfalls kostspielig sein. Data Mining kann auch am effektivsten sein, wenn riesige Datensätze verwendet werden; diese Datensätze müssen jedoch gespeichert werden und erfordern eine hohe Rechenleistung für die Analyse.

Selbst große Unternehmen oder Behörden haben Probleme mit dem Data Mining. Im Whitepaper der FDA zum Thema Data Mining werden die Probleme mit schlechten Informationen, doppelten Daten, zu geringer oder zu hoher Berichterstattung beschrieben.

Datenauswertung und soziale Medien

Eine der lukrativsten Anwendungen von Data Mining wird von Unternehmen der sozialen Medien durchgeführt. Plattformen wie Facebook, TikTok, Instagram und X (ehemals Twitter) sammeln Unmengen von Daten über ihre Nutzer auf der Grundlage ihrer Online-Aktivitäten.

 

Aus diesen Daten lassen sich Rückschlüsse auf ihre Vorlieben ziehen. Die Werbetreibenden können ihre Botschaften gezielt an die Personen richten, die am ehesten positiv reagieren werden.

 

Data Mining in sozialen Medien ist zu einem großen Streitpunkt geworden. Mehrere Untersuchungsberichte und Enthüllungen zeigen, wie aufdringlich die Sammlung von Nutzerdaten sein kann. Der Kern des Problems besteht darin, dass die Nutzer den Geschäftsbedingungen der Websites zustimmen können, ohne zu wissen, wie ihre persönlichen Daten gesammelt werden oder an wen sie verkauft werden.

 

Beispiele für Data Mining

Data Mining kann für gute Zwecke eingesetzt werden, aber auch für illegale Zwecke. Hier ist ein Beispiel für beides.

 

eBay und elektronischer Geschäftsverkehr

eBay sammelt jeden Tag unzählige Informationen von Verkäufern und Käufern. Das Unternehmen nutzt Data Mining, um Beziehungen zwischen Produkten zu erkennen, gewünschte Preisspannen zu ermitteln, frühere Kaufmuster zu analysieren und Produktkategorien zu bilden.

 

eBay beschreibt das Empfehlungsverfahren wie folgt:

 
  1. Die Metadaten der Rohposten und die historischen Daten der Benutzer werden zusammengefasst.
  2. Skripte werden auf einem trainierten Modell ausgeführt, um den Artikel und den Benutzer zu generieren und vorherzusagen.
  3. Es wird eine KNN-Suche durchgeführt.
  4. Die Ergebnisse werden in eine Datenbank geschrieben.
  5. Die Echtzeit-Empfehlung nimmt die Benutzer-ID, ruft die Datenbankergebnisse auf und zeigt sie dem Benutzer an.
 

Facebook-Cambridge Analytica-Skandal

Ein abschreckendes Beispiel für Data Mining ist der Datenskandal zwischen Facebook und Cambridge Analytica. In den 2010er Jahren sammelte das britische Beratungsunternehmen Cambridge Analytica Ltd. persönliche Daten von Millionen von Facebook-Nutzern. Diese Informationen wurden später analysiert und für die Präsidentschaftswahlen 2016 von Ted Cruz und Donald Trump verwendet. Es wird vermutet, dass sich Cambridge Analytica auch in andere wichtige Ereignisse wie das Brexit-Referendum eingemischt hat.

 

Angesichts dieser unangemessenen Datengewinnung und des Missbrauchs von Nutzerdaten stimmte Facebook zu, 100 Millionen Dollar für die Irreführung von Anlegern über die Verwendung von Verbraucherdaten zu zahlen. Die Wertpapier- und Börsenaufsichtsbehörde behauptete, Facebook habe den Missbrauch 2015 entdeckt, seine Angaben aber mehr als zwei Jahre lang nicht korrigiert.

 

Was sind die Arten von Data Mining?

Es gibt zwei Hauptarten von Data Mining: prädiktives Data Mining und deskriptives Data Mining. Beim prädiktiven Data Mining werden Daten extrahiert, die für die Bestimmung eines Ergebnisses hilfreich sein können. Beschreibendes Data Mining informiert die Nutzer über ein bestimmtes Ergebnis.

 

Wie wird Data Mining betrieben?

Data Mining stützt sich auf große Datenmengen und fortschrittliche Computerprozesse, einschließlich maschinellen Lernens und anderer Formen der künstlichen Intelligenz (KI). Ziel ist es, Muster zu finden, die zu Rückschlüssen oder Vorhersagen aus großen und unstrukturierten Datensätzen führen können.

 

Was ist ein anderer Begriff für Data Mining?

Data Mining wird auch unter dem weniger gebräuchlichen Begriff «Knowledge Discovery in Data» (KDD) zusammengefasst.

 

Wo wird Data Mining eingesetzt?

Data-Mining-Anwendungen wurden entwickelt, um so gut wie jedes Vorhaben zu bewältigen, das sich auf Big Data stützt. Unternehmen im Finanzsektor suchen nach Mustern auf den Märkten. Regierungen versuchen, potenzielle Sicherheitsbedrohungen zu erkennen. Unternehmen, insbesondere Online- und Social-Media-Firmen, nutzen Data Mining, um profitable Werbe- und Marketingkampagnen zu erstellen, die auf bestimmte Nutzergruppen ausgerichtet sind.

 

Die Quintessenz

Moderne Unternehmen sind in der Lage, Informationen über ihre Kunden, Produkte, Produktionslinien, Mitarbeiter und Ladengeschäfte zu sammeln. Diese willkürlichen Informationen erzählen vielleicht keine Geschichte, aber der Einsatz von Data-Mining-Techniken, -Anwendungen und -Werkzeugen hilft, Informationen zusammenzufügen.

 

Das ultimative Ziel des Data-Mining-Prozesses ist die Zusammenstellung von Daten, die Analyse der Ergebnisse und die Umsetzung operativer Strategien auf der Grundlage der Data-Mining-Ergebnisse.