Data Mining
Möglichkeiten des Data Mining
Data Mining beschreibt den Prozess, in Sammlungen selbst kleinster elektronischer Datenmengen mit Hilfe automatisierter, statistischer Methoden Trends, Muster und Beziehungen zu erkennen. Mit Data Mining oder dem Entdecken von Wissen, wie es gelegentlich bezeichnet wird, können Sie im Unternehmen gespeicherte Daten nutzen und nach Mustern untersuchen. Mit diesen Mustern ist es möglich, den Profit zu steigern, Kosten zu sparen, Produkte zu optimieren und die Kundenzufriedenheit zu erhöhen.
Data Mining-Lösungen eignen sich hervorragend für das Sichten Hunderter vergleichbarer und potenziell hilfreicher Dimensionen der Analyse und miteinander verbundener Kombinationen. Alle Data Mining-Algorithmen verfügen über integrierte Mechanismen zum Untersuchen einer großen Anzahl potenzieller, in Daten erkennbarer Muster und zum Reduzieren der Ergebnisse auf einfache Zusammenfassungsberichte. Die OLAP und Data Mining-Ansätze ergänzen sich und führen bei gemeinsamer Bereitstellung zu Synergieeffekten.
Die häufigsten Data Mining-Techniken sind Entscheidungsbäume (Decision Trees), neuronale Netze, Clusteranalyse und Regression. Als Teil der Data Mining-Infrastruktur hat Microsoft die Spezifikation OLE DB für Data Mining erstellt, eine Erweiterung von OLE DB für OLAP. Sie definiert die Data Mining-Infrastruktur und COM-Schnittstellen, durch die Data Mining-Modelle und Algorithmen für Kunden sichtbar werden. OLE DB für Data Mining dient auch als Standard, den externe Produkthersteller verwenden können, um ihre Data Mining-Funktionalität in der Microsoft-Umgebung bereitzustellen. Dieser Standard wird bereits von einigen Drittherstellern von Tools und Anwendungen genutzt, insbesondere von den Mitgliedern der Microsoft Data Warehousing Alliance, darunter die drei Data Mining-Anbieter: Angoss Software, DBMiner Technology und Megaputer Intelligence.
Der Entwicklungsansatz für Data Mining
Eine Data Mining-Abfrage unterscheidet sich von einer traditionellen Abfrage ebenso, wie sich das dahinter stehende Modell von einer traditionellen Datenbanktabelle unterscheidet. In einer Data Mining-Abfrage geben Sie die zu untersuchende Frage an (z. B. Bruttoumsatz oder Wahrscheinlichkeit von Reaktionen auf ein zielgruppenorientiertes Marketingangebot), und bekommen die Abfrageergebnisse in Form eines Strukturmodells, das die Frage beantwortet, zurück.
Das Microsoft-Entwicklungsteam erstellte mehrere Abfrage-Assistenten, um den Erstellungs- und Interaktionsprozess mit dem Data Mining-Modell so zu vereinfachen, dass Endbenutzer die Abfragesyntax nicht beherrschen müssen.
Drei Hauptstrategien standen bei der Entwicklung der SQL Server 2000 Analysis Services im Mittelpunkt: Einfache Bedienung durch den Anwender, OLAP- und Data Mining-Integration sowie universeller Datenzugriff (Universal Data Access, UDA). Das Team implementierte die „Selbstbedienungsstrategie" in erster Linie über Aufgaben-Assistenten, die den Benutzer durch die einzelnen Schritte beim Entwickeln und Verwenden von Data Mining-Modellen leiten. Für die Integration von OLAP- und Data Mining-Metaphern werden Abfrageergebnisse über eine Oberfläche an den Benutzer übermittelt, die bei OLAP- und Data Mining-basierten Abfragen identisch ist.
Durch die hinzugefügten Data Mining-Funktionen in SQL Server 2000 konnte die Leistungsfähigkeit des SQL Servers funktional deutlich erweitert werden. Ein Data Mining-Modell kann aus relationalen Quellen (Standardtabellen) oder dimensionalen Quellen (Cube-Strukturen) entwickelt werden. Der Analysis-Manager enthält mehrere Assistenten, die die Interaktion mit Data Mining-Modellen vereinfachen.
Aufbau des Data Mining-Prozesses
Bei den Ausgangsdaten für Data Mining handelt es sich um eine Sammlung von Tabellen. In einem typischen Analyseszenario werden beispielsweise Kundenreaktionen auf frühere Angebote dazu verwendet, ein Data Mining-Modell zu trainieren. Mithilfe dieses Modells können dann die Eigenschaften von Kunden ermittelt werden, die mit der größten Wahrscheinlichkeit auf neue Angebote reagieren würden. Bei Data Mining verwenden Sie zunächst den Trainingsprozess, um Muster in zurückliegendem Verhalten zu erkennen, und verwenden diese Muster wiederum, um das zukünftige Verhalten vorherzusagen. Data Mining erstellt diese Vorhersage über einen Verknüpfungsvorgang, den Sie über die Data Transformation Services (DTS) implementieren können. DTS stellt ein einfaches Abfragetool zur Verfügung, das das Erstellen eines Vorhersagepakets ermöglicht. Dieses Paket enthält das trainierte Data Mining-Modell und verweist auf eine untrainierte Datenquelle, von der Sie vorhersagbare Ergebnisse erhalten möchten. Wenn Sie z. B. eine Datenquelle trainiert haben, so dass diese nach einem Muster für die Vorhersage wahrscheinlicher Kundenreaktionen auf eine Konferenzeinladung sucht, können Sie DTS dazu verwenden, das vorhergesagte Muster auf eine neue Datenquelle anzuwenden. Sie könnten z. B. abfragen, wie viele Kunden im neuen Datensatz wahrscheinlich auf die Einladung reagieren würden. Die DTS-Mechanismen führen zu wertvollen Synergieeffekten zwischen Data Mining, BI und Datawarehousing in der Microsoft-Umgebung.