Ist Big Data nur Datenmüll?

Veröffentlicht am 18. Dezember 2015

Geschrieben von EOSWISS

Täglich kommen neue Sensoren und Geräte auf den Markt, mit denen Patienten medizinische Daten selbst erfassen können. Sensoren messen sekündlich den Zuckerspiegel und den Blutdruck, registrieren Bewegungsdaten, Schlafzustände und vieles mehr. Die Datenflut steigt immer mehr an. Wie kann man diese Daten rasch analysieren und darauf basierend verlässliche Entscheidungen fällen? Bekannte Methoden hierfür sind „Neuronale Netze“ und „SIMCA-Modellierungen“; Letztere sind in vielen Situationen vorteilhafter für die Anwendungen des „Predictive Enterprise“.

Big Data: Methoden zur Analyse der Datenflut — Was tun mit Big Data?

E-Medicin

Ein Blutzuckermessgerät, das permanent alle relevanten Daten misst und speichert, klingt zunächst einmal grossartig. Doch die ersten Nutzer solcher Tools geben bereits nach kurzer Zeit entnervt auf.

„Ich sehe immer wieder mal auf das Lesegerät und regle meine Insulindosierung nach. Aber wenn man das ständig macht, wird man ja verrückt. Ich habe danach wieder Wochen, in denen ich mein Insulin lieber wie vorher nach Gefühl dosiere“

berichtet beispielsweise ein Benutzer eines hochmodernen Insulin-Dosiersystems.

Medizinisch ist es natürlich ideal, Daten ununterbrochen zu erheben, um so Medikamente exakt und optimal zu dosieren. Aber wer wertet die dabei entstehende Datenflut aus? Gibt es eine automatische Mustererkennung?

In der Schweiz ist zum Beispiel ein neues Gesetz in Ausarbeitung, das Patienten das Recht zugesteht, die Daten von derart verknüpften Geräten – sogenannten „Connected Devices“ – in Ihre Patientenakten eintragen zu lassen. Von hier ist es nur noch ein kleiner Schritt, bis der Patient von seinem Arzt verlangt, die von ihm selbst (zum Beispiel mithilfe einer App) oder einem Sensor aufgezeichneten Daten auch zu interpretieren. Wie soll das in der knappen Zeit möglich sein?

So schön und vorteilhaft es also ist, dass es diese Datenflut gibt: Ungenutzt besteht sie nur aus Terrabyte von Datenmüll!

Höchstwahrscheinlich wird es nach dem ersten Hype der Connected Devices der sogenannten „Wearables“ zu einer grossen Nachfrage nach Softwarepaketen für die Datenanalyse kommen. Solche Analysesysteme zur Mustererkennung sind heute bereits erhältlich und lassen sich grob in zwei Verfahren einteilen:

Neuronale Netze
SIMCA-Modellierungen

Neuronale Netze

Bei diesem Verfahren soll das Lernen des menschlichen Gehirns anhand von mathematischen Methoden nachgebildet werden. Ganz vereinfacht gesagt bedeutet das, dass hier mithilfe neuronaler Netze in grossen Datenstrukturen nach bestimmten Eigenschaften und Gemeinsamkeiten gesucht wird, indem diese oft riesigen Datenbanken nach immer wiederkehrenden Mustern gerastert werden. Voraussetzung dafür ist, dass man das neuronale Netz mit einem Trainingsdatensatz trainiert hat.

Sensorik

Ein schönes Anwendungsbeispiel von neuronalen Netzen gibt es in der Sensorik: Mithilfe neuronaler Netze wird hier das komplexe Geruchsprofil von Kaffee untersucht. Während speziell ausgebildete Experten die Kaffeearomen beurteilen, analysieren Gaschromatographen gleichzeitig die chemischen Bestandteile des Geruchs. Mit diesen Resultaten trainiert man die mathematischen Algorithmen des neuronalen Netzes. Schlussendlich kann die Maschine beurteilen, ob der Kaffee gut oder schlecht schmeckt.

Mustererkennung

Doch bevor die Maschine dies selbstständig beurteilen kann, wird zunächst mathematisch in den Messwerten nach Mustern gesucht, die mit der Bewertung der Kaffeeexperten übereinstimmen.

Was damit erreicht werden soll? Kaffeeexperten können pro Tag nur eine sehr begrenzte Anzahl von Untersuchungen durchführen. Nase und Gaumen sind schnell erschöpft und brauchen dann eine Regenerationszeit. Maschinen hingegen können ununterbrochen messen, das Aroma aber nicht hinsichtlich „gut“ bzw. „schlecht“ bewerten. Doch sobald das Muster der Messwerte für „gutes“ bzw. „schlechtes“ Aroma bekannt ist, kann der Röstprozess maschinell überwacht werden. Grosse Röstereien führen diese Mustererkennung mithilfe neuronaler Netze tatsächlich bereits so durch.

Da das Kaffeearoma aus mehreren Hundert chemischen Komponenten besteht, wird es mehrmals pro Minute komplett analysiert. Dadurch kommt es während des Prozesses zu einer enormen Flut an Analysedaten. Nur durch eine automatisierte Mustererkennung kann man diese Daten zur Prozesssteuerung nutzen.

Predictive Enterprise

Neueste Anwendungen verwenden neuronale Netze, um beispielsweise die Kundennachfrage vorherzusagen („Predictive Enterprise“). Hierfür wird mithilfe historischer Nachfragedaten, eigener Preise und jenen der Konkurrenz sowie Daten aus sozialen Netzwerken versucht, das Nachfrageverhalten von Konsumenten vorherzusagen.

Big Data: Der Datenstrom muss modelliert werden, ansonsten stiftet er mehr Verwirrung als Nutzen. — Der Datenstrom muss modelliert werden, ansonsten stiftet er mehr Verwirrung als Nutzen.

SIMCA-Modellierungen

Die SIMCA-Modellierungsart analysiert zunächst die vorhandenen Daten, um sinnvolle Strukturen zu finden. Die Hauptkomponenten, die in der sogenannten „Principal Component Analysis“ (PCA) ermittelt werden, stellen dann die wichtigsten Unterschiede in den Datensätzen dar und unterteilen sich in physikalische, chemische bzw. technische Merkmale der verschiedenen Gruppen, die in den Daten vorkommen.

Hauptkomponentenanalyse

Wertet man zum Beispiel die Daten von Herzpatienten aus, könnte man im Prinzip auch Daten von sozialen Netzwerken, Wetterdaten, Mondphasen und das Fernsehprogramm zur Analyse heranziehen. Bei der Hauptkomponentenanalyse sieht man dann aber rasch, dass es primär auf Puls, Blutdruck, Gewicht und bestimmte Eigenheiten im EKG ankommt. Die Daten zu Mondstand und Lieblingssendung können vernachlässigt werden – mittels SIMCA-Modellierung scheidet man solchen Datenmüll bereits von Anfang an aus.

PCA-Modelle

Im nächsten Schritt konstruiert man Modelle, die auf diesen PCA-Daten basieren. Wenn wir zum Beispiel Daten von gesunden und kranken Personen miteinander vergleichen, so unterscheiden sich ihre Datensätze grundsätzlich voneinander – die errechneten Hauptkomponenten, also die realen zugrundeliegenden physikalischen Daten wie Blutdruck oder Herzfrequenz, weisen unterschiedliche Eigenschaften auf. Im Gegensatz zur Vorgehensweise neuronaler Netze werden hier abstrakte Muster mit realen Parametern verknüpft: Man kann beispielsweise „sehen“, in welchem Pulsbereich Herzkrankheiten vorliegen oder welche Auffälligkeiten im EKG auf welche Krankheiten hindeuten. Bei neuronalen Netzen hingegen ist die Mustererkennung eine „Blackbox“.

Entscheidungen

SIMCA-Modellierungen werden heute vielfach bereits in Industrie und Forschung eingesetzt. So steuert man beispielsweise komplexe Fertigungsabläufe, an denen viele Maschinen beteiligt sind, mit solchen Modellen. Komplizierte Industrieproduktionen liefern unheimlich grosse Datenmengen in sehr kurzer Zeit. Diese Datenmengen werden daher zunächst überschaubar gemacht, um so eine rasche Entscheidung (basierend auf der Diskriminanzanalyse) vorzubereiten. Wenn der Prozess nicht unter Kontrolle ist, wird entsprechend gegengesteuert. Diese Anwendungen werden heute unter dem Begriff „Predictive Enterprise“ zusammengeführt.

Process Analytical Technology

In der pharmazeutischen Produktion hat sich für dieses Vorgehen der Name „Process Analytical Technology“ (PAT) eingebürgert. Dabei werden die Daten aller in der Produktion verwendeten Sensoren zentral zusammengeführt, SIMCA-Modelle kontrollieren den Prozess und bereiten die Entscheidungen vor. Dadurch wird die Prozesssicherheit deutlich erhöht und die Schwankungsbreite der Produktqualität wesentlich verringert.

Bilderkennung

Weitere zentrale Anwendungen sind zum Beispiel in der Bilderkennung zu finden. Beim Sortieren von Schüttgütern (Kaffee, Weizen, Reis usw.) werden Fremdkörper ausgefiltert, indem eine Hochgeschwindigkeitskamera den Strom der Körner filmt. Die Software wertet Farbe, Form und Textur der Körner automatisch aus und klassifiziert das Korn anhand dieser gemessenen Hauptkomponenten als „gut“ oder „schlecht“. Entsprechen also Umriss, Oberflächenstruktur oder Farbe laut Kamera nicht dem normalen Sortiergut, werden diese Partikel automatisch aussortiert. Bei diesem Verfahren entstehen sehr hohe Datenmengen, doch die Entscheidung muss dennoch in Sekundenbruchteilen getroffen werden. Auch hier setzt man auf SIMCA-Modelle, da die Software vollautomatisch und mit extrem hoher Trefferquote sortiert – ebenfalls eine wichtige Anwendung für das Predictive Enterprise.

Internet of Things

Im Zeitalter des „Internet of Things“ (IoT) bzw. „Internet of Everything“ wird es zu einem extremen Anstieg der Datenmengen kommen. Insbesondere für Unternehmen in der Pharma- und Medizintechnikbranche ist es von herausragender Wichtigkeit, hoch effiziente Werkzeuge zu entwickeln, um brauchbare Informationen aus dieser Datenlawine herauszudestillieren. Sowohl Neuronale Netze als auch SIMCA-Modellierungen haben sich hierfür in der Praxis bewährt und kommen in der Industrie bereits zum Einsatz.

Während Neuronale Netzwerke überall dort gut einsetzbar sind, wo es um eine einfache Prognose geht – beispielsweise um die Entscheidung, eine Bestellung auszulösen oder einen Preis zu senken bzw. zu erhöhen –, sind SIMCA-Modellierungen vorteilhafter, wenn komplette Prozesse analysiert und gesteuert werden sollen. Das entspricht vielen Anwendungen von Predictive Enterprise, wenn also beispielsweise Fertigungsabläufe optimal gelenkt oder Patientendaten auf mögliche Krankheiten hin effizient durchsucht werden sollen.

--------------------------------------

EOSWISS Engineering Sàrl

Wir von EOSWISS Engineering Sàrl arbeiten mit grosser Freude an neuen Projekten. Wenn auch Sie Ihre Abläufe oder Daten intensiver und zielführender analysieren möchten, helfen wir Ihnen gerne weiter. Kontaktieren Sie uns – wir freuen uns auf Ihre E-Mail: Diese E-Mail-Adresse ist vor Spambots geschützt! Zur Anzeige muss JavaScript eingeschaltet sein.

EOSWISS Engineering Sàrl ist eine Innovations- und Entwicklungsfirma in Genf. Wir entwickeln neue Materialien, Produkte und Technologien. Wir sind ausserdem Spezialisten für „Design of Experiments“ (DOE) und statistischer Modellierung von komplexen Zusammenhängen (Mustererkennung, PAT, SIMCA Modellierung). Neben hoch entwickelten Statistikwerkzeugen verfügen wir auch über unsere eigenen Optimierungsstrategien.

www.eoswiss-engineering.ch

Innovation – Process Excellence – Business Development

Tel: 0041 22 552 0562

Fotos: Fotalia