Website
Aktuelles
Montag, 31.08.2020

Forschung

Stochastisch-relationale Repräsentationsprachen und Schlussfolgerungsverfahren

.

Künstliche Intelligenz: Neue Forschungsprojekte am Institut für Informationssysteme der Universität ermöglichen Durchbrüche bei Modellierungstechniken nicht nur, aber auch für das Gesundheitswesen

Denken Sie einmal an Ihre letzte Familienfeier. Wer war denn da alles anwesend? Welcher Ihrer Verwandten war in Ihrer Nähe? Gerade in der heutigen Zeit wird klar, dass jemand auf der Feier mit einer gewissen Wahrscheinlichkeit an COVID-19 erkrankt gewesen sein könnte. Das hängt von dem Bundesland ab, aus dem er kommt, vielleicht noch davon, ob er gerade im Urlaub war und ob es ein Risikogebiet war. Wenn Sie in einer speziellen Beziehung (Relation) bei einer Veranstaltung standen (hier: in der Nähe bei einem Familienfest), dann steigt die Wahrscheinlichkeit, dass Sie sich angesteckt haben. Haben Sie denn auf der Familienfeier Masken getragen? Hm, Sie gewiss, das wissen Sie, bei anderen können Sie es vielleicht gar nicht mehr genau sagen, ja vielleicht noch Ihre Eltern, die sind schon älter. Mit Ihrem Bruder waren Sie lange in ein Gespräch verwickelt, also lange direkt in der Nähe von ihm.

Ob Sie erkranken, hängt von sicheren Informationen über Sie und meist unsichere Informationen über andere Personen ab, die auf der Feier waren. Diese Personen sind immerhin alle bekannt, es war ja eine Familienfeier, Sie kennen die Leute. Es wird aus dem Beispiel auch deutlich, dass es um die Beziehungen zwischen den Personen geht, die auf der Feier waren. Einiges hierzu wissen Sie genau, anderes können Sie vielleicht nur ungefähr sagen. Da erfahren Sie aus sicherer Quelle, dass ein Verwandter schon erkrankt ist (positiver Test), und aus einer anderen Quelle, etwas weniger verlässlich, erfahren Sie, dass für einen anderen die Wahrscheinlichkeit, dass er erkrankt ist, sehr hoch sein soll. Sollen Sie sich jetzt auf Ihre Kosten auf COVID-19 testen lassen, oder wäre das eine übertriebene Vorsicht?

Nun nehmen wir noch einmal an, die oben skizzierten Daten seien auch in einer personalisierten Corona-App verfügbar und man möchte ein System bauen, das die Daten fachgerecht verarbeitet, um Sie ggf. zu warnen, aber auch nicht unnötig zu beunruhigen. Soll man einfach schnell ein Programm schreiben? Doch wie kann man die Daten, die über der Zeit eintreffen, so verarbeiten, dass Sie zum richtigen Zeitpunkt informiert werden, sofern die Wahrscheinlichkeit, dass Sie sich angesteckt haben, einen Schwellwert übersteigt? Wenn Sie sich einmal vorstellen, dass Ihre App laufend Daten über Sie und Beziehungen zwischen Ihnen und anderen Personen sammelt, dann sehen Sie auch, dass Ihre App im Prinzip Entscheidungen treffen muss, Sie zu informieren, dass die Gefahr einer Ansteckung groß ist. Ach ja, und die App soll irgendwann im Hintergrund laufen, so dass Sie sich nicht kümmern müssen. Genau, freigegebene Daten von anderen und Daten, die Sie freigeben, soll Ihre App mit anderen Apps schon austauschen. Und die Entscheidung, ob Sie gewarnt werden, soll in einem gewissen Sinne optimal sein. Wenn nichts los ist, wollen Sie auch nicht gestört werden.

Entscheidende Durchbrüche bei Modellierungstechniken für Künstliche Intelligenz

Wie kann man ein solches System (App) gestalten? Nun, wir können uns vorstellen, ein Modell zu verwenden, das durch Fachexperten erstellt und validiert wurde oder dessen Parameter (und Struktur) vielleicht sogar aus bestehenden großen Datenmengen gewinnbar sind, so dass mit Hilfe des Modells optimale Entscheidungen getroffen werden können. Es ist vorteilhaft, sich das System nicht einfach nur als beliebiges Programm vorzustellen, sondern als ein für Sie tätiger Stellvertreter (engl. agent), der versucht, das ihm vorgegebene Ziel, Sie über einen Zeitverlauf hinweg immer rechtzeitig zu warnen, möglichst schnell zu erreichen. Ihr Agent soll also in Ihrem Sinne optimal handeln, d.h. er soll intelligent sein.

Für die Realisierung eines Agenten kann man sich verschiedene Strategien überlegen, die u.a. auch eine Kommunikation zwischen Agenten verschiedener Personen einbeziehen können, so dass ein Agent sich von „anderen eine Scheibe abschneiden kann“. Auch bei dem Wunsch nach optimaler Entscheidungsfindung müssen allerdings Aspekte des Schutzes der Daten anderer berücksichtigt werden, und Ihr Agent soll Ihre Daten auch dann nicht weitergeben, wenn es Ihnen vielleicht sogar nützen könnte, basta. Oder vielleicht dann doch? Na, dann sollte das System, Ihr Agent, Ihnen vielleicht die Chancen, die sich daraus ergäben, darlegen und Ihnen die Situation erläutern.

Systeme, die aus dieser Perspektive entworfen werden, werden von der Wissenschaft der Künstlichen Intelligenz (KI) untersucht. Die KI verwendet hierzu je nach Anwendung ganz verschiedene mathematische Formalismen. Unsicherheiten, die unserem Beispiel sicherlich vorhanden sind, werden über Modellierungstechniken aus der Stochastik behandelt. Optimale Entscheidungen werden durch die Statistik möglich. Informationen über Objekte (also z.B. Personen), deren Eigenschaften und deren Relationen („in der Nähe gewesen“) sind mit Unsicherheiten versehen. Das von uns oben betrachtete Modell wird auch kaum ohne Unsicherheiten auskommen (man muss sich nicht unbedingt mit Sicherheit anstecken, auch wenn alles dafürspricht). Fragen der Modellierung dieser Art werden in der Teilwissenschaft Stochastisch-relationale KI untersucht (engl. Stochastic Relational AI, StaRAI). Seit einigen Jahren versucht man, praktikable Schlussfolgerungsverfahren für diese notwendige Art der Modellierung zu realisieren. Im Institut für Informationssysteme wurden in zwei Promotionsarbeiten hierzu entscheidende Durchbrüche erzielt.

Dr. Tanya Braun: Bestehende Verfahren um mehrere Größenordnungen geschlagen

Dr. Tanya Braun promovierte in der Algorithmik von StaRAI-Schlussfolgerungsverfahren und kann mit neuen Algorithmen und Datenstrukturen bestehende Verfahren um mehrere Größenordnungen schlagen. Die Arbeiten wurden sehr hochrangig veröffentlicht, wir führen hier nur wenige ausgewählte Veröffentlichungen auf.

  • Tanya Braun, Ralf Möller: Parameterised Queries and Lifted Query Answering
    in: IJCAI-18 Proceedings of the 27th International Joint Conference on Artificial Intelligence, 2018, International Joint Conferences on Artificial Intelligence Organization, p.4980-4986
  • Tanya Braun, Ralf Möller: Lifting Queries for Lifted Inference
    in: Proceedings of the 24th European Conference on Artificial Intelligence (ECAI 2020), 2020

Damit wäre eine erste Grundlage geschaffen, die oben beschriebene App, gedacht als Agent im Sinne der KI, zu realisieren. So ein Agent bekommt über der Zeit durch eingehende Daten aber ja immer mehr Informationen über Personen, ihre Umgebungen und Relationen usw. Wie kann das gutgehen, wenn immer mehr unsichere (!) Informationen zu verwalten sind? Kann der Agent (bzw. das Programm, das ihn realisiert) einfach bestimmte alte Daten weglassen und nicht mehr betrachten? So einfach kann man es sich leider nicht machen. Der Agent muss „sinnvoll“ verallgemeinern können, wobei „sinnvoll“ sich wieder auf das Ziel des Agenten bezieht, möglichst oft, wenn nicht immer, optimale Entscheidungen für passende Handlungen zu treffen. Er soll dauerhaft intelligent sein. Es gilt, den Begriff „sinnvoll verallgemeinern“ mathematisch exakt zu definieren, so dass das System, der Agent, vertrauenswürdig bleibt, also selten mal einen Fehlalarm gibt, auch wenn über der Zeit immer mehr Daten eintreffen und zu verarbeiten sind.

Marcel Gehrke: Stabiles Schlussfolgerungssystem

Marcel Gehrke hat in seiner Dissertation hierzu gearbeitet und das zeitliche (dynamische) Schließen zum Finden der besten Handlung des Agenten im Kontext von StaRAI untersucht und konnte mit seinen neuen Optimierungsverfahren, die tief mit denen von Dr. Tanya Braun verwoben sind, und mit seinen neuen Verallgemeinerungsverfahren zum ersten Male ein stabiles Schlussfolgerungssystem schaffen, so dass so ein Agent, den wir uns im Hintergrund arbeitend vorstellen, nicht mehr Zukunftsmusik ist, und in einer App, mit der die Daten aus der Familienfeier ausgewertet werden, realisiert werden könnte.

Auch diese Arbeiten wurden auf angesehenen internationalen Tagungen präsentiert:

  • Marcel Gehrke, Tanya Braun, Ralf Möller: Taming Reasoning in Temporal Probabilistic Relational Models. In: Proc. of the 24th European Conference on Artificial Intelligence (ECAI 2020), 2020.
  • Marcel Gehrke, Simon Schiff, Tanya Braun, Ralf Möller: Which Patient to Treat Next? Probabilistic Stream-based Reasoning for Decision Support and Monitoring, in: Proc. of the Int. Conf. Big Knowledge (ICBK 2019), Peking, IEEE, p.73-80, 2019.

Ist damit alles gelöst? Nun ja, bei der Familienfeier kennen wir die Personen. Doch waren wir neulich nicht zum Skifahren? Da waren auch ganz schön viele Leute im Restaurant, doch wir kennen Sie leider nicht, wir können nur Schätzungen über vermutliche Anzahlen einbringen. Ähnliche Situationen können auch auftreten, wenn man im Prinzip alle Personen und deren Beziehungen kennt, aber aus Datenschutzgründen nur eine „verwaschene“ Perspektive einnehmen darf.

Dr. Tanya Braun hat in Ihrer Dissertation auch für diese Situationen schon Lösungen erarbeitet, die Sie hochrangig veröffentlicht hat. Hier ein Beispiel:

  • Tanya Braun, Ralf Möller: Exploring Unknown Universes in Probabilistic Relational Models. In: Proc. AI 2019: Advances in Artificial Intelligence, Springer, p.91-103, 2019.

Nun kommen Daten für den Agenten ja üblicherweise nicht nur aus einer Quelle. Gerade wenn mehrere Personen gleichzeitig an einem Ort sind, sind verschiedene Eingänge mit Daten über der Zeit in Form von sog. Datenströmen zu koordinieren und auszuwerten.

Dr. Özgür Özcep: Verarbeitung von multiplen Datenströmen

Die Verarbeitung von multiplen Datenströmen hat Dr. Özgür Özcep am Institut für Informationssysteme im Rahmen von Forschungsarbeiten zu strombasierten Schlussfolgerungsverfahren erforscht, die zur Realisierung von intelligenten Agenten eingesetzt werden können. Zum ersten Male konnten multimodale heterogene Datenströme in semantisch wohl verstandener Weise verarbeitet werden.

  • Özgür Özçep, Ralf Möller: Towards Foundations of Agents Reasoning on Streams of Percepts

in: Proceedings of the 31st International Florida Artificial Intelligence Research Society Conference (FLAIRS-18), 2018, p.80-85

Dr. Özcep konnte sich, auch durch weitere Arbeiten, z.B. in DFG- und EU-geförderten Projekten, im Fach Informatik habilitieren.

Nun lieber Leser, Sie werden vermutlich fürchten, dass Ihr Telefon vermutlich schnell leer sein wird, wenn wir einen derart ausformulierten intelligenten Agenten mit den notwendigen aufwendigen Schlussfolgerungsketten auf Ihrem Telefon in einer App laufen lassen. Das ist heutzutage wohl eher in der „Cloud“ realistisch (abgesehen von Sicherheitsbedenken, natürlich). Vielleicht können wir aber in der Zukunft ja aus erfahrungsgemäß gut für Sie persönlich funktionierenden Modellen auch Daten generieren, aus denen wir dann automatisch skalierbare Approximationen lernen können, die auf dem Graphikchip Ihres Telefons schnell und batterieschonend für die Erstinformation unterwegs laufen, wenn auch mit höherer Chance der möglichen Fehlinformation, dafür aber lokal und auf jeden Fall unter Ihrer Kontrolle.

Wir haben hier Beispiele aus dem Gesundheitswesen verwendet. Es sollte aber deutlich geworden sein, dass die Einsichten, die gewonnen wurden, auch für andere Anwendungsbereiche eine große Bedeutung haben. Forschung in der Künstlichen Intelligenz im Institut für Informationssysteme nutzt wohlverstandene mathematische Modelle, mit denen wir praxisrelevante Zusammenhänge darstellen können, und die Forschung realisiert effiziente und korrekte Schlussfolgerungsverfahren mit Techniken der Informatik. Auch die Generierung von StaRAI-Modellen aus Daten wurde untersucht (maschinelles Lernen). Die in den Arbeiten verwendeten Algorithmen sind exakt, d.h. sie arbeiten mathematisch korrekt, auch im Falle von modellierten Unsicherheiten. Wie wir aber gesehen haben, sind Agenten gezwungen, eingehende Daten wieder zu verallgemeinern. Mit den erzielten Ergebnissen ist das zwar so möglich, dass vom Speicher abhängige Fehlergrenzen eingehalten werden können, allmächtig sind die von der Künstlichen Intelligenz untersuchten Systeme aber aus natürlichen und nachvollziehbaren Gründen nicht. Aber wir wissen, was die Systeme können und was nicht, und wir können sie verantwortungsvoll einsetzen.

(Prof. Dr. Ralf Möller)

Prof. Dr. Ralf Möller

Dr. Tanya Braun

Marcel Gehrke

Dr. Özgür Özcep