Projekt

Leitinnovation SmartWeb

Das Ziel des BMBF-geförderten Projekts SmartWeb (http://www.smartweb-projekt.de/ ) ist der intelligente, multimodale, mobile Zugriff auf das Semantische Web. An der Umsetzung dieser Vision arbeiten seit Mitte 2004 vierzehn Konsortialpartner unter der Führung des Deutschen Forschungsinstituts für künstliche Intelligenz (DFKI). Neben einer Reihe von Universitäten und Forschungseinrichtungen sind auch kleinere und mittlere Unternehmen sowie die Großindustrie beteiligt.

Ein großes Teilprojekt in SmartWeb bildet das Semantische Web. Dieses Internet der nächsten Generation basiert auf der inhaltlichen Beschreibung digitaler Dokumente mit standardisierten Vokabularien, die eine maschinell verarbeitbare Semantik haben. In SmartWeb wird vor allem angestrebt, die maschinenlesbaren Inhalte des World Wide Web auch maschinell verarbeitbar zu machen. Die Arbeitspakete, die am Lehrstuhl für Mustererkennung (Informatik 5) bearbeitet werden, sind Teil des zweiten Teilprojekts, das sich mit dem multimodalen, mobilen Zugang zu den Inhalten des Semantischen Webs beschäftigt. Das Architekturmodell von SmartWeb sieht dabei ein Client-Server-Szenario vor, bei dem die Benutzereingaben von einem Endgerät (PDA, Smartphone o.Ä.) zu einem Server geschickt werden, auf dem die Dialogverarbeitung stattfindet. Einen Teil des Dialog-Servers bildet ein multimodaler Erkenner (MME), der neben einem Spracherkenner weitere Software-Module zur Verarbeitung der verschiedenen Eingabemodalitäten (u.a. Sprach- und Videosignale) umfasst. Drei der Module werden am Lehrstuhl für Mustererkennung (LME) entwickelt: die Detektion und Verarbeitung von Out-Of-Vocabulary-Wörtern (OOV-Wörtern, also Wörter, die nicht im Erkennungsvokabular sind) bei der Spracherkennung (in enger Zusammenarbeit mit der Firma Sympalog), die Klassifikation des Benutzerzustands auf der Basis von Sprach-, Video- und Biosignalen und die Klassifikation des Benutzerfokus mit Hilfe multimodaler Informationsquellen.

Nach der Integration einer ersten Version des OOV-Moduls in das SmartWeb-System im Jahre 2005 wurden 2006 auch die Einzelkomponenten zur Bestimmung des Benutzerfokus (Klassifikation von On-View/Off-View, On-Talk/Off-Talk) eingebunden. Die Ergebnisse der Arbeiten zur Benutzerzustandsklassifikation werden im Rahmen eines separaten Systems demonstriert.

Erkennung und Verarbeitung von Out-Of-Vocabulary Wörtern

Um die Verarbeitung von unbekannten Wörtern in der Spracheingabe des SmartWeb-Demonstrators weiter zu verbessern, wurde im Jahr 2006 vor allem an der Erkennung von Wortuntereinheiten gearbeitet. Als Basis für das Vorgehen dienten Untersuchungen zur Häufigkeit von unbekannten Wörtern und Wortuntereinheiten (u.a. Silben, Laute) und die jeweilige Fehlerrate bei der Dekodierung durch einen entsprechend trainierten Spracherkenner. Für das EVAR-Korpus (Erlanger Zugauskunftssystem) zeigte sich, dass bei Silben ein gutes Gleichgewicht zwischen der erzielten Erkennungsrate auf Lautebene (82.8%) und der Rate von unbekannten Silben (1.0% der Testmenge bezogen auf die Trainingsmenge) besteht. Zwar ließ sich mit einem Worterkenner eine bessere Erkennungsrate erzielen (84.6%), allerdings war die Out-Of-Vocabulary-Rate (OOV-Rate) mit 2.6% doch erheblich höher. Für Laute lag die OOV-Rate nahe null, allerdings brach das Erkennungsergebnis auf 70% ein. Als Konsequenz wurde der Monophon-Erkenner im SmartWeb-Demonstrator durch einen Silbenerkenner ersetzt. Weitere Verbesserungen werden von einem aktuell untersuchten Ansatz mit dynamisch (datengetrieben) erzeugten Wortuntereinheiten erwartet.

Neben den konzeptionellen Änderungen am Setup des hybriden Spracherkenners (parallele Erkennung von Wörtern und Wortuntereinheiten) wurden auch Anstrengungen unternommen, die Datenlage für das Training der Wortuntereinheiten-Erkenner zu verbessern. Zu diesem Zweck konnten verschiedene vom Projektpartner Sympalog aufgenommene Korpora herangezogen werden. Allerdings mussten die am Lehrstuhl vorhandenen phonetischen Lexika stark erweitert werden, um den neu hinzugekommenen Wortschatz abdecken zu können. Bei der Überarbeitung der Lexika spielte auch deren Verwendung für die automatische Phonem-Graphem- / Graphem-Phonem-Umwandlung mit dem MASSIVE Framework eine Rolle: So wurden u.a. auch in der orthografischen Darstellung der Wörter Silbengrenzen eingetragen.

Benutzerzustandsklassifikation

Für eine effiziente Interaktion zwischen SmartWeb und dem Benutzer kann es für das System von Vorteil sein, Informationen über den psychischen Zustand des Benutzers zu besitzen (etwa gestresst vs. entspannt oder ärgerlich vs. zufrieden). Besonders augenfällig wird dies im Auto- und Motorradszenario, wo das System idealerweise in der Lage sein sollte, in kritischen Situationen die Interaktion mit dem Fahrer durch eine Einschränkung des Informationsflusses anzupassen. Sprache, Mimik und Gestik des Benutzers lassen zwar häufig Rückschlüsse auf dessen Zustand zu, sie sind jedoch sehr individuell und unterliegen meist einer Maskierung. Einen direkten und unverfälschten Zugang zum Benutzerzustand können physiologische Parameter wie Hautleitwert, Puls usw. bieten. Für entsprechende Messungen existieren mobile Systeme und es besteht die Hoffnung, dass sich zumindest einige der Sensoren in Zukunft in die Kleidung, das Lenkrad oder ein mobiles Endgerät integrieren lassen. Innerhalb von SmartWeb verfolgt der LME das Ziel, eine personenunabhängige Klassifikation von Benutzerzuständen anhand von physiologischen Signalen in Echtzeit zu realisieren.

Mit dem Ziel, einen Klassifikator zur Unterscheidung von Stress/nicht-Stress datengetrieben zu erstellen, wurde im Berichtszeitraum eine umfangreiche Stichprobe gesammelt: DRIVAWORK (Driving under varying workload) enthält Aufzeichnungen von Audio, Video und sechs physiologischen Signalen in verschiedenen Belastungs-/Stressbedingungen während einer simulierten Autofahrt. Die Aufnahmen von 24 Personen belaufen sich auf 15 Stunden nutzbares Datenmaterial mit allein 1.1 GB an physiologischen Signalen. Weiterhin wurden die bestehenden Merkmalssätze, auf denen die Klassifikation basiert, verbessert und erweitert. Wenn alle sechs physiologischen Kanäle kombiniert werden, können die Extreme "Entspannung" und "Stress" mit einer Genauigkeit von 90% (benutzerunabhängig; klassenweise gemittelt) unterschieden werden.

Multimodale Erkennung des Benutzerfokus

Der Benutzer eines mobilen Endgerätes (z.B. T-Mobile MDA Pro) kann gesprochene Anfragen an SmartWeb stellen. Diese werden an einen Server geschickt und dort analysiert. Dabei soll das System automatisch erkennen, ob es überhaupt angesprochen war. Vielleicht galten die gesprochenen Worte ja einer menschlichen Begleitung, vielleicht war es ein Selbstgespräch? Mit dem Mikrofon und der Kamera am MDA-Pro kann man alle notwendigen Informationen erhalten und der Benutzer muss keine lästige Push-To-Talk-Taste drücken. Wird ein Gesicht im Kamerabild detektiert, klassifiziert das System den Aufmerksamkeitsfokus anhand der Blickrichtung: On-View, wenn der Benutzer direkt auf das Display schaut, oder Off-View, wenn der Benutzer nicht auf das Gerät, sondern beispielsweise zu einem Gesprächspartner blickt. Analog wird für ein Sprachsignal bewertet, ob der Benutzer direkt mit dem System spricht (On-Talk) oder mit sich selbst bzw. einem Dritten (Off-Talk). On-Focus tritt im SmartWeb-Szenario also nur auf, wenn der Benutzer zum Gerät schaut und spricht (Beispiel hier ). Die Off-View-Klassifikation basiert auf dem Viola-Jones-Algorithmus zur Gesichtsdetektion; zur Off-Talk-Erkennung werden prosodische Merkmale (Dauer, Energie, Grundfrequenz, Jitter, Shimmer) verwendet.

Im Berichtszeitraum wurde ein Demonstrator implementiert und auf der CeBIT 2006 vorgestellt. Auch im Gesamtsystem ist nun am Display des MDA erkennbar, ob das System die Anfrage als On-Focus erkannt hat. Um das System zu trainieren und zu evaluieren, wurden von unserem Partner LMU München möglichst realistische Daten gesammelt. Die zwei Klassen On-Focus und Off-Focus werden pro Äußerung mit Hilfe des Audiosignals zu 77% korrekt erkannt (klassenweise gemittelte Erkennungsrate), mit Hilfe des Videosignal zu 71%. Fusioniert man beide Klassifikationsergebnisse mit Hilfe eines Meta-Klassifikators, erhöht sich die Erkennung auf über 80%. Auch die vier verschiedenen Klassen On-Talk, gelesener Off-Talk, spontaner Off-Talk und Paraphrase (ein Ergebnis von SmartWeb wird einer anderen Person berichtet) werden im Schnitt noch zu 67% korrekt erkannt (Zufall: 25%). Im Audiosignal konnten auch einzelne Wörter noch zu 65% korrekt den Klassen On-Talk und Off-Talk zugeordnet werden. Auf einem zusätzlich aufgezeichneten Korpus mit besonders kooperativen Benutzern (gespielter Off-Talk) werden bis zu 93% erzielt.