UnivIS
Informationssystem der Friedrich-Alexander-Universität Erlangen-Nürnberg © Config eG 
FAU Logo
  Sammlung/Stundenplan    Modulbelegung Home  |  Rechtliches  |  Kontakt  |  Hilfe    
Suche:      Semester:   
 Lehr-
veranstaltungen
   Personen/
Einrichtungen
   Räume   Forschungs-
bericht
   Publi-
kationen
   Internat.
Kontakte
   Examens-
arbeiten
   Telefon &
E-Mail
 
 
 Darstellung
 
Druckansicht

 
 
Einrichtungen >> Technische Fakultät (TF) >> Department Informatik (INF) >> Lehrstuhl für Informatik 5 (Mustererkennung) >>
SmartWeb

Leitinnovation SmartWeb

Das Ziel des BMBF-geförderten Projekts SmartWeb (http://www.smartweb-projekt.de/ ) ist der intelligente, multimodale, mobile Zugriff auf das Semantische Web. An der Umsetzung dieser Vision arbeiten seit Mitte 2004 vierzehn Konsortialpartner unter der Führung des Deutschen Forschungsinstituts für künstliche Intelligenz (DFKI). Neben einer Reihe von Universitäten und Forschungseinrichtungen sind auch kleinere und mittlere Unternehmen sowie die Großindustrie beteiligt.

Ein großes Teilprojekt in SmartWeb bildet das Semantische Web. Dieses Internet der nächsten Generation basiert auf der inhaltlichen Beschreibung digitaler Dokumente mit standardisierten Vokabularien, die eine maschinell verarbeitbare Semantik haben. In SmartWeb wird vor allem angestrebt, die maschinenlesbaren Inhalte des World Wide Web auch maschinell verarbeitbar zu machen. Die Arbeitspakete, die am Lehrstuhl für Mustererkennung (Informatik 5) bearbeitet werden, sind Teil des zweiten Teilprojekts, das sich mit dem multimodalen, mobilen Zugang zu den Inhalten des Semantischen Webs beschäftigt. Das Architekturmodell von SmartWeb sieht dabei ein Client-Server-Szenario vor, bei dem die Benutzereingaben von einem Endgerät (PDA, Smartphone o.Ä.) zu einem Server geschickt werden, auf dem die Dialogverarbeitung stattfindet. Einen Teil des Dialog-Servers bildet ein multimodaler Erkenner (MME), der neben einem Spracherkenner weitere Software-Module zur Verarbeitung der verschiedenen Eingabemodalitäten (u.a. Sprach- und Videosignale) umfasst. Drei der Module werden am Lehrstuhl für Mustererkennung (LME) entwickelt: die Detektion und Verarbeitung von Out-Of-Vocabulary-Wörtern (OOV-Wörtern, also Wörter, die nicht im Erkennungsvokabular sind) bei der Spracherkennung (in enger Zusammenarbeit mit der Firma Sympalog), die Klassifikation des Benutzerzustands auf der Basis von Sprach-, Video- und Biosignalen und die Klassifikation des Benutzerfokus mit Hilfe multimodaler Informationsquellen.

Nach der Integration einer ersten Version des OOV-Moduls in das SmartWeb-System im Jahre 2005 wurden 2006 auch die Einzelkomponenten zur Bestimmung des Benutzerfokus (Klassifikation von On-View/Off-View, On-Talk/Off-Talk) eingebunden. Die Ergebnisse der Arbeiten zur Benutzerzustandsklassifikation werden im Rahmen eines separaten Systems demonstriert.

Erkennung und Verarbeitung von Out-Of-Vocabulary Wörtern

Um die Verarbeitung von unbekannten Wörtern in der Spracheingabe des SmartWeb-Demonstrators weiter zu verbessern, wurde im Jahr 2006 vor allem an der Erkennung von Wortuntereinheiten gearbeitet. Als Basis für das Vorgehen dienten Untersuchungen zur Häufigkeit von unbekannten Wörtern und Wortuntereinheiten (u.a. Silben, Laute) und die jeweilige Fehlerrate bei der Dekodierung durch einen entsprechend trainierten Spracherkenner. Für das EVAR-Korpus (Erlanger Zugauskunftssystem) zeigte sich, dass bei Silben ein gutes Gleichgewicht zwischen der erzielten Erkennungsrate auf Lautebene (82.8%) und der Rate von unbekannten Silben (1.0% der Testmenge bezogen auf die Trainingsmenge) besteht. Zwar ließ sich mit einem Worterkenner eine bessere Erkennungsrate erzielen (84.6%), allerdings war die Out-Of-Vocabulary-Rate (OOV-Rate) mit 2.6% doch erheblich höher. Für Laute lag die OOV-Rate nahe null, allerdings brach das Erkennungsergebnis auf 70% ein. Als Konsequenz wurde der Monophon-Erkenner im SmartWeb-Demonstrator durch einen Silbenerkenner ersetzt. Weitere Verbesserungen werden von einem aktuell untersuchten Ansatz mit dynamisch (datengetrieben) erzeugten Wortuntereinheiten erwartet.

Neben den konzeptionellen Änderungen am Setup des hybriden Spracherkenners (parallele Erkennung von Wörtern und Wortuntereinheiten) wurden auch Anstrengungen unternommen, die Datenlage für das Training der Wortuntereinheiten-Erkenner zu verbessern. Zu diesem Zweck konnten verschiedene vom Projektpartner Sympalog aufgenommene Korpora herangezogen werden. Allerdings mussten die am Lehrstuhl vorhandenen phonetischen Lexika stark erweitert werden, um den neu hinzugekommenen Wortschatz abdecken zu können. Bei der Überarbeitung der Lexika spielte auch deren Verwendung für die automatische Phonem-Graphem- / Graphem-Phonem-Umwandlung mit dem MASSIVE Framework eine Rolle: So wurden u.a. auch in der orthografischen Darstellung der Wörter Silbengrenzen eingetragen.

Benutzerzustandsklassifikation

Für eine effiziente Interaktion zwischen SmartWeb und dem Benutzer kann es für das System von Vorteil sein, Informationen über den psychischen Zustand des Benutzers zu besitzen (etwa gestresst vs. entspannt oder ärgerlich vs. zufrieden). Besonders augenfällig wird dies im Auto- und Motorradszenario, wo das System idealerweise in der Lage sein sollte, in kritischen Situationen die Interaktion mit dem Fahrer durch eine Einschränkung des Informationsflusses anzupassen. Sprache, Mimik und Gestik des Benutzers lassen zwar häufig Rückschlüsse auf dessen Zustand zu, sie sind jedoch sehr individuell und unterliegen meist einer Maskierung. Einen direkten und unverfälschten Zugang zum Benutzerzustand können physiologische Parameter wie Hautleitwert, Puls usw. bieten. Für entsprechende Messungen existieren mobile Systeme und es besteht die Hoffnung, dass sich zumindest einige der Sensoren in Zukunft in die Kleidung, das Lenkrad oder ein mobiles Endgerät integrieren lassen. Innerhalb von SmartWeb verfolgt der LME das Ziel, eine personenunabhängige Klassifikation von Benutzerzuständen anhand von physiologischen Signalen in Echtzeit zu realisieren.

Mit dem Ziel, einen Klassifikator zur Unterscheidung von Stress/nicht-Stress datengetrieben zu erstellen, wurde im Berichtszeitraum eine umfangreiche Stichprobe gesammelt: DRIVAWORK (Driving under varying workload) enthält Aufzeichnungen von Audio, Video und sechs physiologischen Signalen in verschiedenen Belastungs-/Stressbedingungen während einer simulierten Autofahrt. Die Aufnahmen von 24 Personen belaufen sich auf 15 Stunden nutzbares Datenmaterial mit allein 1.1 GB an physiologischen Signalen. Weiterhin wurden die bestehenden Merkmalssätze, auf denen die Klassifikation basiert, verbessert und erweitert. Wenn alle sechs physiologischen Kanäle kombiniert werden, können die Extreme "Entspannung" und "Stress" mit einer Genauigkeit von 90% (benutzerunabhängig; klassenweise gemittelt) unterschieden werden.

Multimodale Erkennung des Benutzerfokus

Der Benutzer eines mobilen Endgerätes (z.B. T-Mobile MDA Pro) kann gesprochene Anfragen an SmartWeb stellen. Diese werden an einen Server geschickt und dort analysiert. Dabei soll das System automatisch erkennen, ob es überhaupt angesprochen war. Vielleicht galten die gesprochenen Worte ja einer menschlichen Begleitung, vielleicht war es ein Selbstgespräch? Mit dem Mikrofon und der Kamera am MDA-Pro kann man alle notwendigen Informationen erhalten und der Benutzer muss keine lästige Push-To-Talk-Taste drücken. Wird ein Gesicht im Kamerabild detektiert, klassifiziert das System den Aufmerksamkeitsfokus anhand der Blickrichtung: On-View, wenn der Benutzer direkt auf das Display schaut, oder Off-View, wenn der Benutzer nicht auf das Gerät, sondern beispielsweise zu einem Gesprächspartner blickt. Analog wird für ein Sprachsignal bewertet, ob der Benutzer direkt mit dem System spricht (On-Talk) oder mit sich selbst bzw. einem Dritten (Off-Talk). On-Focus tritt im SmartWeb-Szenario also nur auf, wenn der Benutzer zum Gerät schaut und spricht (Beispiel hier ). Die Off-View-Klassifikation basiert auf dem Viola-Jones-Algorithmus zur Gesichtsdetektion; zur Off-Talk-Erkennung werden prosodische Merkmale (Dauer, Energie, Grundfrequenz, Jitter, Shimmer) verwendet.

Im Berichtszeitraum wurde ein Demonstrator implementiert und auf der CeBIT 2006 vorgestellt. Auch im Gesamtsystem ist nun am Display des MDA erkennbar, ob das System die Anfrage als On-Focus erkannt hat. Um das System zu trainieren und zu evaluieren, wurden von unserem Partner LMU München möglichst realistische Daten gesammelt. Die zwei Klassen On-Focus und Off-Focus werden pro Äußerung mit Hilfe des Audiosignals zu 77% korrekt erkannt (klassenweise gemittelte Erkennungsrate), mit Hilfe des Videosignal zu 71%. Fusioniert man beide Klassifikationsergebnisse mit Hilfe eines Meta-Klassifikators, erhöht sich die Erkennung auf über 80%. Auch die vier verschiedenen Klassen On-Talk, gelesener Off-Talk, spontaner Off-Talk und Paraphrase (ein Ergebnis von SmartWeb wird einer anderen Person berichtet) werden im Schnitt noch zu 67% korrekt erkannt (Zufall: 25%). Im Audiosignal konnten auch einzelne Wörter noch zu 65% korrekt den Klassen On-Talk und Off-Talk zugeordnet werden. Auf einem zusätzlich aufgezeichneten Korpus mit besonders kooperativen Benutzern (gespielter Off-Talk) werden bis zu 93% erzielt.

Projektleitung:
Prof. Dr.-Ing. Elmar Nöth

Beteiligte:
Dr. phil. Anton Batliner, Dr.-Ing. Christian Hacker, Dipl.-Inf. Florian Hönig, Dr.-Ing. Axel Horndasch

Stichwörter:
Spracherkennung; OOV-Verarbeitung; Biosignale; Benutzerzustandsklassifikation; multimodale Informationsquellen

Laufzeit: 1.4.2004 - 30.9.2007

Förderer:
Bundesministerium für Bildung und Forschung

Kontakt:
Nöth, Elmar
Telefon +49 9131 85 27888, Fax +49 9131 85 27270, E-Mail: elmar.noeth@fau.de
Publikationen
Hacker, Christian ; Batliner, Anton ; Nöth, Elmar: Are You Looking at Me, are You Talking with Me -- Multimodal Classification of the Focus of Attention. In: Sojka, P. ; Kopecek, I. ; Pala, K. (Hrsg.) : Text, Speech and Dialogue. 9th International Conference, TSD 2006, Brno, Czech Republic, September 2006, Proceedings (9th International Conference, TSD 2006 Brno 11-15.9.2006). Berlin, Heidelberg : Springer, 2006, S. 581 -- 588. (Lecture Notes in Artificial Intelligence (LNAI), Nr. 4188) - ISBN 978-3-540-39090-9
Batliner, Anton ; Hacker, Christian ; Nöth, Elmar: To Talk or not to Talk with a Computer: On-Talk vs. Off-Talk. In: Fischer, Kerstin (Hrsg.) : How People Talk to Computers, Robots, and Other Artificial Communication Partners (How People Talk to Computers, Robots, and Other Artificial Communication Partners Bremen April 21-23, 2006). 2006, S. 79-100. (University of Bremen, SFB/TR 8 Report Bd. 010-09/2006)
Horndasch, Axel ; Nöth, Elmar ; Batliner, Anton ; Warnke, Volker: Phoneme-to-Grapheme Mapping for Spoken Inquiries to the Semantic Web. In: ISCA (Veranst.) : Proceedings of the Ninth International Conference on Spoken Language Processing (Interspeech 2006 - ICSLP) (Ninth International Conference on Spoken Language Processing (Interspeech 2006 - ICSLP) Pittsburgh 17.-21.09.2006). Bonn : ISCA, 2006, S. 13-16.
Batliner, Anton ; Hacker, Christian ; Kaiser, Moritz ; Mögele, Hannes ; Nöth, Elmar: Taking into Account the User's Focus of Attention with the Help of Audio-Visual Information: Towards less Artificial Human-Machine-Communication. In: Krahmer, Emiel ; Swerts, Marc ; Vroomen, Jean (Hrsg.) : AVSP 2007 (International Conference on Auditory-Visual Speech Processing 2007 Hilvarenbeek 31.08.-03.09.2007). 2007, S. 51-56.
Hönig, Florian ; Batliner, Anton ; Nöth, Elmar: Fast Recursive Data-driven Multi-resolution Feature Extraction for Physiological Signal Classification. In: Hornegger, Joachim ; Mayr, Ernst W. ; Schookin, Sergey ; Feußner, Hubertus ; Navab, Nassir ; Gulyaev, Yuri V. ; Höller, Kurt ; Ganzha, Victor (Hrsg.) : 3rd Russian-Bavarian Conference on Biomedical Engineering (3rd Russian-Bavarian Conference on Biomedical Engineering Erlangen 2.-3.07.2007). Bd. 1. Erlangen : Union aktuell, 2007, S. 47-52. - ISBN 3-921713-33-X
Hönig, Florian ; Batliner, Anton ; Nöth, Elmar: Real-time Recognition of the Affective User State with Physiological Signals. In: Cowie, Roddy ; de Rosis, Fiorella (Hrsg.) : The Second International Conference on Affective Computing and Intelligent Interaction, Proceedings of the Doctoral Consortium (Affective Computing and Intelligent Interaction Lisbon, Portugal 12-14.09.2007). 2007, S. 1-8. - ISBN 978-989-20-0798-4
Hönig, Florian ; Hacker, Christian ; Warnke, Volker ; Nöth, Elmar ; Hornegger, Joachim ; Kornhuber, Johannes: Developing Enabling Technologies for Ambient Assisted Living: Natural Language Interfaces, Automatic Focus Detection and User State Recognition. In: BMBF (Bundesministerium für Bildung und Forschung) ; VDE (Verband der Elektrotechnik Elektronik Informationstechnik e.V.) (Veranst.) : Tagungsband zum 1. deutschen AAL-Kongress (1. Deutscher AAL (Ambient Assisted Living)-Kongress Berlin 30.01.2008-01.02.2008). Berlin/Offenbach : VDE Verlag GMBH, 2008, S. 371-375. - ISBN 978-3-8007-3076-6
Nöth, Elmar ; Hacker, Christian ; Batliner, Anton: Does Multimodality Really Help? The Classification of Emotion and of On/Off-Focus in Multimodal Dialogues - Two Case Studies.. In: Grgic, Mislav ; Grgic, Sonja (Hrsg.) : Proceedings Elmar-2007 (Elmar-2007 Zadar 12.-14.09.). Zadar : Croatian Society Electronics in Marine - ELMAR, 2007, S. 9-16. - ISBN 978-953-7044-05-3
Hönig, Florian ; Batliner, Anton ; Eskofier, Björn ; Nöth, Elmar: Predicting Continuous Stress Ratings of Multiple Labellers from Physiological Signals. In: Jan, Jiri ; Kozumplik, Jiri ; Provanznik, Ivo (Hrsg.) : Analysis of Biomedical Signals and Images (International Conference BIOSIGNAL 2008 Brno, Czech Republic June 29 - July 1, 2008). Brno : Vutium Press, 2008, S. no pagination. - ISBN 978-80-214-3612-1
UnivIS ist ein Produkt der Config eG, Buckenhof