Publikation

Low latency technology for interactive virtual environments

  • Niedrig-Latenz-Technologie für interaktive virtuelle Umgebungen

Assenmacher, Ingo; Kuhlen, Torsten (Thesis advisor)

Aachen : Publikationsserver der RWTH Aachen University (2009)
Doktorarbeit

Aachen, Techn. Hochsch., Diss., 2009

Kurzfassung

Die Minimierung von System Latenz ist traditionell ein wichtiges Thema bei der Entwicklung von multi-modalen virtuellen Umgebungen. Zur Erstellung von virtuellen Umgebungen mit einem hohen Maß an Glaubhaftigkeit für den Nutzer müssen menschliche Wahrnehmungsschwellen berücksichtigt werden. Die Systemlatenz muss daher im Bereich von Millisekunden liegen. Dies deutet bereits darauf hin, dass schnelle Schnittstellen und Systeme mit wenig zusätzlichem Aufwand benötigt werden. Diese Arbeit beschreibt einen umfassenden Ansatz zur Erzeugung von multi-modalen virtuellen Umgebungen welche hohe Anforderungen an niedrige Latenz stellen, dabei aber abstrakte, flexible und Echtzeit-fähige Schnittstellen zur Gerätedatenverarbeitung sowie vielfältige Mechanismen zur Gestaltung von Anwendungen benötigen. Das System "Virtueller Kopfhörer" (VirKopf) ist ein Repräsentant einer anspruchsvollen multi-modalen Umgebung. Es wurde als gemeinschaftliches Forschungsprojekt zwischen dem Institut für Technische Akustik und der VR Gruppe an der RWTH Aachen entwickelt. Die binaurale Wiedergabe von virtuellen Klängen ist eine wesentliche Komponente des Systems. Diese erlaubt die Platzierung von Klangobjekten an beliebigen 3-D Positionen in der Szene, auch sehr nah am Kopf des Benutzers. Die räumliche Klangwiedergabe wird durch dynamische Übersprechkompensation auch ohne die Nutzung von Kopfhörern möglich. Diese Eigenschaft erlaubt den Einsatz in immersiven Umgebungen. In solchen System müssen die Anforderungen an einen genauen Aufbau und sorgfältige Datenverarbeitung unbedingt respektiert werden. So ist es zum einwandfreien Betrieb der dynamischen Übersprechkompensation zwingend notwendig, ein aktuelles Tracking Datum mit niedriger Latenz an alle Teilsysteme zu übermitteln. Die Übersprechkompensation reproduziert auf dieser Basis ein der aktuellen Kopfposition angepasstes Klangfeld mit einem begrenzten Gültigkeitsbereich (sweet-spot). In einem dynamischen System, in der sich der Benutzer frei bewegen darf, muss der sweet-spot kontinuierlich aktualisiert werden, in Abhängigkeit von der Position der Ohren des Benutzers. Diese wird wiederum vom Tracking System ermittelt. Durch die diskrete Verarbeitung entsteht ein Unterschied zwischen der im System angenommenen und der tatsächlichen Position des Benutzers. Ein Unterschied zwischen diesen Positionen von mehr als 1~cm kann zu hörbaren Artefakten für den Zuhörer führen. Dies ist eine harte Einschränkung, da ein Unterschied bereits durch die fast konstante Laufzeit der Schallwellen von den Lautsprechern zum Ohr des Benutzers im System existiert. Diese Latenz liegt im Bereich von Millisekunden und kann nicht durch schnelleres Tracking kompensiert werden. Prädiktives Tracking kann dazu benutzt werden, um die zukünftige Position der Ohren des Benutzers zu bestimmen, auf Basis von Beobachtungen aus der lokalen Vergangenheit. Diese Algorithmen können allerdings nicht beliebig in die Zukunft schätzen, so dass eine niedrige Systemlatenz unabdingbar ist, um die Kompensation erfolgreich durchzuführen. Diese Anforderung ist nicht nur wichtig für das VirKopf System, sondern eine generelle Eigenschaft von Software zur Erstellung von Virtueller Realität (VR). Ganz speziell gilt dies für Geräte-Behandlung und Interaktions-Verarbeitung. Zu diesem Zweck stellt diese Arbeit eine vielseitige, flexible und Laufzeit-optimale VR Geräte Architektur vor. Sie ermöglicht parallelen Zugriff auf multi-modale Datenströme, bei niedriger Latenz. Zudem kann erweitere Interaktion auf der Basis von Historien entwickelt werden, die direkt von der Geräteschicht angeboten werden. Die Architektur unterstützt erweiterte Transformations- und Anwendungsschnittstellen, und dadurch eine vereinfachte Programmierung für Anwendungen. Der oben beschriebene Unterschied bei der Schätzung der aktuellen Position des Benutzers in der virtuellen Szene wird durch einen prädiktiven Tracking Algorithmus mit dynamischer Adaption verkleinert. Die vorgeschlagene Lösung basiert lediglich auf der Betrachtung der lokalen Entwicklung der Geschwindigkeit der verwendeten Tracking Sensoren. Die Kopplung des visuellen VR Systems mit der akustischen Gegenseite als Netzwerkarchitektur wird in dieser Arbeit definiert und ihre Eingenschaften diskutiert. Hierbei sind besonders die Kosten für den Netzwerktransport in Bezug auf die audio-visuelle Kopplung interessant. Zusätzlich zu den genannten Eigenschaften wird eine Anwendungsarchitektur zur Entwicklung von multi-modalen virtuellen Umgebungen vorgestellt. Dieser Ansatz beschreibt Umgebungen als Sammlung von kommunizierenden Agenten mit dynamischen Eigenschaften. Zur visuellen Wiedergabe in CAVE-artigen Umgebungen wird ein PC Cluster Rendering Ansatz entwickelt. Dieser basiert auf einer hybriden Master/Slave Architektur, welche in Bezug auf niedrige Latenz verfeinert wird.

Einrichtungen

  • Virtual Reality Group [124170]
  • Fachgruppe Informatik [120000]