Vom 3D-Modell zum Live-Stream. Eine Anleitung

Werdegang zum Vtuber, Quelle: https://medium.com/@hyprsense/how-to-become-a-virtual-youtuber-influencer-7074b852fb9

Neue Technologien wie RealTime-graphics und MoCap-Technologien führen seit den 2010er Jahren zu einem immer stärker anwachsenden Auftreten von virtuellen Streamern – Vtubern. In Anlehnung an die traditionelle Influencer-Industrie sind virtuelle Menschen zu Prominenten geworden.
Da sich das Ökosystem für Vtuber – zumindest im Europäischen Raum – noch in der Anfangsphase befindet, gibt es noch keine standardisierte Allzweck-Anleitung. Daraus kann man schließen, dass jede Umsetzung unterschiedliche auf unterschiedlichen Plattformen und in verschiedenen Formaten erfolgt. Je nach Nutzer – ob Einzelperson oder Agentur – variieren die Kosten, die Qualität und der Entwurfsprozess erheblich.
Um einen virtuellen Charakter zum Leben erwecken zu können, müssen sich Content Creator also mit diversen Fragestellungen rund um Design, Hardware, Software und beschäftigen.

Basics

Das Set

Essenzieller Bestandteil im Inventar eines Vtubers ist eine Webcam oder Kamera mit hoher Auflösung, um Gesichtsbewegungen und Mimik zu erkennen. Ein Mikrofon, eine gute Gesichtsbeleuchtung und ein adequater PC oder Laptop gehören ebenfalls zu den Must-Haves des Jobs.
Als Grundvoraussetzung sollten die Kamera eine Auflösung von mindestens 720p und 30 FPS haben. Viele Vtuber verwenden jedoch bereits iPhones anstelle einer Webcam oder kombinieren diese miteinander, um Gesichtsausdrücke besser erkennen zu können.

Für den Ton können entweder spezielle USB-Mikrofone oder ein Gaming-Headsets mit eingebautem Mikrofon verwenden werden. Im Idealfall werden vollwertige XLR-Mikrofone genutzt, da diese besser funktionieren und eine fantastische Audioqualität bieten.

Viel Licht ist wichtig, damit Kamera und Software leichter erkennen können, ob der Vtuber gerade lacht, die Stirn runzelt oder den Mund bewegt. Dazu reicht bei Tag ein heller Standort am Fenster, bei schlechteren Lichtverhältnissen sollten Lampen so arrangiert werden, dass sie das Set ausreichend beleuchten.
Marken wie Elgato und Razer bieten spezielle Streaming-Lichter an, die mit den Webcams gekoppelt werden können.

Ein Überblick über das Entstehen eines 3D-Vtuber Charakters, Quelle: https://miro.medium.com/max/2400/0*Ri6kbNkAZi_eLoaJ

Gute Internetverbindung

Es macht durchaus Sinn, vor Beginn eines Streams die Internetverbindung zu überprüfen, da es ansonsten während der Live-Auftritte zu ungewollten Pannen kommen kann.
Nach Empfehlung von Streamingplattformen wie Twitch sollten mindestens 6 Mbps für 1080p in hoher Qualität bei 60 FPS zur Verfügung stehen. Wenn diese Anforderungen nicht erreicht werden können, leidet die Streamingqualität darunter, jedoch sind 3Mbps in einer 720p-Auflösung bei 30 FPS im notfalls noch im Bereich des Vertretbaren.

Bei Streams mit hoher Bildrate, wie beispielsweise Ego-Shooter-Games, wird eine Uploadgeschwindigkeit von 10-15Mbit/s und ein Bildschirm mit hoher Bildwiederholungsfrequenz benötigt.
Bei niedrigeren Internetgeschwindigkeiten und keiner Möglichkeit zur Aufrüstung, ist Live-Streaming in einer ansehnlichen Qualität nicht möglich.

Standcomputer oder Laptop

Prinzipiell gilt, mehr ist besser, besonders wenn es um RAM und Prozessoren geht. Die Grafikleistung ist nur dann von größerer Relevanz, wenn Spiele gestreamt werden. Jedoch sind hierbei GPU-Empfehlungen der einzelnen Spieltitel zu beachten.
Ob PC oder Laptop hängt von der Leistungsfähigkeit ab. Ein hochwertiges Gerät steigert den qualitätiven Output des Streams, jedoch gibt es auch preiswertere Alternativen.
Die Mindestanforderungen für einen Live-Stream:

  • Prozessor: Intel i5-4670 oder AMD FX-8350
  • Arbeitsspeicher: 8 GB DDR3
  • Grafikkarte: Nividia Geforce 960 oder AMD Radeon R9 280
  • Betriebssystem: Windwos 7

Bei vorgefertigten Systemen oder wenn der PC selbst gebaut wird, ist auf folgende Anforderungen zu achten:

  • Prozessor: Intel i5-9600k oder AMD Ryzen 5 3600
  • Arbeitsspeicher: 16GB DDR4
  • Grafikkarte: Nivada Geforce GTX 1080 Ti oder AMD Radeon 5700 XT
  • Betriebssystem: Windows 10

Einige Streamer gehen noch einen Schritt weiter und verwenden zwei Computer oder Laptops, um die Arbeitslast zu bewältigen – einen, um ein Spiel auszuführen und den anderen, um die eigentlichen Streaming-Anforderungen zu erfüllen.

Anwendungen und Software

Bekannteste Applikationen und Software, Quelle: https://miro.medium.com/max/2000/0*kK84l5zqVOv2WxDW

Der Avatar

Als guten Ausgangspunkt für angehende Vtuber ohne Vorkenntnisse im Design-Bereich und mit geringem Budget eignet sich VRoid-Studio oder Live2D . Ein großer Vorteil dieser Tools ist, dass sie bereits “vorgeriggte” Basismodelle anbieten, welche sich hervorragend für erste Probeversuche eignen und jederzeit durch Details individuell angepasst werden können. Die Software ist zudem kostenlos.
Auch Websites wie TurboSuid, Sketchfab und CGTrader bieten kostengünstigere 3D-Modelle zum Download an.

Hat man als Content Creator viel Zeit und kreatives Talent, ist es möglich mit Software-Programmen wie Blender, Maya oder Zbrush einen völlig individuellen Charakter zu entwerfen.
Auch von Unreal Engine gibt es Anwendungen wie Meta Human Creator, um digitale Menschen mit hoher Wiedergabetreue zu erstellen. Es gibt auch Optionen für die Arbeit mit Apps wie ReadyPlayerMe oder Wolf3D. Allerdings sind hierfür gute 3D-Kenntnisse erforderlich.

Das fertige Modell muss dann noch “geriggt” werden, sprich mit einem digitalen Skelett versehen werden, um menschliche Bewegungen so realistisch wie möglich imitieren zu können. Dies kann entweder direkt in Blender oder für 2D-Modelle auch beispielsweise in Live2D Cubism erledigt werden.
Für die VRM-Konvertierung benötigt man eine 3D-Animationssoftware wie Unreal, Unity 3D oder iClone, jedoch finden sich Tutorials auf Youtube, wie beispielsweise das folgende für eine Formatierung in Unity:

Tutorial: Avatar zu VRM-Datei, Quelle: https://www.youtube.com/watch?v=fRnZUs4SFmk

Eine weitere Alternative zu den kostenlosen 2D- und 3D-Modellen, ist die Möglichkeit den Avatar bei einem Künstler in Auftrag zu geben. Es ist einfacher und geht schneller, als sich selbst mit der Charakterentwicklung und 2D- oder 3D-Umsetzung beschäftigen zu müssen. Allerdings ist diese Option keinesfalls billig. Auf Websiten wie Fiverr und Etsy geht die Preisspanne von 50$ für einfache Avatare, bis hin zu Beträgen im sechsstelligen Bereich für hochwertige und detailgetreue Modelle.

Das Tracking

Ganzkörper MoCap Setup Beispiel, Quelle: https://miro.medium.com/max/2400/0*T9lDZ4sGGdeDrIrn

Der Großteil der Vtuber-Einsteiger nutzt Anwendungen von Steam wie FaceRig, Animaze, Wakaru, 3Tene und Vtube Studio, da diese für alles was man so an einfachem Mocap (=Motion Capture, Bewegungsverfolgung) braucht, bieten können.
Es gibt aber auch einige beliebte virtuelle Streamer wie Code Miko, die Technologien aus der Videospiel- und Filmindustrie verwenden, wie z. B. 30.000-Dollar-Motion-Capture-Anzüge von Xsens.

Echtzeit-Aufnahmen während Tracking, source: https://www.youtube.com/watch?v=e818LgnJ9rI

Eine weitere beliebte Motion-Tracking Software ist Luppet. Als eine der größten Anwendungen, die von Vtubern verwendet wird, bietet es ein sehr sauberes, genaues Tracking und ist in mehreren Sprachen verfügbar. Allerdings ist es nicht auf Steam erhältlich, sondern nur auf einer japanischsprachigen Website und kostet um die 50$.

Inzwischen ist es außerdem möglich, mithilfe von iPhones mit Infrarot-Tiefenkamera für Face ID (seit der Veröffentlichung des iPhone X, 2017) ein genaueres Gesichts-MoCap zu erhalten als mit herkömmlichen Webcams.

Tutorial: Vtubing am Iphone, Quelle: https://www.youtube.com/watch?v=4aFOrHLR91Y

Die Ausrüstung für die Gesichtserfassung wird jedoch immer leichter und einfacher der breiten Masse zugänglich gemacht. Einige Umsetzungen erfordern zwar immer noch Marker im Gesicht und das Tragen eines Helms mit einer auftragsbezogenen Kamera, aber der Markt scheint sich in die andere Richtung zu bewegen – er unterstützt normale Streamer-Setups, die 2D-Webcams verwenden.

Wakaru und Hitogata sind gute Software-Beispiele dafür. Diese beiden kostenlosen Programme bieten eine frei verfügbare Gesichtsverfolgungsfunktion, die leicht in einen 3D-Charakter integriert werden kann. Aufgrund des offenen Algorithmus ist die Verfolgungsqualität nicht die beste auf dem Markt, aber die Bequemlichkeit überwiegt die Nachteile, zumindest für VTuber-Anfänger.
Qualitativ höherwertigere, kostenpflichtigere Webcam-Lösungen sind Hyprface SDK und Facerig. Hyprface ist besonders nützlich, um vorgefertigte 3D-Charaktermodelle zu integrieren.

Um die Position der Hände zu verfolgen, benötigen virtuelle Streamer ein optisches Handverfolgungsmodul, auch Leap Motion, genannt. Dieses kann Bewegungen viel genauer erfassen als iPhones oder Webcams und wird oft in Verbindung mit weiterer Ausrüstung verwendet, um Modelle noch realistischer animieren zu können.

Cory Strassburger – iPhone 12, Unreal Engine, und Xsens Setup, Quelle: https://www.youtube.com/watch?v=wSx472esQps&t=5s

Das Debüt

Schlussendlich wird der Avatar zum ersten Mal dem Publikum auf Streaming-Plattformen wie Twitch oder Youtube vorgestellt. Unabhängig vom narrativen Inhalt und dem eventuellen Skript, gibt es zunächst noch einige Import-Hinweise zu beachten:

Es gibt zwei Möglichkeiten, das Modell in einem Stream zu übertragen, abhängig von der Anwendung, die für das Mocap des Avatars verwendet wird.
Auf der Plattform Steam kann immer nur eine Anwendung ausgeführt werden. Sollte der Content Creator also keinen weiteren Inhalt teilen, kann er einfach die Quelle “Game Capture” auf OBS und Streamlabs verwenden um sein Modell auf einen Hintergrund seiner Wahl zu überlagern. Zusätzlich is bei dieser Methode zu beachten, dass die Transparenz in der verwendeten MoCap-Software immer aktiviert ist und beim Streamen auch zugelassen wird.

Alternativ dazu gibt es auch Vtuber, die während ihrer Streams andere Inhalte teilen, wei beispielsweise Spiele spielen oder gemeinsam mit ihrem Publikum auf Youtube-Videos reagieren. In diesem Fall gibt es Programme wie SUVA für Windows, mit denen virtuelle Streamer ihre Avatare in Unity importieren können und diese dann in Streaming-Anwendungen wie OBS einblenden. Dadurch bleibt das Steam-Konto frei.

In jedem Fall ist es wichtig sich vor seinem Debüt ausgiebig mit allen verfügbaren Programmen und Technologien auseinander zu setzen, um für sich selbst die bestmöglichste Variante zu finden. Um auch in Zukunft mehr Vtuber in die Community zu holen, währe die Umsetzung folgender Punkte ein Anfang:

  • Mehr Tools zur Erstellung von Avataren für Nicht-Experten, die verschiedene Kunststile unterstützen
  • Eine All-In-One-Mocap-Lösung für das gesamte Gesicht, den Körper und die Finger, die nur eine Webcam benötigen und damit Kosten und Ineffizienz verringern
  • Engere Zusammenarbeit zwischen Software- und Hardwareanbietern, um den Integrationsprozess zu vereinfachen und den Prozess zu vereinheitlichen, weiterzuentwickeln und zu konzentrieren
  • Eine einfache Benutzeroberfläche für Nicht-Entwickler, damit die Nutzung von Software und Hardware einer breiteren Masse zugänglich wird

Demnächst

  • Bedeutung, Entstehung und aktueller Bezug
  • V-Tuber Agenturen und ihre Protagonisten
  • Software und Programme – Was gibt es und wie verwende ich sie?
  • Entwicklung eines Characters – 2D und 3D Modell
  • (Erwartungshaltungen von Usern, Protagonisten und Agenturen)

Literaturverzeichnis

Wheaterbed, Jess (25.12.2021): How to be a Vtuber, https://www.techradar.com/how-to/how-to-be-a-vtuber, in: https://www.techradar.com/computing [10.01.2022]

hyprsense (23.09.2019): How to Become a Virtual YouTuber/Influencer, https://medium.com/@hyprsense/how-to-become-a-virtual-youtuber-influencer-7074b852fb9, in: https://medium.com/@hyprsense [10.01.2022]

xsense (): The perfect Virtual YouTuber setup, https://www.xsens.com/blog/virtual-youtuber, in: https://www.xsens.com/explore?tag=motion-capture-for-animation [10.01.2022]

xsense (): Xsens MCCC. How to become a vTuber, https://www.xsens.com/watch-webinar/MCCC-How-to-become-a-vTuber, in: https://www.xsens.com/blog/virtual-youtuber [10.01.2022]

Schwarmsimulation mit SoundParticles

Um einen kleinen Eindruck zu bekommen, wie sich das Produkt möglicherweise anhören könnte, habe ich mit der Software SoundParticles (welche für Studenten und nicht-kommerzielle Zwecke frei zur Vefügung steht) eine Simulation eines Schwarms kreiirt, der sich in einem virtuellen 3D Raum über den Beobachter hinweg bewegt. Praktischerweise kann man in SoundParticles mit wenigen einfachen Klicks die verschiedensten Outputmöglichkeiten auswählen. Ich habe das Projekt nun in Stereo gerendert, aber ebenfalls ein File für die Lautsprecheraufstellung im CUBE des IEM erstellt. So kann ich bei Gelegenheit (falls dieser Lockdown jemals endet) auch die Wirkung in verschiedenen Ambisonic-Klassen testen.

Für die “Partikel” habe ich fünf 30-Sekunden Soundfiles mit Xfer Serum erstellt. Speziell wurde darauf geachtet, dass das Signal möglichst trocken bleibt und sich die verschiedenen Spuren nur leicht im Pitch und Frequenzanteil unterschieden, um eine möglichst homogene, aber doch leicht variierte Masse zu erreichen. Für den Effekt eines schlagenden Flügels verwende ich einen Sawtooth-Layer mit einem relativ schnellen LFO der auf die Volume geroutet wurde (Tremolo) und einem wenige ms kurzen Transienten um mehr Charakter hineinzubringen.

Danach füge ich die Soundfiles in SoundParticles ein und erstelle eine Particle-Group. Dies scheint anfangs etwas kompliziert, da ich erst die Navigation für die Automation lernen muss (welche meiner Meinung auch noch ausbaufähig ist) aber mit etwas tüftelei fliegt mein Schwarm bald durch den 3D Raum. Hier und da noch ein paar randomisierte Parameter hinzugefügt wirkt das Ganze auch schon etwas lebendig und das Ergebnis kann sich auch schon hören lassen.

WICHTIG! Das Soundfile wurde Stereo für Lautsprecher exportiert, darum wird das Erlebnis auf Kopfhörern beeinträchtigt sein.

Es ist möglicherweise noch wichtig anzumerken, dass es sich hier nicht um eine Schwarmsimulation handelt, sondern nur um eine Darstellung mit festen Parametern um sich das auditive Abbild vor Augen (oder eher Ohren) führen zu können.

https://xferrecords.com/products/serum

https://soundparticles.com/