Vom 3D-Modell zum Live-Stream. Eine Anleitung

Werdegang zum Vtuber, Quelle: https://medium.com/@hyprsense/how-to-become-a-virtual-youtuber-influencer-7074b852fb9

Neue Technologien wie RealTime-graphics und MoCap-Technologien führen seit den 2010er Jahren zu einem immer stärker anwachsenden Auftreten von virtuellen Streamern – Vtubern. In Anlehnung an die traditionelle Influencer-Industrie sind virtuelle Menschen zu Prominenten geworden.
Da sich das Ökosystem für Vtuber – zumindest im Europäischen Raum – noch in der Anfangsphase befindet, gibt es noch keine standardisierte Allzweck-Anleitung. Daraus kann man schließen, dass jede Umsetzung unterschiedliche auf unterschiedlichen Plattformen und in verschiedenen Formaten erfolgt. Je nach Nutzer – ob Einzelperson oder Agentur – variieren die Kosten, die Qualität und der Entwurfsprozess erheblich.
Um einen virtuellen Charakter zum Leben erwecken zu können, müssen sich Content Creator also mit diversen Fragestellungen rund um Design, Hardware, Software und beschäftigen.

Basics

Das Set

Essenzieller Bestandteil im Inventar eines Vtubers ist eine Webcam oder Kamera mit hoher Auflösung, um Gesichtsbewegungen und Mimik zu erkennen. Ein Mikrofon, eine gute Gesichtsbeleuchtung und ein adequater PC oder Laptop gehören ebenfalls zu den Must-Haves des Jobs.
Als Grundvoraussetzung sollten die Kamera eine Auflösung von mindestens 720p und 30 FPS haben. Viele Vtuber verwenden jedoch bereits iPhones anstelle einer Webcam oder kombinieren diese miteinander, um Gesichtsausdrücke besser erkennen zu können.

Für den Ton können entweder spezielle USB-Mikrofone oder ein Gaming-Headsets mit eingebautem Mikrofon verwenden werden. Im Idealfall werden vollwertige XLR-Mikrofone genutzt, da diese besser funktionieren und eine fantastische Audioqualität bieten.

Viel Licht ist wichtig, damit Kamera und Software leichter erkennen können, ob der Vtuber gerade lacht, die Stirn runzelt oder den Mund bewegt. Dazu reicht bei Tag ein heller Standort am Fenster, bei schlechteren Lichtverhältnissen sollten Lampen so arrangiert werden, dass sie das Set ausreichend beleuchten.
Marken wie Elgato und Razer bieten spezielle Streaming-Lichter an, die mit den Webcams gekoppelt werden können.

Ein Überblick über das Entstehen eines 3D-Vtuber Charakters, Quelle: https://miro.medium.com/max/2400/0*Ri6kbNkAZi_eLoaJ

Gute Internetverbindung

Es macht durchaus Sinn, vor Beginn eines Streams die Internetverbindung zu überprüfen, da es ansonsten während der Live-Auftritte zu ungewollten Pannen kommen kann.
Nach Empfehlung von Streamingplattformen wie Twitch sollten mindestens 6 Mbps für 1080p in hoher Qualität bei 60 FPS zur Verfügung stehen. Wenn diese Anforderungen nicht erreicht werden können, leidet die Streamingqualität darunter, jedoch sind 3Mbps in einer 720p-Auflösung bei 30 FPS im notfalls noch im Bereich des Vertretbaren.

Bei Streams mit hoher Bildrate, wie beispielsweise Ego-Shooter-Games, wird eine Uploadgeschwindigkeit von 10-15Mbit/s und ein Bildschirm mit hoher Bildwiederholungsfrequenz benötigt.
Bei niedrigeren Internetgeschwindigkeiten und keiner Möglichkeit zur Aufrüstung, ist Live-Streaming in einer ansehnlichen Qualität nicht möglich.

Standcomputer oder Laptop

Prinzipiell gilt, mehr ist besser, besonders wenn es um RAM und Prozessoren geht. Die Grafikleistung ist nur dann von größerer Relevanz, wenn Spiele gestreamt werden. Jedoch sind hierbei GPU-Empfehlungen der einzelnen Spieltitel zu beachten.
Ob PC oder Laptop hängt von der Leistungsfähigkeit ab. Ein hochwertiges Gerät steigert den qualitätiven Output des Streams, jedoch gibt es auch preiswertere Alternativen.
Die Mindestanforderungen für einen Live-Stream:

  • Prozessor: Intel i5-4670 oder AMD FX-8350
  • Arbeitsspeicher: 8 GB DDR3
  • Grafikkarte: Nividia Geforce 960 oder AMD Radeon R9 280
  • Betriebssystem: Windwos 7

Bei vorgefertigten Systemen oder wenn der PC selbst gebaut wird, ist auf folgende Anforderungen zu achten:

  • Prozessor: Intel i5-9600k oder AMD Ryzen 5 3600
  • Arbeitsspeicher: 16GB DDR4
  • Grafikkarte: Nivada Geforce GTX 1080 Ti oder AMD Radeon 5700 XT
  • Betriebssystem: Windows 10

Einige Streamer gehen noch einen Schritt weiter und verwenden zwei Computer oder Laptops, um die Arbeitslast zu bewältigen – einen, um ein Spiel auszuführen und den anderen, um die eigentlichen Streaming-Anforderungen zu erfüllen.

Anwendungen und Software

Bekannteste Applikationen und Software, Quelle: https://miro.medium.com/max/2000/0*kK84l5zqVOv2WxDW

Der Avatar

Als guten Ausgangspunkt für angehende Vtuber ohne Vorkenntnisse im Design-Bereich und mit geringem Budget eignet sich VRoid-Studio oder Live2D . Ein großer Vorteil dieser Tools ist, dass sie bereits “vorgeriggte” Basismodelle anbieten, welche sich hervorragend für erste Probeversuche eignen und jederzeit durch Details individuell angepasst werden können. Die Software ist zudem kostenlos.
Auch Websites wie TurboSuid, Sketchfab und CGTrader bieten kostengünstigere 3D-Modelle zum Download an.

Hat man als Content Creator viel Zeit und kreatives Talent, ist es möglich mit Software-Programmen wie Blender, Maya oder Zbrush einen völlig individuellen Charakter zu entwerfen.
Auch von Unreal Engine gibt es Anwendungen wie Meta Human Creator, um digitale Menschen mit hoher Wiedergabetreue zu erstellen. Es gibt auch Optionen für die Arbeit mit Apps wie ReadyPlayerMe oder Wolf3D. Allerdings sind hierfür gute 3D-Kenntnisse erforderlich.

Das fertige Modell muss dann noch “geriggt” werden, sprich mit einem digitalen Skelett versehen werden, um menschliche Bewegungen so realistisch wie möglich imitieren zu können. Dies kann entweder direkt in Blender oder für 2D-Modelle auch beispielsweise in Live2D Cubism erledigt werden.
Für die VRM-Konvertierung benötigt man eine 3D-Animationssoftware wie Unreal, Unity 3D oder iClone, jedoch finden sich Tutorials auf Youtube, wie beispielsweise das folgende für eine Formatierung in Unity:

Tutorial: Avatar zu VRM-Datei, Quelle: https://www.youtube.com/watch?v=fRnZUs4SFmk

Eine weitere Alternative zu den kostenlosen 2D- und 3D-Modellen, ist die Möglichkeit den Avatar bei einem Künstler in Auftrag zu geben. Es ist einfacher und geht schneller, als sich selbst mit der Charakterentwicklung und 2D- oder 3D-Umsetzung beschäftigen zu müssen. Allerdings ist diese Option keinesfalls billig. Auf Websiten wie Fiverr und Etsy geht die Preisspanne von 50$ für einfache Avatare, bis hin zu Beträgen im sechsstelligen Bereich für hochwertige und detailgetreue Modelle.

Das Tracking

Ganzkörper MoCap Setup Beispiel, Quelle: https://miro.medium.com/max/2400/0*T9lDZ4sGGdeDrIrn

Der Großteil der Vtuber-Einsteiger nutzt Anwendungen von Steam wie FaceRig, Animaze, Wakaru, 3Tene und Vtube Studio, da diese für alles was man so an einfachem Mocap (=Motion Capture, Bewegungsverfolgung) braucht, bieten können.
Es gibt aber auch einige beliebte virtuelle Streamer wie Code Miko, die Technologien aus der Videospiel- und Filmindustrie verwenden, wie z. B. 30.000-Dollar-Motion-Capture-Anzüge von Xsens.

Echtzeit-Aufnahmen während Tracking, source: https://www.youtube.com/watch?v=e818LgnJ9rI

Eine weitere beliebte Motion-Tracking Software ist Luppet. Als eine der größten Anwendungen, die von Vtubern verwendet wird, bietet es ein sehr sauberes, genaues Tracking und ist in mehreren Sprachen verfügbar. Allerdings ist es nicht auf Steam erhältlich, sondern nur auf einer japanischsprachigen Website und kostet um die 50$.

Inzwischen ist es außerdem möglich, mithilfe von iPhones mit Infrarot-Tiefenkamera für Face ID (seit der Veröffentlichung des iPhone X, 2017) ein genaueres Gesichts-MoCap zu erhalten als mit herkömmlichen Webcams.

Tutorial: Vtubing am Iphone, Quelle: https://www.youtube.com/watch?v=4aFOrHLR91Y

Die Ausrüstung für die Gesichtserfassung wird jedoch immer leichter und einfacher der breiten Masse zugänglich gemacht. Einige Umsetzungen erfordern zwar immer noch Marker im Gesicht und das Tragen eines Helms mit einer auftragsbezogenen Kamera, aber der Markt scheint sich in die andere Richtung zu bewegen – er unterstützt normale Streamer-Setups, die 2D-Webcams verwenden.

Wakaru und Hitogata sind gute Software-Beispiele dafür. Diese beiden kostenlosen Programme bieten eine frei verfügbare Gesichtsverfolgungsfunktion, die leicht in einen 3D-Charakter integriert werden kann. Aufgrund des offenen Algorithmus ist die Verfolgungsqualität nicht die beste auf dem Markt, aber die Bequemlichkeit überwiegt die Nachteile, zumindest für VTuber-Anfänger.
Qualitativ höherwertigere, kostenpflichtigere Webcam-Lösungen sind Hyprface SDK und Facerig. Hyprface ist besonders nützlich, um vorgefertigte 3D-Charaktermodelle zu integrieren.

Um die Position der Hände zu verfolgen, benötigen virtuelle Streamer ein optisches Handverfolgungsmodul, auch Leap Motion, genannt. Dieses kann Bewegungen viel genauer erfassen als iPhones oder Webcams und wird oft in Verbindung mit weiterer Ausrüstung verwendet, um Modelle noch realistischer animieren zu können.

Cory Strassburger – iPhone 12, Unreal Engine, und Xsens Setup, Quelle: https://www.youtube.com/watch?v=wSx472esQps&t=5s

Das Debüt

Schlussendlich wird der Avatar zum ersten Mal dem Publikum auf Streaming-Plattformen wie Twitch oder Youtube vorgestellt. Unabhängig vom narrativen Inhalt und dem eventuellen Skript, gibt es zunächst noch einige Import-Hinweise zu beachten:

Es gibt zwei Möglichkeiten, das Modell in einem Stream zu übertragen, abhängig von der Anwendung, die für das Mocap des Avatars verwendet wird.
Auf der Plattform Steam kann immer nur eine Anwendung ausgeführt werden. Sollte der Content Creator also keinen weiteren Inhalt teilen, kann er einfach die Quelle “Game Capture” auf OBS und Streamlabs verwenden um sein Modell auf einen Hintergrund seiner Wahl zu überlagern. Zusätzlich is bei dieser Methode zu beachten, dass die Transparenz in der verwendeten MoCap-Software immer aktiviert ist und beim Streamen auch zugelassen wird.

Alternativ dazu gibt es auch Vtuber, die während ihrer Streams andere Inhalte teilen, wei beispielsweise Spiele spielen oder gemeinsam mit ihrem Publikum auf Youtube-Videos reagieren. In diesem Fall gibt es Programme wie SUVA für Windows, mit denen virtuelle Streamer ihre Avatare in Unity importieren können und diese dann in Streaming-Anwendungen wie OBS einblenden. Dadurch bleibt das Steam-Konto frei.

In jedem Fall ist es wichtig sich vor seinem Debüt ausgiebig mit allen verfügbaren Programmen und Technologien auseinander zu setzen, um für sich selbst die bestmöglichste Variante zu finden. Um auch in Zukunft mehr Vtuber in die Community zu holen, währe die Umsetzung folgender Punkte ein Anfang:

  • Mehr Tools zur Erstellung von Avataren für Nicht-Experten, die verschiedene Kunststile unterstützen
  • Eine All-In-One-Mocap-Lösung für das gesamte Gesicht, den Körper und die Finger, die nur eine Webcam benötigen und damit Kosten und Ineffizienz verringern
  • Engere Zusammenarbeit zwischen Software- und Hardwareanbietern, um den Integrationsprozess zu vereinfachen und den Prozess zu vereinheitlichen, weiterzuentwickeln und zu konzentrieren
  • Eine einfache Benutzeroberfläche für Nicht-Entwickler, damit die Nutzung von Software und Hardware einer breiteren Masse zugänglich wird

Demnächst

  • Bedeutung, Entstehung und aktueller Bezug
  • V-Tuber Agenturen und ihre Protagonisten
  • Software und Programme – Was gibt es und wie verwende ich sie?
  • Entwicklung eines Characters – 2D und 3D Modell
  • (Erwartungshaltungen von Usern, Protagonisten und Agenturen)

Literaturverzeichnis

Wheaterbed, Jess (25.12.2021): How to be a Vtuber, https://www.techradar.com/how-to/how-to-be-a-vtuber, in: https://www.techradar.com/computing [10.01.2022]

hyprsense (23.09.2019): How to Become a Virtual YouTuber/Influencer, https://medium.com/@hyprsense/how-to-become-a-virtual-youtuber-influencer-7074b852fb9, in: https://medium.com/@hyprsense [10.01.2022]

xsense (): The perfect Virtual YouTuber setup, https://www.xsens.com/blog/virtual-youtuber, in: https://www.xsens.com/explore?tag=motion-capture-for-animation [10.01.2022]

xsense (): Xsens MCCC. How to become a vTuber, https://www.xsens.com/watch-webinar/MCCC-How-to-become-a-vTuber, in: https://www.xsens.com/blog/virtual-youtuber [10.01.2022]

Simulation vs sichtbare Ästhetik

Um diesen Blog zu starten, möchte ich zuerst mal das Thema erklären und meinen jetzigen Stand, mein Wissen und meine Fragen erläutern.

Der Titel “Simulation vs sichtbare Ästhetik” beinhaltet unterschiedliche Themen, die zum Teil sehr weitreichend sind. Da ich in diesem Rahmen unmöglich alle Aspekte abdecken kann, möchte ich mich speziell auf den Bereich ‘Art’, ‘Animation’, ‘Games’ und ‘Filme’ konzentrieren.

Auf der einen Seite steht die realistische Darstellung und das Verlangen, alles noch echter näher an der realen Welt wirken zu lassen. Die Kostüme, die Spezial Effects (VFX), die Charaktere, die Monster und so weiter. Ein Spiel beispielsweise soll nicht von einer echten Aufnahme unterschieden werden können und da ist wahrscheinlich noch nicht einmal die Grenze. Wenn man in Zukunft VR Brillen und Anzüge zum “tracken” von Bewegung und Gespür mit in diese Welt hinein ziehen, vielleicht ist es dann ja auch möglich, komplett mit dieser Simulation zu verschmelzen. Bereiche, die vor allem diesen Werdegang unterstützen sind unter anderem über Fotogrammmetrie eingescannte reale Objekte, wo über mehrere Fotos von einem realen Objekt, schnell und unheimlich genau ein 3D Modell erstellt werden kann, das nur mehr kaum bis gar nicht mehr vom Original zu unterschieden ist.

Zusätzlich natürlich auch Motion Capture, was im Allgemeinen in die gleiche Kategorie gegeben werden kann. Man zeichnet die Bewegung eines Körpers über eine Kamera auf, die anhand von Ankerpunkten die realistische und unheimlich filigrane Bewegung in die 3D Oberfläche übertragen kann. Die Körper sowie die Bewegung aus dem Realen genommen ermöglichen nun natürlich, sofern nicht von der Leistung des Computers eingeschränkt, eine komplett realistische Darstellung mit perfekten Elementen aus der Natur.

Solch ein Gedanke ist bis jetzt nur eine Vision, denn jene aufgenommenen ‘Assets’ sind extrem detailliert und brauchen viel zu viel Leistung. Real-time Engines, wie Unity oder Unreal versuchen daher, mithilfe von Tricks und Maschine-learning Details zu verlieren, ohne wirklich Details zu verlieren. Der Vorteil: alles kann in Echtzeit passieren. Spiele und mittlerweile auch schon einige Filme machen Gebrauch von Real-Time Engines, 3D Umgebungen, wo der finale Frame in millisekunden auf dem Bildschirm angezeigt werden kann. Im Vergleich dazu gibt es noch die Offline Render, wo Pixel mehrere Stunden bis Tage berechnet werden, um so realistisch wie möglich zu sein. Die Visuellen Unterschiede werden aber verschwindend gering.

Im Kontrast zu all jenem steht für mich die sichtbare ästhetische Darstellung, die Versucht, mit verschiedenen Stilmittlen unterschiedliche Emotionen hervorzurufen beziehungsweise zu verstärken. Oft mal gibt es auch bei dem Versuch einer realistischen Darstellung das Paradox, dass nicht realistische Inhalte in eine Reale Welt gezogen werden, wie Märchenwesen, Magier, Drachen und so weiter. Je ähnlicher, desto mehr werden die Unterschiede deutlich. Eine ästethische Darstellung hat dieses Problem aber nicht. Außerdem kann die Vorstellungskraft viel weiter ausgenutzt werden, wenn sich Inhalte mehr im kreativen und Abstrakten Bereich befinden, was möglicherweise zu einem noch tieferen Eintauchen in eine andere Welt beitragen könnte.


Fragen

Was macht einen realistischen Render aus? Ist realistisch am Bildschirm überhaupt möglich? Inwieweit spielt die Wahrnehmung und die Kultur eine Rolle, ob etwas als realistisch gesehen wird?

Was macht einen kreativen Render aus? Ist das Handwerk mehr Wert als die Vorstellbarkeit? Inwiweit kann eine kreative Welt einnehmend sein und in welcher Weise könnte sie einer realisitsch wirkenden Welt überlegen oder unterlegen sein?

Welche Schritte müssen im Realtime bis jetzt durch AI ersetzt werden, welche Teile können wirklich in Echtzeit berechnet werden?


Links

Realistisch vs Kreativ

https://www.thebubble.org.uk/lifestyle/gaming/the-absurdity-of-realism-in-video-games/ https://www.gamedeveloper.com/design/unrealistic-expectations-for-realism-in-games

https://link.springer.com/chapter/10.1007/978-3-540-28643-1_28

https://www.tandfonline.com/doi/abs/10.1080/18626033.2014.968412

https://www.jstor.org/stable/429652

https://books.google.at/books?hl=de&lr=&id=aPhjDAAAQBAJ&oi=fnd&pg=PP1&dq=realism+vs+abstraction&ots=CFcMjjnOuD&sig=k540UgM9FOEiWsbzgDafzl1uiJs&redir_esc=y#v=onepage&q=realism%20vs%20abstraction&f=false

https://link.springer.com/chapter/10.1007/978-3-642-59847-0_22

Realtime vs Offline Render

http://www.cgchannel.com/2010/10/cg-science-for-artists-part-1-real-time-and-offline-rendering/

http://digdok.bib.thm.de/volltexte/2020/5381/

https://dl.acm.org/doi/abs/10.1145/1037210.1037222?casa_token=j5Vif–RffYAAAAA:wnKuo8KL6fgurIx3jJKjQOLqJ6MnCD9F1F2vERHLEzyOeI7t2Qfm_A8HHCbtnpzHzsSbhWs9mRZdot0

https://www.sciencedirect.com/science/article/pii/S1474667017518315

Photogrammetrie und Laserscan

https://d1wqtxts1xzle7.cloudfront.net/30914662/ENGO431_F10_Course_outline-with-cover-page-v2.pdf?Expires=1634716489&Signature=c6-oURJ0NDmPLFmafDT8czHHIJ99zfeNXuipankB4j4g5qXSRV5e3s7VOTrBTWfGwYxTDPU0U2orIpe5UUigd13b5aujdP93dwOJOE-w0vd-uosaNivQ2mei3NYnVzZI~mMWCXjkVecXiRm8VEayxZhTQUULYBXLn85qOL1QZIWZgqXatfVVJUiviu~ztBpPlMvGQLFrV-f9lxvRZmVd3Dtk39Zg8rYHWOuvQsGt~ZcmcgEvGWHQ4KcOtA5jLneDlDHOk2pi~plhj6OrlZwiK3OJxBHvhgkvRe6ThxDem2URs5fxgye56GGf0~GXXDjpB1wQp2tmqPhKtGzXBSBOUg__&Key-Pair-Id=APKAJLOHF5GGSLRBV4ZA

https://link.springer.com/book/10.1007%2F978-3-540-92725-9

https://www.sciencedirect.com/science/article/pii/S0924271699000143?casa_token=VCq17Z_41vUAAAAA:0GnepMkaF1sIlGjOd_pe3vSW-sPOMRiM5YDx8iPIRXM-hrn5U8TzOUEoIbXQjpS4q-0G7a720Ebj

https://www.sciencedirect.com/science/article/pii/S0169555X12004217?casa_token=4xMcQO56kfMAAAAA:BC39s3wWvzPB7Li2OVAEKjxASw0CB5gdNHQVC7r4N_NCCM90hubq_WfC_9Dov30pma6Nh9lwMGZC

https://www.degruyter.com/document/doi/10.1515/9783110607253/html

https://journals.sagepub.com/doi/abs/10.1177/1555412018786415

Motion Capture

https://arxiv.org/abs/1712.01337

https://dl.acm.org/doi/pdf/10.1145/345370.345409

Weitere Struktur

Simulation
VFX
Motion Capture
Photogrammetrie
Lidar

Echtzeitgrafik
Idee einer Live Werbung

sichtbare Ästhetik

Enjoyment

Engangement

Was wenn digitale Welt die reale Welt beeinflusst? Dann real?

Response distortion in personality measurement: born to deceive, yet capable f providing valid self-assesments?: https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.465.1748&rep=rep1&type=pdf