Mai 4, 2024

BNA-Germany

Folgen Sie den großen Nachrichten aus Deutschland, entdecken Sie ausgefallene Nachrichten aus Berlin und anderen Städten. Lesen Sie ausführliche Funktionen, die Ihnen helfen, die Denkweise der Deutschen zu verstehen.

Rap Mona Lisa? Neue Microsoft-KI animiert Gesichter aus Fotos

Rap Mona Lisa?  Neue Microsoft-KI animiert Gesichter aus Fotos

Ana Ryu/Visual China Group/Getty Images

Am 19. März 2023 ist am Hauptsitz des Unternehmens in Seattle, Washington, ein Microsoft-Schild zu sehen.


New York
CNN

Dank der neuen KI-Technologie von Microsoft kann die Mona Lisa jetzt mehr als nur lächeln.

Letzte Woche stellten Microsoft-Forscher ein von ihnen entwickeltes neues KI-Modell vor, das ein Standbild eines Gesichts und einen Audioclip einer sprechenden Person aufnehmen und automatisch ein realistisch aussehendes Video der sprechenden Person erstellen kann. Die Videos – die aus echten Gesichtern, aber auch aus Karikaturen oder Kunstwerken erstellt werden können – sind mit überzeugenden Lippensynchronisationen und natürlichen Gesichts- und Kopfbewegungen ausgestattet.

In einem experimentellen Video zeigten die Forscher, wie sie die Mona Lisa dazu animierten, einen komödiantischen Rap-Song der Schauspielerin Anne Hathaway zu rezitieren.

Die Ausgaben des KI-Modells werden aufgerufen Vasa-1, sowohl amüsant als auch etwas widersprüchlich in ihrer Realität. Microsoft sagte, die Technologie könne für Bildungszwecke genutzt werden, „um die Zugänglichkeit für Menschen mit Kommunikationsschwierigkeiten zu verbessern“ oder vielleicht um virtuelle Begleiter für Menschen zu schaffen. Es ist aber auch leicht zu erkennen, wie das Tool missbraucht und dazu verwendet werden könnte, sich als echte Menschen auszugeben.

Es ist ein Anliegen, das über Microsoft hinausgeht: Da immer mehr Tools zum Erstellen überzeugender KI-generierter Bilder, Videos und Audioclips auftauchen, Experten sind besorgt Und ihr Missbrauch kann zu neuen Formen der Fehlinformation führen. Einige befürchten auch, dass die Technologie die Kreativbranche, vom Film bis zur Werbung, weiter stören könnte.

Zu diesem Zeitpunkt gab Microsoft an, dass es nicht vorhabe, das VASA-1-Modell sofort der Öffentlichkeit zugänglich zu machen. Der Schritt ähnelt der Art und Weise, wie Microsoft-Partner OpenAI die damit verbundenen Bedenken angeht Durch künstliche Intelligenz generiertes VideotoolSora: OpenAI hat Sora im Februar angeteasert, es aber bisher nur einigen professionellen Benutzern und Cybersicherheitsprofessoren zu Testzwecken zur Verfügung gestellt.

Siehe auch  Was bedeuten eigentlich 7-Jahres-Updates für Google Pixel?

„Wir lehnen jedes Verhalten ab, das dazu dient, irreführende oder schädliche Inhalte für echte Menschen zu erstellen“, sagten Microsoft-Forscher in einem Blogbeitrag. Sie fügten jedoch hinzu, dass das Unternehmen „keine Pläne hat, das Produkt öffentlich zu veröffentlichen“, „bis wir sicherstellen, dass die Technologie verantwortungsvoll und in Übereinstimmung mit den entsprechenden Vorschriften genutzt wird“.

Die Forscher sagten, dass das neue KI-Modell von Microsoft anhand mehrerer Videos von Gesichtern von Menschen beim Sprechen trainiert wurde und darauf ausgelegt ist, natürliche Gesichts- und Kopfbewegungen zu erkennen, darunter unter anderem „Lippenbewegung, (nicht-lippenbezogener) Ausdruck, Augenblick und Blinzeln“. “ andere Dinge“. Das Ergebnis ist ein realistischeres Video, wenn der VASA-1 ein Standbild schwenkt.

Beispielsweise hatte das sprechende Gesicht in einem Testvideo, in dem jemand einen aufgeregten Eindruck machte, offenbar während er Videospiele spielte, gerunzelte Brauen und geschürzte Lippen.

Das KI-Tool kann auch so gesteuert werden, dass es ein Video produziert, bei dem die Person in eine bestimmte Richtung blickt oder eine bestimmte Emotion ausdrückt.

Bei genauem Hinsehen gibt es immer noch Anzeichen dafür, dass die Videos maschinell erstellt wurden, wie etwa seltenes Blinzeln und übertriebene Augenbrauenbewegungen. Aber Microsoft glaubt, dass sein Modell andere ähnliche Tools „deutlich übertrifft“ und „den Weg für Echtzeitinteraktionen mit lebensechten Avataren ebnet, die menschliches Gesprächsverhalten nachahmen“.