Das Rappen der Mona Lisa? Neue Microsoft-KI animiert Gesichter aus Fotos


New York
CNN

Dank der neuen künstlichen Intelligenztechnologie von Microsoft kann die Mona Lisa jetzt mehr als nur lächeln.

Letzte Woche stellten Microsoft-Forscher ein von ihnen entwickeltes neues KI-Modell vor, das ein Standbild eines Gesichts und einen Audioclip einer sprechenden Person aufnehmen und automatisch ein realistisch aussehendes Video dieser sprechenden Person erstellen kann. Die Videos – die sowohl aus fotorealistischen Gesichtern als auch aus Cartoons oder Kunstwerken erstellt werden können – sind mit überzeugender Lippensynchronisation und natürlichen Gesichts- und Kopfbewegungen ausgestattet.

In einem Demovideo zeigten Forscher, wie sie die Mona Lisa dazu animierten, einen komödiantischen Rap der Schauspielerin Anne Hathaway zu rezitieren.

Die Ergebnisse des KI-Modells namens VASA-1 sind sowohl unterhaltsam als auch ein wenig erschütternd in ihrer Realität. Microsoft sagte, die Technologie könne für Bildungszwecke oder „zur Verbesserung der Zugänglichkeit für Personen mit Kommunikationsproblemen“ oder möglicherweise zur Schaffung virtueller Begleiter für Menschen eingesetzt werden. Es ist aber auch leicht zu erkennen, wie das Tool missbraucht und dazu verwendet werden könnte, sich als echte Menschen auszugeben.

Diese Sorge geht über Microsoft hinaus: Da immer mehr Tools zur Erstellung überzeugender KI-generierter Bilder, Videos und Audiodaten auf den Markt kommen, befürchten Experten, dass ihr Missbrauch zu neuen Formen von Fehlinformationen führen könnte. Einige befürchten auch, dass die Technologie die Kreativbranche vom Film bis zur Werbung weiter stören könnte.

Microsoft sagte vorerst, dass es nicht vorhabe, das VASA-1-Modell sofort der Öffentlichkeit zugänglich zu machen. Der Schritt ähnelt dem Umgang des Microsoft-Partners OpenAI mit Bedenken rund um sein KI-generiertes Videotool Sora: OpenAI neckte Sora im Februar, hat es jedoch bisher nur einigen professionellen Benutzern und Cybersicherheitsprofessoren zu Testzwecken zur Verfügung gestellt.

See also  Etsy arbeitet mit Martha Stewart für eine umwerfende Weihnachtskollektion zusammen

„Wir lehnen jedes Verhalten ab, das dazu dient, irreführende oder schädliche Inhalte realer Personen zu erstellen“, sagten Microsoft-Forscher in einem Blogbeitrag. Sie fügten jedoch hinzu, dass das Unternehmen „keine Pläne hat, das Produkt öffentlich zu veröffentlichen“, „bis wir sicher sind, dass die Technologie verantwortungsvoll und in Übereinstimmung mit den entsprechenden Vorschriften eingesetzt wird“.

Das neue KI-Modell von Microsoft wurde anhand zahlreicher Videos von Gesichtern von Menschen beim Sprechen trainiert und ist darauf ausgelegt, natürliche Gesichts- und Kopfbewegungen zu erkennen, darunter „Lippenbewegung, (nicht-lippenbezogener) Ausdruck, Augenblick und Blinzeln, unter anderem“, so die Forscher. Das Ergebnis ist ein lebensechteres Video, wenn VASA-1 ein Standbild animiert.

In einem Demovideo zum Beispiel, in dem jemand zu sehen ist, der offenbar beim Spielen von Videospielen aufgeregt klingt, hat das sprechende Gesicht gerunzelte Brauen und geschürzte Lippen.

Das KI-Tool kann auch so gesteuert werden, dass es ein Video produziert, in dem die Person in eine bestimmte Richtung blickt oder eine bestimmte Emotion ausdrückt.

Bei genauem Hinsehen gibt es immer noch Anzeichen dafür, dass die Videos maschinell erstellt wurden, wie etwa seltenes Blinzeln und übertriebene Augenbrauenbewegungen. Aber Microsoft glaubt, dass sein Modell andere ähnliche Tools „deutlich übertrifft“ und „den Weg für Echtzeit-Interaktionen mit lebensechten Avataren ebnet, die menschliches Gesprächsverhalten nachahmen“.

Leave a Reply

Your email address will not be published. Required fields are marked *

Most Popular

On Key

Related Posts