April 29, 2024

BNA-Germany

Folgen Sie den großen Nachrichten aus Deutschland, entdecken Sie ausgefallene Nachrichten aus Berlin und anderen Städten. Lesen Sie ausführliche Funktionen, die Ihnen helfen, die Denkweise der Deutschen zu verstehen.

Das Audiowiedergabe-KI-Modell von OpenAI benötigt nur ein 15-Sekunden-Sample, um zu funktionieren

Das Audiowiedergabe-KI-Modell von OpenAI benötigt nur ein 15-Sekunden-Sample, um zu funktionieren

OpenAI bietet eingeschränkten Zugriff auf eine von ihm entwickelte Text-to-Voice-Plattform namens Voice Engine, die eine synthetische Stimme basierend auf einem 15-sekündigen Clip der Stimme einer Person erstellen kann. Die KI-generierte Stimme kann Textaufforderungen bei Bedarf in der gleichen Sprache wie der Sprecher oder in einer Reihe anderer Sprachen vorlesen. „Diese kleinen Bereitstellungen helfen dabei, unseren Ansatz, unsere Sicherheitsvorkehrungen und unsere Überlegungen darüber zu prägen, wie die Voice Engine branchenübergreifend zum Wohle der Allgemeinheit eingesetzt werden kann“, so OpenAI sagte er in seinem Blogbeitrag.

Zu den Unternehmen mit Zugang gehören das Edtech-Unternehmen Age of Learning, die visuelle Storytelling-Plattform HeyGen, der Frontline-Gesundheitssoftwarehersteller Dimagi, der KI-Kommunikations-App-Entwickler Livox und das Gesundheitssystem Lifespan.

In diesen von OpenAI veröffentlichten Beispielen können Sie hören, was… Zeitalter des Lernens Die Technologie wurde manipuliert, um vorgefertigte Audioinhalte zu erstellen und die von GPT-4 verfassten „persönlichen Echtzeit-Antworten“ der Schüler zu lesen.

Erstens: Referenzaudio auf Englisch:

Hier sind drei KI-generierte Audioclips basierend auf diesem Beispiel:

OpenAI sagte, es habe Ende 2022 mit der Entwicklung der Voice Engine begonnen und die Technologie habe bereits vorgefertigte Stimmen für die Text-to-Speech-API und die Vorlesefunktion von ChatGPT bereitgestellt. Im Interview mit TechCrunchDas Modell wurde auf „einer Kombination aus lizenzierten und öffentlich verfügbaren Daten“ trainiert, sagte Jeff Harris, Mitglied des OpenAI-Produktteams für Voice Engine. OpenAI teilte der Veröffentlichung mit, dass das Modell nur etwa 10 Entwicklern zur Verfügung stehen werde.

Die Generierung der Text-zu-Sprache-Konvertierung mithilfe von KI ist ein Bereich der generativen KI, der sich ständig weiterentwickelt. Während sich die meisten auf Instrumentenklänge oder natürliche Klänge konzentrieren, hat sich eine kleinere Anzahl auf die Klangerzeugung konzentriert, was teilweise auf die von OpenAI gestellten Fragen zurückzuführen ist. Zu den Namen in diesem Bereich zählen Unternehmen wie Podcastle und ElevenLabs, die Technologien und Tools zum Klonen von KI-Audio bereitstellen vertcast Entdecken Sie letztes Jahr.

Siehe auch  Nordstrom, Salesforce, Ford und mehr

Laut OpenAI haben sich seine Partner bereit erklärt, sich an die Nutzungsrichtlinien zu halten, die besagen, dass sie die Sprachgenerierung nicht nutzen werden, um sich ohne deren Zustimmung als Personen oder Organisationen auszugeben. Außerdem müssen die Partner eine „ausdrückliche und informierte Zustimmung“ des Muttersprachlers einholen, nicht Möglichkeiten für einzelne Benutzer entwickeln, ihre eigenen Stimmen zu erstellen, und den Zuhörern offenlegen, dass die Stimmen durch künstliche Intelligenz erzeugt werden. OpenAI hat Audioclips außerdem ein Wasserzeichen hinzugefügt, um deren Herkunft zu verfolgen und zu überwachen, wie das Audio effektiv genutzt wird.

OpenAI hat mehrere Schritte vorgeschlagen, von denen es glaubt, dass sie die mit Tools wie diesen verbundenen Risiken begrenzen könnten, darunter die schrittweise Abschaffung der sprachbasierten Authentifizierung für den Zugriff auf Bankkonten, Richtlinien zum Schutz der Verwendung der Stimmen von Menschen in der KI und eine verstärkte Aufklärung über KI-Deepfakes und -Entwicklung von Trackingsystemen. Für Inhalte mit künstlicher Intelligenz.