Bildnachweis: Curto Nachrichten/BingAI

ElevenLabs kündigt Modell für KI-Soundeffekte an; mehr wissen

Nachdem ElevenLabs, ein zwei Jahre altes KI-Startup, von ehemaligen US-Amerikanern gegründet wurde, beherrschte es die Kunst des auf maschinellem Lernen basierenden Sprachklonens und der Sprachsynthese Google und Palantir erweitert sein Portfolio um ein neues Text-to-Sound-Modell.

Diesen Montag (19) angekündigt, KI wird es Entwicklern ermöglichen, Soundeffekte zu erzeugen, indem sie einfach ihre Fantasie in Worte fassen. Es wird erwartet, dass dies Inhalte im Zeitalter KI-gesteuerter digitaler Erlebnisse auf eine neue Art und Weise bereichern wird.

WERBUNG

Das Modell ist nicht öffentlich verfügbar, aber das ElfLabs demonstrierte seine Fähigkeiten durch die Veröffentlichung eines einminütigen Teasers mit Videos, die vom neuen Unternehmen produziert wurden Sora da OpenAI und mit Ihren eigenen KI-Sounds erweitert. Das Unternehmen hat außerdem eine Anmeldeseite erstellt und lädt potenzielle Benutzer ein, sich auf eine Warteliste einzutragen, um frühzeitig Zugang zum Modell zu erhalten.

ElevenLabs wurde 2022 gegründet und forscht künstliche Audio- und Videoinhalte – von Filmen bis hin zu Podcasts – in verschiedenen Sprachen und Regionen zugänglich zu machen. Um dies voranzutreiben, hat das Unternehmen eine Reihe von Angeboten auf den Markt gebracht, darunter Text-to-Speech- und Speech-to-Speech-Modelle, die KI-Sprache aus bestimmten Inhalten (Text/Audio/Video) in 29 verschiedenen Sprachen erzeugen und dabei die Stimme beibehalten können und natürliche Emotionen (Originalstimme des Sprechers in Speech-to-Speech).

Während diese Tools weiterhin von Unternehmen und Einzelpersonen, die Inhalte produzieren, weit verbreitet sind, ist dank Tools wie Runway, Pika und neuerdings auch ein Anstieg von vollständig KI-generierten Inhalten zu verzeichnen. OpenAI (mit Sora). Diese Produkte generieren realistische KI-Videos aus einfachen Textansagen, es fehlt ihnen jedoch Standardton. Hier kommt das neue Modell von ElevenLabs ins Spiel, das es Benutzern ermöglicht, Soundeffekte für ihre Inhalte zu erzeugen, die beschreiben, was sie wollen.

WERBUNG

Wenn dieses Angebot genutzt wird, könnte es KI-Erstellern problemlos ermöglichen, ihre Arbeit mit Hintergrundgeräuschen zu bereichern, die sie natürlich begleiten sollten. Der Soundeffekt kann alles sein, von zwitschernden Vögeln bis hin zu fahrenden Fahrzeugen und Hupen. Es könnten sogar Menschen sein, die auf einer belebten Straße reden, essen oder spazieren gehen.

„Bei ElevenLabs zeigen wir nur unsere Textvorlagen für öffentliche Reden. Wir haben jedoch noch viel mehr in der Entwicklung. Und wenn die OpenAI „Wir haben beschlossen, eine Vorschau unserer neuen Produktlinie zu zeigen“, schrieb Luke Harries, der das Wachstum bei ElevenLabs leitet, als er den Beitrag erneut teilte, der eine Reihe von Sora-generierten Videos enthielt Videos Verbessert mit AI-Soundeffekten des Unternehmensmodells.

Zusätzlich zu KI-generierten Inhalten können die vom neuen Modell erzeugten Sounds sogar auf einfache Sprache angewendet werden, die aus Text oder anderen Videos – Instagram-Clips, Werbespots oder Game-Trailern – erstellt wird, die einen Hauch von Hintergrundton benötigen. Es bleibt abzuwarten, wie es eingesetzt wird und welche Qualität es liefern wird.

WERBUNG

ElevenLabs hat zwar nicht mitgeteilt, wann das Modell öffentlich vorgestellt werden soll, das Unternehmen hat jedoch Registrierungen für den frühen Zugriff eröffnet. Interessierte Benutzer können auf diese Seite zugreifen und sich mit ihrem Namen und ihrer E-Mail-Adresse registrieren und beschreiben, wofür sie die Soundeffekte benötigen. ElevenLabs bittet außerdem frühe Freiwillige, eine Beispielaufforderung für einen KI-Soundeffekt zu schreiben, um möglicherweise die Reaktionen des Modells zu optimieren.

Sobald die Registrierung abgeschlossen ist, wird der Benutzer zu einer Warteliste hinzugefügt und hat Zugriff, sobald das Modell verfügbar ist. Der Zeitplan bleibt jedoch zum jetzigen Zeitpunkt ungewiss.

Die neue Text-to-Sound-Technologie könnte ElevenLabs einen First-Mover-Vorteil verschaffen, es ist jedoch wichtig zu beachten, dass mehrere andere Unternehmen, die im Bereich Sprach-KI aktiv sind, ebenfalls das Potenzial haben, in dieses Segment vorzudringen. Dazu gehören bekannte Spieler wie MURF.AI, spielen.ht e WellSaid Labs.

WERBUNG

Nach Vermarkten Sie die USADer weltweite Markt für solche Werkzeuge belief sich im Jahr 1,2 auf 2022 Milliarden US-Dollar und wird bis 5 schätzungsweise fast 2032 Milliarden US-Dollar erreichen, mit einer durchschnittlichen jährlichen Wachstumsrate (CAGR) von etwas über 15,40 %.

Lesen Sie auch:

hochscrollen