Google SoundStorm: 効率的なオーディオ生成のための人工知能

SoundStorm は、さまざまな音声による対話を合成し、テキストやリアルなポッドキャストからオーディオコンテンツを作成するなど、新たな可能性を開くことができます。
以前のバージョンとは異なり、SoundStorm はオーディオを 30 秒単位で生成するため、効率が向上します。
エレフォイ訓練された対話の大規模なデータセットを使用して、話し言葉の確実な理解を保証します。
SoundStorm は前モデルの 30 倍の速度で、わずか 0,5 秒で XNUMX 秒のオーディオを生成できます。
このツールはまだ一般には普及していませんが、研究 AI がどのように機能するかを示しています。
SoundStorm によって生成されるオーディオは、前モデルと同等の品質であり、話者の音声を正確に保存します。
アクセントに関連する偏見や声を真似する際の乱用など、倫理上の問題の可能性を考慮することが重要です。
O Google 保護を実装することの重要性を強調し、音声透かしなどのこの技術の倫理的な使用を検出する方法を研究しています。
SoundStorm によって生成された音声の例を英語で聞いてください。