A ElevenLabs lançou o Scribe, um novo modelo de fala para texto que afirma ser o mais preciso do mundo, superando líderes da indústria como o Gemini 2.0 Flash do Google e o Whisper v3 da OpenAI em dezenas de idiomas.
PUBLICIDADE
Detalhes do Scribe
- O Scribe suporta 99 idiomas, com taxas de precisão reivindicadas superiores a 95% para mais de 25 idiomas, incluindo inglês, italiano e espanhol.
- O modelo eleva o padrão em uma variedade de idiomas que tradicionalmente carecem de opções de reconhecimento de fala e transcrição, como sérvio, cantonês e malaiala.
- Seus outros recursos incluem rotulagem de vários falantes, marcações de tempo em nível de palavra e a capacidade de detectar marcadores de áudio não verbais, como risadas ou música.
- O Scribe tem o preço de US$ 0,40 por hora de áudio transcrito para áudio pré-gravado, com uma versão de baixa latência para aplicativos em tempo real chegando em breve.
Por que isso é importante
Com a precisão do Scribe e o foco na imprevisibilidade do áudio do mundo real, as pessoas podem esperar legendas perfeitas, arquivos de podcast pesquisáveis e muito mais. Ele também abre transcrições de alto nível para um público mais global — particularmente para idiomas de poucos recursos que foram anteriormente negligenciados por outros modelos.
Leia também: