A startup coreana Nari Labs lançou o Dia, um modelo de texto para fala de código aberto que alega superar as capacidades de ofertas comerciais líderes como ElevenLabs e Sesame – desenvolvido por dois universitários da área de tecnologia com zero financiamento.
PUBLICIDADE
Detalhes do Dia
- O modelo de 1,6 bilhão de parâmetros suporta recursos avançados como tons emocionais, múltiplas etiquetas de falante e sinais não verbais como risos, tosses e gritos.
- O trabalho foi inspirado no NotebookLM do Google, com a Nari também utilizando o programa TPU Research Cloud do Google para acesso computacional.
- Testes lado a lado mostram o Dia superando o ElevenLabs Studio e o Sesame CSM-1B em termos de sincronia, expressividade e manipulação de scripts não verbais.
- O fundador da Nari Labs, Toby Kim, disse que a startup planeja desenvolver um aplicativo para o consumidor focado na criação e remixagem de conteúdo social baseado no modelo.
Por que isso é importante
O Dia é um testemunho vivo do tweet de Sam Altman “você pode simplesmente fazer as coisas”, com dois universitários inexperientes treinando um modelo de código aberto que compete com a principal tecnologia de voz do mercado. Nunca houve um momento melhor para tentar construir algo, com a IA desbloqueando um novo acesso ao aprendizado como nunca antes.
Leia também: