O Youka oferece diferentes métodos para combinar as letras com a música em suas faixas de karaokê, conhecidos como modelos de sincronização. Existem dois tipos principais: transcrição e alinhamento.
- Modelos de Transcrição escutam a música e tentam escrever as letras como uma pessoa faria, usando tecnologia semelhante ao reconhecimento de voz. No entanto, as palavras que eles escrevem podem não ser perfeitamente precisas.
- Modelos de Alinhamento precisam que você forneça as letras. Eles então tentam combinar essas letras com a música. Se as letras que você fornecer não corresponderem exatamente à música (como se faltar um refrão), o tempo pode estar um pouco fora de sincronia em algumas partes.
Aqui estão os modelos que o Youka usa:
- AudioShakeAI (Transcrição): Esta é a escolha principal e funciona primeiro escrevendo as letras e depois combinando-as com a música. Está disponível apenas se você for um usuário Pay-Per-Use ou estiver usando um teste, e pode levar até 10 minutos para funcionar.
- AudioShakeAI (Alinhamento): Esta é a próxima opção e combina as letras que você fornece com a música. Se houver erros nas letras, o tempo pode não ser perfeito. Também leva até 5 minutos.
- Wav2Vec2 (Alinhamento): Esta é a terceira opção e funciona como o AudioShakeAI, mas suporta quase todos os idiomas. É mais rápido, geralmente terminando em até 30 segundos.
- Whisper (Transcrição): Esta é a quarta opção e também escuta a música para escrever as letras antes de sincronizá-las. As letras podem não ser exatas, mas o tempo deve ser decente, levando até 2 minutos para completar.