No Youka, você pode usar o recurso “Modelo de Separação” para separar os vocais dos instrumentais em uma música. Você tem duas opções:
- Demucs Demucs (Deep Extractor for Music Sources) é um modelo de aprendizado profundo de última geração para separação de fontes musicais. Ele opera no domínio do tempo, preservando os detalhes temporais do áudio, e usa uma arquitetura de rede neural convolucional (CNN). O Demucs é conhecido por sua separação de alta qualidade de vocais, bateria, baixo e outros instrumentos, tornando-o uma escolha principal para tarefas como criação de karaokê e produção musical. Ele evoluiu através de várias versões, cada uma melhorando a anterior, e é reconhecido por seu forte desempenho em benchmarks de Relação Sinal-Ruído de Distorção (SDR) (GitHub) (QuadraphonicQuad).
- MDX-23C O modelo MDX-23C é projetado para tarefas avançadas de desmixagem de música, especificamente visando a separação da música em quatro partes: baixo, bateria, vocais e outros instrumentos. Este modelo é baseado em uma combinação das arquiteturas de rede neural Demucs4 e MDX e incorpora certos pesos do projeto Ultimate Vocal Remover. O MDX-23C oferece separação de alta qualidade e é particularmente eficaz quando usado com uma configuração de GPU poderosa, tornando-o uma escolha forte para usuários que buscam separação de áudio precisa e de nível profissional (GitHub) (QuadraphonicQuad).
- ReFormer ReFormer é um participante relativamente novo no campo da desmixagem de música, conhecido por sua abordagem inovadora para separar partes em faixas musicais. Embora informações detalhadas sobre o ReFormer sejam menos difundidas, ele é reputado por combinar técnicas tradicionais de processamento de sinal com métodos modernos de aprendizado profundo para alcançar uma separação limpa e precisa. Este modelo visa equilibrar qualidade e velocidade de processamento, tornando-o adequado tanto para usuários profissionais quanto para amadores.
- MDX-Net (com backing vocals) MDX-Net é uma rede neural de dois fluxos desenvolvida especificamente para desmixagem de música, apresentando tanto um ramo de tempo-frequência quanto um ramo de domínio do tempo. Esta arquitetura permite que o modelo separe partes analisando diferentes aspectos do áudio, combinando as saídas de ambos os fluxos para gerar separações altamente precisas. O MDX-Net provou sua eficácia ao garantir posições de destaque em desafios internacionais de desmixagem de música, tornando-se uma opção confiável para usuários que precisam de alta precisão em seu processamento de áudio (GitHub).