En Youka, puedes usar la función “Modelo de Separación” para separar las voces de los instrumentales en una canción. Tienes dos opciones:
- Demucs Demucs (Extractor Profundo para Fuentes de Música) es un modelo de aprendizaje profundo de última generación para la separación de fuentes musicales. Opera en el dominio del tiempo, preservando los detalles temporales del audio, y utiliza una arquitectura de red neuronal convolucional (CNN). Demucs es conocido por su separación de alta calidad de voces, baterías, bajos y otros instrumentos, lo que lo convierte en una opción principal para tareas como la creación de karaoke y la producción musical. Ha evolucionado a través de múltiples versiones, cada una mejorando la anterior, y es reconocido por su fuerte desempeño en los puntos de referencia de la Relación Señal a Distorsión (SDR) (GitHub) (QuadraphonicQuad).
- MDX-23C El modelo MDX-23C está diseñado para tareas avanzadas de desmezcla de música, específicamente orientado a la separación de la música en cuatro pistas: bajos, baterías, voces y otros instrumentos. Este modelo se basa en una combinación de las arquitecturas neuronales de Demucs4 y MDX e incorpora ciertos pesos del proyecto Ultimate Vocal Remover. MDX-23C ofrece una separación de alta calidad y es particularmente efectivo cuando se usa con una configuración de GPU potente, lo que lo convierte en una opción fuerte para los usuarios que buscan una separación de audio precisa y de grado profesional (GitHub) (QuadraphonicQuad).
- ReFormer ReFormer es un recién llegado relativamente nuevo en el campo de la desmezcla de música, conocido por su enfoque innovador para separar pistas en las canciones. Aunque la información detallada sobre ReFormer es menos difundida, se sabe que combina técnicas tradicionales de procesamiento de señales con métodos modernos de aprendizaje profundo para lograr una separación limpia y precisa. Este modelo tiene como objetivo equilibrar la calidad y la velocidad de procesamiento, lo que lo hace adecuado tanto para usuarios profesionales como aficionados.
- MDX-Net (con coros) MDX-Net es una red neuronal de dos flujos desarrollada específicamente para la desmezcla musical, que presenta tanto una rama de tiempo-frecuencia como una rama de dominio del tiempo. Esta arquitectura permite que el modelo separe las pistas analizando diferentes aspectos del audio, combinando las salidas de ambos flujos para generar separaciones altamente precisas. MDX-Net ha demostrado su efectividad al asegurar las primeras posiciones en desafíos internacionales de desmezcla musical, lo que lo convierte en una opción confiable para los usuarios que necesitan alta precisión en su procesamiento de audio (GitHub).