Dans Youka, vous pouvez utiliser la fonctionnalité “Modèle de séparation” pour séparer les voix des instruments dans une chanson. Vous avez deux options :
- Demucs Demucs (Deep Extractor for Music Sources) est un modèle de pointe d’apprentissage profond pour la séparation des sources musicales. Il fonctionne dans le domaine temporel, préservant les détails temporels de l’audio, et utilise une architecture de réseau neuronal convolutionnel (CNN). Demucs est connu pour sa séparation de haute qualité des voix, des percussions, de la basse et d’autres instruments, ce qui en fait un choix de premier plan pour des tâches telles que la création de karaoké et la production musicale. Il a évolué à travers plusieurs versions, chacune améliorant la précédente, et est reconnu pour ses performances élevées dans les benchmarks de rapport signal à distorsion (SDR) (GitHub) (QuadraphonicQuad).
- MDX-23C Le modèle MDX-23C est conçu pour des tâches avancées de démixage musical, ciblant spécifiquement la séparation de la musique en quatre stems : basse, percussions, voix et autres instruments. Ce modèle est basé sur un mélange des architectures de réseaux neuronaux Demucs4 et MDX et incorpore certains poids du projet Ultimate Vocal Remover. MDX-23C offre une séparation de haute qualité et est particulièrement efficace lorsqu’il est utilisé avec une configuration GPU puissante, ce qui en fait un choix solide pour les utilisateurs recherchant une séparation audio précise et de qualité professionnelle (GitHub) (QuadraphonicQuad).
- ReFormer ReFormer est un nouvel entrant relativement récent dans le domaine du démixage musical, connu pour son approche innovante de la séparation des stems dans les pistes musicales. Bien que les informations détaillées sur ReFormer soient moins répandues, il est réputé pour combiner des techniques de traitement du signal traditionnelles avec des méthodes modernes d’apprentissage profond pour obtenir une séparation propre et précise. Ce modèle vise à équilibrer qualité et vitesse de traitement, le rendant adapté à la fois aux utilisateurs professionnels et amateurs.
- MDX-Net (avec chœurs) MDX-Net est un réseau neuronal à deux flux spécifiquement développé pour le démixage musical, comportant à la fois une branche temps-fréquence et une branche temporelle. Cette architecture permet au modèle de séparer les stems en analysant différents aspects de l’audio, combinant les sorties des deux flux pour générer des séparations très précises. MDX-Net a prouvé son efficacité en obtenant des positions de tête dans des concours internationaux de démixage musical, ce qui en fait une option fiable pour les utilisateurs nécessitant une haute précision dans leur traitement audio (GitHub).