在 Youka 中,您可以使用 “Split model(分离模式)”功能来分离歌曲中的人声和乐器。 您有两种选择:
- DemucsDemucs(音乐源深度提取器)是用于音乐源分离的最先进的深度学习模型。 它在时域中运行,保留音频的时间细节,并使用卷积神经网络(CNN)架构。 Demucs 以高质量分离人声、鼓声、低音和其他乐器而闻名,是卡拉 OK 创作和音乐制作等任务的首选。 它经历了多个版本的演变,每个版本都在上一个版本的基础上进行了改进,并因其在信号失真比(SDR)基准测试(GitHub)(QuadraphonicQuad)中的出色表现而备受认可。
- MDX-23CMDX-23C 模型专为高级音乐混音任务而设计,特别针对将音乐分离为四个主干:低音、鼓、人声和其他乐器。 该模型融合了 Demucs4 和 MDX 神经网络架构,并加入了 “终极人声去除器 “项目中的某些权重。 MDX-23C 可提供高质量的分离效果,与强大的 GPU 设置配合使用时效果尤为显著,是寻求精确和专业级音频分离效果的用户的不二之选(GitHub)(QuadraphonicQuad)。
- ReFormerReFormer 是音乐混音领域的新秀,以创新的音乐音轨主干分离方法而闻名。 虽然有关 ReFormer 的详细信息并不广泛,但它被誉为将传统信号处理技术与现代深度学习方法相结合,实现了干净、准确的分离。 这种模式旨在兼顾质量和处理速度,因此既适合专业用户,也适合业余爱好者。
- MDX-Net(伴唱) MDX-Net 是专为音乐混音开发的双流神经网络,具有时频分支和时域分支。 这种结构允许模型通过分析音频的不同方面来分离主干,并将两个流的输出结合起来,生成高精度的分离结果。 MDX-Net 在国际音乐混音挑战赛中屡获殊荣,证明了它的有效性,是需要高精度音频处理的用户的可靠选择(GitHub)。