Youka는 가사를 노래방 트랙의 음악과 일치시키는 다양한 방법을 제공하는데, 이를 동기화 모델이라고 합니다. 크게 두 가지 유형이 있습니다: 트랜스 크립 션과 정렬.
- 트랜스크립션 모델은 음성 인식과 유사한 기술을 사용하여 노래를 듣고 사람처럼 가사를 적으려고 노력합니다. 그러나 그들이 적는 단어가 완벽하게 정확하지 않을 수도 있습니다.
- 정렬 모델을 사용하려면 가사를 제공해야 합니다. 그런 다음 이 가사를 노래와 일치시키려고 합니다. 제공한 가사가 노래와 정확히 일치하지 않는 경우(후렴구가 누락된 경우 등) 타이밍이 부분적으로 약간 어긋날 수 있습니다.
Youka에서 사용하는 모델은 다음과 같습니다:
- AudioShakeAI(전사): 가장 많이 선택되는 기능으로, 먼저 가사를 적고 음악과 일치시키는 방식으로 작동합니다. 유료 사용자이거나 평가판을 사용하는 경우에만 사용할 수 있으며, 작동하는 데 최대 10분이 걸릴 수 있습니다.
- AudioShakeAI(정렬): 다음 단계로 사용자가 제공한 가사를 음악에 맞춥니다. 가사에 오류가 있는 경우 타이밍이 완벽하지 않을 수 있습니다. 또한 최대 5분 정도 소요됩니다.
- Wav2Vec2(정렬): 세 번째 옵션으로 AudioShakeAI와 비슷하게 작동하지만 거의 모든 언어를 지원합니다. 일반적으로 최대 30초 안에 완료되는 등 더 빠릅니다.
- 속삭임(전사): 네 번째 옵션으로, 동기화하기 전에 음악을 들으며 가사를 적는 방법입니다. 가사가 정확하지 않을 수 있지만 타이밍이 적당해야 하며 완료하는 데 최대 2분이 걸립니다.