1. 만들고 싶은 노래를 유튜브, 혹은 음원사이트에서 다운 받습니다.
유튜브 다운로드는 yt-dlp 라는 프로그램을 이용해 다운 받습니다.
yt-dlp는 cli 프로그램이라 터미널에서만 작동하니깐 gui 버전 프로그램이 있으면 다운받고 그걸 사용합니다.
예를 들어 after like를 다운받고 싶다면
https://www.youtube.com/watch?v=CVxTT38_J4c
이 링크를 가져온 다음
요로코콤해서 다운받으면 됩니다.
다 다운 받았으면 그 다음으로 노래 반주와 음성을 분리 해주는 작업을 해주면 됩니다.
대충 이런 프로그램이 있는데 설정창 들어가서 모델을 다운 받아줍니다.
여기 있는 곳에 VR Arch 에서 UVR-DeEcho-DeReverb, NDX-Net에서 Kim Vocal 2 두개 다운 받아줍니다.
이제 작업을 시작해 봅시다.
먼저 킴 보컬2로 반주와 목소리를 분리해야합니다.
이렇게 해두고 시작하면 분리가 됩니다.
그 분리가 된 보컬에서 일단 사람이 들어본 후에 리버브랑 에코가 너무 심하다 싶으면
아까 말한 UVR deecho dereverb로 한번 더 작업해주면 됩니다.
이러면 이제 순수한 보컬만 살린 파일이 준비 됩니다.
노래마다 다르지만, 코러스 같은 경우는 깔끔하게 제거 되지 않을 수도 있으니 그런 경우에는
이미 AI로 작업이 된 노래들을 가져다가 쓰면 잘 분리가 됩니다.
이제 ai 이약 목소리를 훈련, 더빙 해봅시다.
https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
이 링크에서 프로그램 다운 받은 후에 파이썬으로 가상환경 설정 해 줍니다.
이후에 허깅페이스에서 보컬 모델들 다운 받아서 프로그램 설치 폴더에 배치 해 줍니다.
https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main
(ffmpeg 프로그램 설정 안해두면 이거 안되니깐 검색해서 잘 설치 해둡니다.)
가상환경 설정 + requirements.txt 설치 + 모델 다운로드가 다 됐다면 이제 실행 시켜줍니다.
이게 첫 화면이고,
train쪽으로 들어오면 이제 이약 목소리 훈련 시킬 수 있어요.
설명 페이지에는 5분 이상만 있으면 된다고 하는데 저같은 경우는 55분짜리 방송 파일 사용했고요
순수하게 이약 목소리만 들어갈 수록 당연히 훈련 결과가 좋아지겠죠?
그렇게 다 훈련 시키고 나면 다시 첫번째 페이지로 이동해서 보컬 파일에 이약 목소리를 입혀 주면 됩니다.
댓글 9개 ▼