# 당신의 목소리가 이제 배운 적 없는 언어를 말할 수 있습니다.
Canonical: https://social-archive.org/yena/rOAvK0mNaM
Original URL: https://x.com/heynavtoor/status/2072285344373015036
Author: Nav Toor
Platform: x
## Content
## 1 당신의 목소리가 이제 배운 적 없는 언어를 말할 수 있습니다. 로봇 목소리로 텍스트를 읽어주는 번역 앱이 아닙니다. 당신의 실제 목소리. 당신의 톤. 당신의 리듬. 당신의 개성. 유창한 일본어로 말하기. 아니면 한국어. 아니면 광둥어. 아니면 만다린. 당신이 말하는 5초면 충분합니다. RVC-Boss라는 개발자가 오픈소스 버전을 배포했고, GPT-SoVITS라고 이름 지었습니다. GitHub에서 59,200개의 별. MIT 라이선스. 11일 전에 푸시되었습니다. 이게 진짜인 이유입니다. 5초 분량의 오디오로 제로샷 클로닝이 가능합니다. 붙여넣기, 입력, 출력. 훈련 불필요. 1분이면 완전한 파인튜닝이 됩니다. 평균 의견 점수 5점 만점에 4.2점. 연구자들이 30분 분량의 스튜디오 오디오로 훈련된 모델에 부여하는 동일한 점수. 다국어 지원. 영어 목소리로 훈련시키고, 일본어, 한국어, 광둥어, 만다린으로 말하게 할 수 있습니다. 목소리는 그대로 유지됩니다. RTX 4090에서 3.36초 만에 4분 분량의 오디오를 생성합니다. 이제 돈 얘기입니다. ElevenLabs Creator: 연간 264달러. ElevenLabs Pro: 연간 1,188달러. ElevenLabs Business: 연간 15,840달러. http:// Murf.ai Creator: 연간 228달러. Descript Pro: 연간 396달러. 모두 문자당 요금계를 적용합니다. 모두 서버에 당신의 목소리를 저장합니다. GPT-SoVITS는 0달러입니다. 당신의 GPU에서 실행됩니다. 무제한 문자. 무제한 목소리. 무제한 언어. 당신의 오디오는 절대 기기를 떠나지 않습니다. 유튜버가 일본어 성우에게 비디오당 300달러를 지불합니다. GPT-SoVITS: 대본 입력, 당신의 목소리가 일본어로 읽어주고, 몇 분 만에 전달됩니다. 인디 게임 스튜디오가 50개의 NPC 목소리에 10,000달러를 예산으로 잡습니다. GPT-SoVITS: 캐릭터당 5초, 전기 비용만큼의 비용으로 50개의 독특한 목소리. 이름은 마케팅이 아닙니다. 그것은 아키텍처입니다. GPT 스타일의 텍스트 인코더를 VITS 음향 모델에 연결한 것으로, RVC 음성 변환 라인에서 확장되었습니다. 연간 15,840달러짜리 도구에, 당신의 목소리 60초로 방송 품질 출력을 만드는 오픈소스 대안이 있습니다. (댓글에 링크) https://t.co/ewbP8kRz8E {{IMAGE_0}} --- ## 2 Repo: https://t.co/CpoCqyL6K8