음성 합성 신디사이저가 실제 가수를 대체할 가능성에 대한 질문

Posted on

소개글

미리 녹음된 사람의 목소리를 활용해 가사/멜로디 입력 내용을 바탕으로 목소리를 합성하는 Yamaha Corporation 에서 개발한 음성 합성 신디사이저인 VOCALOID의 일부 팬들은 해당 소프트웨어가 실제 가수를 대체할 가능성이 어느 정도인지 묻고는 합니다. VOCALOID의 팬들, 특히 가장 유명한 일본의 가상 가수 캐릭터인 ‘하츠네 미쿠’의 팬들의 질문에 영감을 받아, 실제 사람인 가수가 음성 합성 기술로 대체될 가능성에 초점을 두어 조사를 시작하게 되었습니다. 해당 조사의 결론을 얻기 위해 음성 합성 신디사이저에 대한 기술적인 분석과 합성 소프트웨어의 라이선스 비용 확인, 음악 분야 종사자와의 인터뷰 등을 진행하였습니다.

‘음성 합성 신디사이저’란 무엇인가?

실제 인간 보컬리스트와 음성 합성 신디사이저 사용에 대한 본격적인 비교를 진행하기에 앞서, 정확한 분석 결과를 수집하기 위해 음성 합성 신디사이저란 무엇이며 어떻게 작동하는지에 대한 지식이 필요합니다. Yamaha Corporation VOCALOID팀의 대표 엔지니어인 켄모치 히데키 씨와 오시타 하야토 씨의 연설의 따르면 VOCALOID는 Yamaha Corporation에서 만든, 크게 세 가지 부분(스코어 에디터, 가수 라이브러리 및 합성 엔진)으로 구성된 노래하는 신디사이저입니다 (Interspeech 2007). 스코어 에디터는 사용자가 음표, 가사 및 추가적 감정 표현(목소리 떨림, 부분 강조 등)을 입력할 수 있게 해주는 사용자 인터페이스입니다 (Interspeech 2007). 가사 입력이 끝나고 나면 스코어 에디터는 입력된 글자를 음성 합성 엔진이 읽고 한 명의 사이버 가수로 판단할 수 있는 ‘가수 라이브러리(하나의 언어에서 나올 수 있는 모든 가능한 모음/자음의 조합의 음성 녹음 샘플을 가지고 있는 음성 데이터베이스 (SMAC 2003) )’의 데이터를 이용해 음성 합성을 진행할 수 있게 해주는 음성 기호(혹은 2개 이상의 음절이 존재할 경우 음절 단위)로 변환합니다 (Interspeech 2007).

Figure 1: “System Diagram”, Figure 1 on Kenmochi, Oshita &, Interspeech 2007.

해당 기술의 음성 합성은 트랜스포지션 (하나의 소리 파일의 키를 바꾸는 것), 위상 보정 (실제 신호와 가상의 신호를 복합적인 스펙트럼 하나에 섞어 담아내는 과정 (Brouwer H, 2009)) 및 Spectral Peak Processing (SPP) 와 단계/모양 연결을 기준으로 한 이퀄라이징 (하나의 전기 신호에서 주파수의 균형을 조정하는 과정) 등과 같은 음성 샘플 변형을 통해 이루어집니다 (SMAC 2003). 해당 기술의 음성 합성 과정 특성상 음성 합성의 과정에서 필요해지는 음성 샘플은 사전에 실제 인물로부터 수집되어야만 하므로, 기술적으로는 음성 합성 엔진의 사용은 정말로 인간 가수를 ‘대체’하는 행위는 아닙니다. 그러므로, 이후 조사 내용은 ‘표면적인 측면’에서의 음성 합성 신디사이저의 인간 가수 교체 가능성, 즉 ‘음성 합성 신디사이저만으로 실제 사람을 고용할 필요가 없어지는지에 대한 여부’에 초점을 맞춰 진행하게 되었습니다.

녹음 비용 및 시간 관리에 따른 비교

음성 녹음 시간 및 비용 또한 보컬리스트 대체 가능성에 기여합니다. 작곡가의 입장에서 곡 하나를 작곡하기 위해서는 충분한 횟수의 반복적인 녹음/편집 작업이 필요한데, 예산이 맞지 않을 경우 곡 하나를 만들기 위한 충분한 녹음 시도를 만들어낼 수 없기 때문입니다. 음성 합성 신디사이저의 사용자 라이선스는 해당 제품의 공식 웹페이지 또는 타 소매상으로부터 구매할 수 있습니다. VOCALOID 소프트웨어 중 가장 최신 버전인 VOCALOID5를 예시로 할 경우, 기본적으로는 USD 225.23(세금 제외) 정도 가격에 음성 합성 엔진과 4개의 가수 라이브러리를 사용할 수 있는 영구 권한을 제공하는 Standard Package와 USD 360.36(세금 제외) 정도 가격에 음성 합성 엔진과 8개의 가수 라이브러리를 사용할 수 있는 영구 권한을 제공하는 Premium Package가 존재합니다 (VOCALOID n.d.). 기본 패키지에 포함된 가수 라이브러리 이외의 라이브러리의 사용자 라이선스 또한 별도 구매가 가능하며 가격은 목소리당 평균 USD 74.39(세금 제외) 정도입니다. 아래의 표는 온라인 판매처에서 구매할 수 있는 가수 라이브러리 중 일부를 나열한 것입니다:

Figure 2: List of available additional singer libraries. Crypton Future Media, “The software that makes singing computer become real”, Yamaha Corporation, “ADD-ON VOICEBANKS”.

일본어 오픈소스 음성 합성 소프트웨어인 UTAU는 지금 바로 웹페이지에서 다운로드 및 사용이 가능합니다 (“歌声合成ツールUTAU”, n.d.). Dreamtonics Corporation Limited 에서 개발한 음성 합성 신디사이저인 Synthesizer V의 영구 이용자 라이선스는 해당 제품의 공식 웹사이트에서 구매가 가능하며 사용자 라이선스의 가격은 USD 80(세금 별도) 입니다 (“Synthesizer V”, 2019).

인터넷에는 보컬리스트를 고용할 수 있게 해주는 다양한 웹사이트가 존재합니다. 음악 프로듀서들은 SoundBetter, Fiverr, Vandalism Sounds 및 Vocalizr 등의 웹 서비스를 통해 온라인으로 다양한 보컬리스트와 소통할 수 있습니다 (한국 사이트는 아직 찾지 못했습니다).

SoundBetter에서 활동하는 사람 중 대부분의 경우는 그들이 일반적으로 청구하는 평균 값을 공개하지 않으며 상세한 가격 상의를 위해 먼저 연락할 것을 제안합니다. SoundBetter에서 활동하는 여성 보컬리스트분들 중 자신들의 평균적 청구 비용을 공개한 사람들은 곡 하나 녹음하는 데에 보통 USD $200~350 정도를 요구한다고 말했습니다 (“Top Female Singers for Hire”, n.d.).

다양한 아마추어와의 거래를 할 수 있게 해주는 사이트인 Fiverr의 경우는 보컬리스트만 보여주는 것이 아닌, 작곡/작사가도 소개시켜주어 사람을 구분하는 데에 있어 약간의 불편함을 겪게 했습니다. 사람들이 외주 비용으로 청구하는 금액은 사람마다 제각각이었고 특별한 규칙을 찾기가 어려웠습니다만, 한 가지 확실한 점은 사람들이 청구한 비용은 녹음해달라는 부분의 길이에 따라 가격이 책정된다는 점이었습니다.

Vandalism Sounds 는 보컬리스트 고용 서비스에 대한 체계적인 구조를 가지고 있었습니다. 1절 (16 bars) 녹음을 위한 비용은 139 영국 파운드(세금 제외)이며 해당 녹음본을 상업적인 목적으로 사용하고자 할 경우 보컬리스트에게 온전한 라이선스를 넘겨받기 위한 금액을 지불하지 않을 경우 보컬리스트가 해당 노래를 통해 얻은 수일 및 저작권의 일부를 가지게 됩니다 (“Vocals”, n.d.).

Vocalizr는 SoundBetter와 매우 흡사한 사이트로, 해당 사이트에서 음성 샘플을 제시해주는 다양한 ‘실력파’ 보컬리스트를 만나보실 수 있습니다 (“Find Vocalists”, n.d.). 해당 사이트에서 음악 프로듀서들은 사이트가 추천해주는 보컬리스트와 연락하여 목소리 녹음을 의뢰하고 후기를 남길 수 있습니다.

위에 제시된 모든 사이트들은 목소리 녹음에 소요되는 시간은 약 5~7일 정도임을 미리 알려주고 있습니다. 따라서 단시간에 다양한 버전의 목소리 샘플을 많이 만들어내고자 하는 음악 프로듀서에게 있어서는 이 점이 치명적이게 느껴질 수 있습니다. 하지만 이러한 특수한 경우를 제외한다면 사실상 소요 시간은 큰 문제가 되지 않으므로 커다란 영향을 줄 요소로는 고려되지 않습니다.

음성 합성 신디사이저에 대한 사람들의 인식

음성 합성 신디사이저에 대한 대중들의 인식 또한 실제 가수의 교체 가능성에 영향을 줄 수 있습니다. 음악 산업과 관련된 분야에서 활동하는 종사자분들과의 이메일 인터뷰를 통해 인터뷰 대상자분들의 솔직한 관점, 생각 및 예측에 대한 정보를 얻고 기록함으로서 음성 합성 신디사이저에 대해 다양한 관점에서 바라볼 수가 있었습니다. 인터뷰에 참여해주신 분들의 답변 내용은 모두 차이가 있었으나, ‘음성 합성 신디사이저를 통해 만들어낸 목소리는 실제 가수로부터 바로 듣는 목소리와 엄연하게 차이가 느껴진다’ 라는 공통적인 답변을 포함하고 있었습니다. 다수의 인터뷰 참가자가 음성 합성 신디사이저를 사용하여 만든 노래의 품질과 평판은 사용자가 어떠한 작품을 만들어내려고 하는 것인지에 따라 다를 것이며 해당 소프트웨어를 사용하여 작품을 만들어내는 것은 매우 실험적인 시도라고 말했습니다. 사람들과의 인터뷰 도중 노래의 ‘영혼’이나 ‘감정’과 같은 같은 예술적/철학적 측면이 일종의 ‘선입견’으로서 다가왔고, 이에 인터뷰 내용을 정리하는 데에 있어서 다소 어려움이 있었습니다.

Music Education Network에서 음악 기술 지원자로서 일하는 Dowling D (2019) 씨는 팝송처럼 리드 보컬이 멜로디와 가사 등을 전달하는데에 있어 중요한 역할을 하는 음악 장르에서 음성 합성 신디사이저를 실제 인간 가수처럼 사용하는 것은 절대로 권장하지 않는다고 밝혔습니다. Dowling D (2019) 씨는 예술가(음악 프로듀서)가 의도하는 분위기가 구체적으로 로봇식 또는 ‘합성된’ 미학이라면 전자적으로 생성 된 보컬 옵션을 탐구하는 것이 실용적이고 경제적으로 합리적일 것이라고 말했습니다. 다른 인터뷰 대상자 Whittington S (2019) 씨는 일본 작곡가 시부야 케이치로 씨가 작곡하고 사이버 가수 ‘하츠네 미쿠’가 연극한 VOCALOID 오페라 “The End”를 음성 합성이 ‘선호될 수 있는 경우’의 예시로 들며 ‘소리의 선호도는 상황에 따라 다르다’라고 응답하며 해당 응답을 지지했습니다; 해당 오페라의 요점은 가상의 캐릭터의 ‘삶’과 궁극적 인 ‘죽음’을 탐구하는 것이었고 (Whittington S, 2016), 따라서 ‘살아있지 않은’ 음성을 사용하는 것이 적절했다고 답했습니다. 일반적인 관점에서 Dowling D (2019) 씨는 “자금이나 환경의 문제로 인간 연기자를 고용할 수 없는” 경우 음성 합성 신디사이저는 ‘파격적인’ 대체 용품이 될 수 있다고 생각한다고 답했습니다.

대한민국에서 거주하는 VOCALOID 프로듀서 ‘Itsuwara’ (2019) 씨의 답변에 따르면 음성 합성 신디사이저의 노래하는 분위기는 음악 프로듀서의 ‘입맛’에 따라 바뀔 수 있습니다; 음악 프로듀서가 음성 합성 신디사이저의 노래하는 방식에 변형을 주어 목소리가 더욱 사람에 가까워지거나 기계적일 수 있게 된다는 답변이었습니다. ‘Itsuwara’는 음성 합성 신디사이저의 노래 기술은 작곡가의 선호도와 마스터링 기술에 달려 있기 때문에 인간 보컬과 노래 신디사이저를 비교하는 것이 어려울 수 있다고 주장했습니다. 두 인터뷰 대상자 ‘Itsuwara’ (2019) 씨와 ‘Muse Queen’ (2019) 씨 모두 보컬리스트를 고용하는 데에 있어 어려움을 겪는 음악 프로듀서들에게 음성 합성 신디사이저의 사용은 고려해볼만 한 일이라고 답했습니다 – ‘Itsuwara’ (2019) 씨는 또한 음성 합성 신디사이저 중 하나인 VOCALOID의 원래 존재/개발의 이유가 ‘보컬리스트를 고용하는 데에 있어 어려움을 겪고 인는 프로듀서들을 돕는 것’이라고 추가적으로 언급했습니다. ‘Itsuwara’ (2019) 씨는 VOCALOID의 존재에 대해 매우 행복해하고 있고 VOCALOID 개발진에게 해당 소프트웨어를 만들어주어서 정말 감사하게 생각하고 있으나, 최근에 출시된 VOCALOID5 엔진에서 오류가 다소 보여 불편함을 겪어 있다고 전하고 싶다고 말했습니다.

대한민국에서 거주 중이신 프리랜서 보컬리스트 ‘Muse Queen’ (2019) 씨는 음성 합성 신디사이저를 ‘경쟁 대상’이 아닌, 하위문화에서의 일종의 ‘장르’ 중 하나로 여기고 있다고 말했습니다. ‘Muse Queen’ (2018) 씨는 개인적으로 음절과 음절 사이를 조금 더 부드럽게 이어준다면 음성 합성 신디사이저로 만들어지는 결과물이 조금 더 개선되지 않을까 하고 생각한다고 말했습니다.

학생들에게 성악을 가르치시는 교수님이시자 세계를 돌아다니며 오페라 연극을 하시는 뉴질랜드 출신의 오페라 테너 Power P (2019) 씨는 ‘어떠한 경우에서도 음악을 만드는 데에 있어서 컴퓨터로 목소리를 인위적으로 만드는 것은 용납할 수 없는 일이다’ 라고 강력히 주장했습니다. Power P (2019) 씨는 김소향 씨가 가창했던 대한민국 민요 “아리랑”을 가창하는 것을 ‘영혼’이 담긴 가창의 예시 중 하나로 지목하며 컴퓨터로 만들어진 목소리에는 ‘영혼’이 존재하지 않아 완벽해질 수 없을 것이라 주장했습니다.

University of Adelaide의 소닉아트 분야 최고 담당자이신 Whittington S (2019) 씨는 음성 합성 신디사이저의 사용이 노래에서 어떻게 느껴질지에 대해서는 상황에 따라 다를 것이며 만약 소프트웨어 개발 목표가 ‘매우 현실적인’ 목소리를 만둘어내는 것일 경우 해당 기술은 아직 많이 발전해야 하는 상태라고 지적했습니다. Whittington S (2019) 씨는 음성 합성 신디사이저를 발전시킬 더 나은 방향은 음성 합성 신디사이저를 실제 인간 가수를 대체할 수단이 아닌, 사람의 목소리의 사용과 병행할 수 있는 또 다른 종류의 ‘전자 악기’로서 취급되는 것이라 생각한다고 제안했습니다.

교체의 실제 사례

음성 합성 신디사이저를 통해 사망했던 보컬리스트가 ‘부활’하는 사례가 있었습니다. 2011년, 야마하 주식회사에서는 2007년에 사망했던 일본 유명 가수 우에키 히토시 씨의 목소리를 사용하여 보컬로이드 가수 라이브러리를 만든 적이 있었습니다. VOCALOID 팀에서는 개발에 직접적으로 참여할 수 없는 사람의 목소리를 통해 가수 라이브러리를 만드는 것은 매우 성공적이었다 발표했습니다 – 일반적으로는 목표 언어에서 나올 수 있는 모든 가능한 음절을 따로 녹음할 필요가 있었기에 이는 매우 큰 변화였습니다 (Kaufman R, 2011). 해당 가수 라이브러리를 사용한 첫 녹음본은 일본 스트리밍 사이트 ‘니코니코 동화’에서 송출되었고, 해당 가수 라이브러리는 ‘Ueki-loid’라는 이름을 얻게 되었습니다. 이러한 실제 ‘교체 사례’는 해당 기술이 얼마나 발달해왔는지, 그리고 이러한 기술이 인간 가수를 대체할 수 있는 능력이 어느 정도인지 가늠하게 해줄 수 있는 사례로 간주될 수 있습니다.

지금까지 나온 결론

지금까지의 조사 결과로는, VOCALOID와 실제 가수를 능력 및 비용을 기준으로 한 비교는 결론을 얻어내기 힘든 주제임을 확인할 수 있습니다. 켄모치 히데키 (2011) 씨는 2011년에 기자 Kaufman R 씨와의 인터뷰에서 ‘VOCALOID는 실제 사람인 가수들을 대체하는 수단이 아닌, 새로운 형태의 디지털 악기로서 여겨지고 있다’ 라고 말했습니다. Dowling D (2019) 씨와 Whittington S (2019) 씨의 인터뷰 답변을 인용하며, 음성 합성 신디사이저는 실제 가수를 대체할 수 있는 수단으로 취급할 것이 아니라 사람의 목소리를 활용할 수 있는 또 다른 하나의 형식으로서 간주해야 할 것이라고 말하고 싶습니다. Power P (2019) 씨와 같이 음성 합성 신디사이저에 대해 부정적으로 생각하는 사람들은 해당 소프트웨어를 사용하여 만들어진 노래를 듣지 않으려고 할 것이기 때문에 사실상 음성 합성 신디사이저의 실제 가수를 대체할 가능성은 시장에서의 수요와 관련된 문제라고 볼 수 있을 것입니다.

개선점 필요

The main structure of my research was built on extensive reading of scientific journals and studies online, which allowed me to quickly establish a specific understanding of the voice synthesis technology. It was decided to obtain the data about the structure of the voice synthesisers as it was expected that understanding of voice synthesis is required for this research. During the first step of the research, researching about what voice synthesis is and how it works, gave me the ‘statement’ that the voice synthesis technology is the technology of reconstructing recorded speech samples for making a speech phrase, which gave me a part of the research answer ‘the voice synthesisers should not be considered as a factor that can replace human singers but another method of using human voice’. Majority of the data available online were ‘unofficial’ resources those cannot be trusted such as fan fictions and ‘personal opinions’. A lot of ‘fan artworks’ were filtered out, being considered as ‘unreliable’ resources, while ‘public image’ is one of the most important factors for marketing.

좋아하는 음악 장르와 음악 아티스트는 개인마다 차이가 있을 수밖에 없습니다. 세대와 지역에 따라서 가지고 있는 주관적인 생각이 매우 다르므로, 매우 ‘보편적인’ 해답을 얻어내는 것이란 매우 힘들 것으로 예상됩니다. 음악 시장의 ‘대세적인 분위기’는 시간의 변화에 따라 계속 변하게 됩니다. ‘작곡’과 음악의 품질은 어떤 아티스트가 담당하느냐에 따라 달라지는데, 음성 합성 신디사이저의 큰 이용자층은 ‘아마추어 작곡가’라는 점에서 공정한 경쟁력 비교를 만들어내는 것은 다소 무리가 있습니다. 음성 합성 신디사이저에서 공식적으로 지원되는 언어는 매우 제한적입니다. 더욱 깊이 있는 조사를 이끌어내기 위해서는 이러한 모든 상황이 고려되어야 하나, 연구의 주제가 너무 커질 수 있어 임시적으로 일부분을 생략했습니다.

Only limited range of questions, those about the preference and viewpoints of the songs that are already released, could be asked to limited number of people – 7 interview requests were sent, 5 people replied – working in the music industry. For improvements, the investigation of the audio quality such as audio frequency and amount of white noise and the quality of speech such as pronunciation and the transitions between syllables had to be performed for researching about the viability of the replacement, as the ‘audio’ is one of the biggest parts of ‘music’, and these investigations could be done by cooperation with audio engineers if the audio engineers happy to participate were available. Even the email interviews were performed with audio experts, the opinions of experts cannot be the exact perspective of the opinions of others, therefore different experiments about the preference are also had to be done in public. More interviews with music producers who make/made songs with the use of voice synthesis could be done for making a brief description of what those people think about the use of voice synthesis in general.

We are accepting feedbacks. Please do not hesitate to send email to producer.p@pseudoartist.com for discussion.

참고 문헌

Websites:

AH-Software, “Information about AHS Store Discount Prices and Download”, n.d. Viewed on Feb 9, 2019.  < https://www.ah-soft.com/store/ahsuser_en.html >
Crypton Future Media, “The software that makes singing computer become real”, n.d. Viewed on Feb 9, 2019. Written in Japanese. < https://ec.crypton.co.jp/pages/prod/vocaloid >
Fiverr, “Singer-Songwriters”, n.d. viewed on Feb 5, 2019.  < https://www.fiverr.com/categories/music-audio/singers-songwriters/?filter=rating&ref=service_type%3Asinging%7Cpackage_includes%3Acommercial_use%7Corigin%3Aheader >
Rachel Kaufman, “Speech Synthesizer Could ‘Resurrect’ Dead Singers”, n.d. Viewed on Feb 20, 2019.  < https://www.wired.com/2011/12/ueki-loid-speech-synthesizer/ >
SoundBetter, “Top Female Singers for Hire”, n.d. viewed on Feb 5, 2019.  < https://soundbetter.com/s/singer-female >
“Synthesizer V”, 2019. Dreamtonics. Viewed on May 5, 2019. < https://synthesizerv.com/en/ >
“歌声合成ツールUTAU” [Vocal Synthesis Tool UTAU] (in Japanese). UTAU. Viewed on Apr 30, 2019. < http://utau2008.web.fc2.com/index.html >
Vandalism Sounds, “Vocals”, n.d. Viewed on Feb 5, 2019.  < https://vandalism-sounds.com/vocalist.html >
Vocalizr, “Find Vocalists”, n.d. Viewed on Feb 5, 2019.  < https://vocalizr.com/vocalists >
Yamaha Corporation, “Learn”, n.d. Viewed on Feb 9, 2019. < https://www.vocaloid.com/en/learn/ >
Yamaha Corporation, “VOCALOID”, n.d. Viewed on Feb 9, 2019.  < https://www.vocaloid.com/en/ >

Documents:

Bonada, Loscos, Kenmochi, “Sample-based Singing-voice Synthesizer by Spectral Concatenation”, Proc. Of SMAC 03, 439-442, 2003.
Brouwer H, “Evaluation of algorithms for automated phase correction of NMR spectra”, December 2009. Journal of Magnetic Resonance. < https://www.sciencedirect.com/science/article/abs/pii/S1090780709002730 >
Kenmochi, Hideki; Ohshima, Hayato. “VOCALOID – Commercial singing synthesizer based on sample concatenation”. Interspeech 2007. Archived from the original on June 6, 2012. < https://www.webcitation.org/68EBFxf5V?url=http://www.interspeech2007.org/Technical/ssc_files/Yamaha/VOCALOID_Interspeech.pdf >
“VOCALOID5 Reference Manual”, n.d. Yamaha Corporation. Viewed on Feb 9, 2019. < https://rsc-net.vocaloid.com/assets/pdf_files/VOCALOID5_Reference_Manual_ENG.pdf >

Email interviews:

Email interview with Dowling, D by author. March 11, 2019.
Email interview with ‘Itsuwara’ by the author. February 13, 2019.
Email interview with ‘Muse Queen’ by the author. February 13, 2019.
Email interview with Power, P by the author. February 13, 2019.
Email interview with Whittington, S by the author. February 13, 2019.

답글 남기기

이메일 주소는 공개되지 않습니다.

13 − 8 =

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.