2011年12月17日 星期六

專文:Vocaloid語音引擎的發展(上)

前言

  「vocaloid」一詞,其實是由YAMAHA所推出的語音引擎的名稱,而非指任何一位特定的虛擬歌手。這些運用vocaloid語音引擎技術製作而成的虛擬歌手本身是一個個的軟體,所謂的「虛擬歌手」是製作公司所賦予的角色形象,在語音引擎技術上的意義不大,卻是行銷的強大推手。廠商透過軟體形象角色能更自然、更親切地訴求這個軟體是「你」專屬的歌手,能唱出「你」所做出的歌曲,「你」就是製作人。這對想做出自我創作的人們來說具有很大的吸引力。

  和一般音樂製作軟體不同,vocaloid軟體專精語音與歌聲合成而非混音,只能透過語音資料庫合成歌聲。不過兩相搭配後,便能產出帶有旋律與歌聲的完整歌曲。作曲需要作曲能力與樂理的配合,不過調整歌聲所需跨越的入門門檻,相較之下便顯得容易多了。

  這次的專文將介紹vocaloid的發展與vocaloid 3的相關訊息,文章聚焦於語音引擎本身與虛擬歌手的發展,共分為上下兩篇文章。上篇介紹vocaloid一代與二代,下篇介紹vocaloid三代和文章結語。



vocaloid語音引擎技術概述


vocaloid語音引擎系統概略圖

  在上圖中,vocaloid語音引擎包含中、上、左三個部分,其系統可以概略分成三個部分:上方的score editor、左邊的singer library和中間的synthesis engine。

score editor

  score editor(樂譜編輯器)即為使用者輸入歌詞與音調、編輯歌聲與調整聲音效果的地方。下圖所示便是一個典型vocaloid軟體中的score editor介面。


初代vocaloid軟體中的score editor介面

  score editor畫面右邊顯示的、那一條一條的綠色橫長條其實便是piano roll記譜(關於piano roll記譜,請參閱〈專文:用眼睛聽的音樂 -- MIDIアニメ(MIDI動畫)(一)〉一文。)。當使用者透過滑鼠調整好每個唱音的音調與長度後,便能在其中輸入那個音應該要唱出來的詞是什麼。以日文歌詞來說,便是輸入該字的羅馬拼音;而以英文歌詞來說,便是直接輸入英文單字即可由軟體自動轉換為國際音標(IPA,是一套用來標音的系統,以拉丁字母為基礎)。

  軟體中用來自動變換輸入詞語的辭典可以由使用者自由編輯,因此可以將個人常用但未收入的詞語添加進辭典中方便未來的編輯。不過沒有英語語音庫想輸入英語或是沒有日語庫想輸入日語都是辦不到的事情,需要透過英語或日語來模擬另一語言的發音才行。

singer library

  singer library(歌手語音資料庫)是語音合成引擎用來合成歌聲的根源所在,根據不同的語音庫,合成引擎就能合成出截然不同的歌聲。語音庫是一一錄製真人的字母發音與許多根據語音學上數以百計乃至上千條的連音規則的發音後集結而成的大型資料庫,是語音合成引擎中非常重要的一部分,攸關接下來語音合成引擎能否合成出自然的歌聲。使用的語音庫不同,便能產生不同的歌聲,也就相當於唱歌的人不一樣了。

  像初音未來的聲音來自聲優藤田咲,她的聲音經過上述的錄製程序與後續處理後,便儲存於每一套初音未來軟體的語音庫中。每一套經由初音未來的軟體產生的歌聲都是以藤田咲的聲音片段組合而成,就彷彿是請藤田小姐本人發聲一樣。自然以現在的技術而言,機器無法注入人類所擁有的感情,但透過vocaloid製作者鉅細靡遺的調整之後,不可諱言,身為vocaloid歌曲聽眾的你我,確實偶能感受到那隱藏在歌聲後的人造靈魂。

synthesis engine

  synthesis engine(語音合成引擎)會根據使用者在樂譜編輯器的輸入,自語音庫中擷取適合的語音片段,接著再依照使用者的輸入處理成相對應的音調與音色。將整首曲子的每個發音經過同樣的處理後,最後再加入使用者設定的特效,合成為完整的歌聲。

  使用者在樂譜編輯器中輸入內容會以MIDI訊息編碼的方式傳進語音引擎中。如果使用者不是直接在vocaloid軟體中編輯,而是將vocaloid軟體以外掛方式使用的話,這些訊息一樣會透過MIDI訊息編碼傳進語音引擎中進行後續處理,不過就不需透過樂曲編輯器的中介。

  語音合成引擎負責根據使用者輸入,將語音庫中的語音片段以符合語音學發音的方式合成為歌聲。怎樣的情況需要發連音、怎樣的情況歌詞要較音符還要早發音等情況,全都由語音引擎接手處理。這是YAMAHA主力研發的部分,vocaloid語音引擎各代的發表,便是YAMAHA相關部門的工程師們胼手胝足合力完成的心血結晶。

  如果說語音合成引擎是做出料理的廚具,那樂譜編輯器就相當於調理方法,而語音庫便是食材了。有了好的烹飪方法、好的食材與好的廚具便能做出一道美味佳餚,而vocaloid語音系統也是如此;vocaloid的作曲者們,就好比是一位位的廚師。一套vocaloid軟體中已經包含了好食材(歌聲語音庫)與好廚具(vocaloid語音引擎)。那麼,做出的菜滋味如何呢?這就需要視每位廚師的廚藝而定了。

初代vocaloid


ZERO-G公司英語男聲「LEON」,日本由Crypton代理。
2004年1月15日開始販售

  早在2003年2月,YAMAHA即推出了第一代vocaloid語音引擎,在那之後,英國的ZERO-G和日本的Crypton兩家音樂軟體製作公司便以vocaloid一代引擎為基礎,陸續推出了五個虛擬歌手軟體,像是ZERO-G製作的英語男聲LEON與英語女聲LOLA等。

  這些以一代語音引擎為基礎的虛擬歌手推出時已擁有英語或日語其中一種語音資料庫的版本,因此不管是日文歌曲還是英文歌曲,只要調整得當,便能讓虛擬歌手們唱出人類歌手們所唱的歌曲,而且也有還不錯的結果。ZERO-G是一間英國的音樂軟體公司,他們所製作的LEON和LOLA在日本由Crypton代理販售。


ZERO-G公司英語女聲「LOLA」,日本由Crypton代理。
2004年1月15日開始販售

  和虛擬偶像是由專業音樂家作詞作曲接著再由其他專業人士來進行歌聲調整等不同,虛擬歌手能讓製作者們擁有自己的歌手、能唱出自己創作的歌曲,這在當時是個新鮮的概念,同時,能重現接近真實人聲的歌聲也是軟體一大特點。可惜對這個新軟體的熱情沒有反映在銷售量上,不管是ZERO-G還是Crypton都沒有賣出亮眼的銷售成績,而對軟體所重現的歌聲不夠逼真也是為人所詬病之處。

  在2004年到2006年三年間,雖然陸續推出了五款使用初代vocaloid技術的軟體,但因銷售不佳的關係,初代vocaloid虛擬歌手大都沒有受到太多的矚目,而這些軟體背後的技術語音引擎「vocaloid」也沉寂了一段時間未受關注,直到2007年二代語音引擎「vocaloid 2」的誕生。

vocaloid 2


vocaloid二代軟體介面


AH-Software公司日語女聲「歌愛ユキ」
2009年12月4日開始販售

  2007年1月,YAHAMA發表了「vocaloid 2」語音引擎。二代語音引擎是完全嶄新的引擎,被設計用來完全取代一代的作品。二代不僅擁有全新的軟體介面,也同樣擁有日文與英文聲音資料庫,還能產生出比前代要來得擬真的合成歌聲。雖然一代的虛擬歌手語音資料庫無法在二代軟體上使用,不過二代不僅擁有更先進的語音合成引擎,還多了許多新功能,像是可以使用MIDI鍵盤,一邊彈奏一邊讓虛擬歌手唱出先前已輸入進軟體的歌詞來進行「即時伴奏」等新功能。


AH-Software公司日語男聲「氷山キヨテル」
2009年12月4日開始販售

  後來各家公司陸續推出新的虛擬歌手,直至2011年,已出現總數比一代多達四倍以上的虛擬歌手(一代僅5作,二代則有22作)可供選擇。雖然各歌手都必須額外付費購買,各家廠商所推出的虛擬歌手知名度也有很大的差異,但這樣多樣化的選擇、這麼多廠商相繼投入爭取這塊大餅的情況,都是一代語音引擎時代難以見到的盛況。


Crypton公司日語男聲女聲同捆包「鏡音リン.レン」,2007年12月27日開始販售
並於2008年7月18日推出act2版本


「鏡音リン.レン」的語音擴充包「鏡音リン.レンAppend」,2010年12月27日開始販售

  原本各虛擬歌手都僅擁有日文或英文其中一種語音庫,像是Crypton公司的初音未來、鏡音リン、レン,Internet公司的GUMI、Lily,AH-Software公司的氷山キヨテル、歌愛ユキ,或是YAMAHA自己推出的VY1、VY2等各家公司推出的虛擬歌手們,由於均以日本為主要銷售地區,因此都只擁有日文語音資料庫。直到2009年1月30日Crypton推出編號03的巡音ルカ後,同時擁有多語音庫(英日語)的虛擬歌手才初次問世。巡音ルカ也是到目前為止唯一擁有多語音庫的二代虛擬歌手。


Crypton公司英、日語女聲「巡音ルカ」,2009年1月30日開始販售

初音未來的風行與影響


Crypton公司日語女聲「初音ミク」,2007年8月31日開始販售

  在以二代引擎為基礎的各虛擬歌手軟體中,雖然最早是由PowerFX所製作的英語女聲SWEET ANN(在日本同樣由Crypton代理進口),但vocaloid2虛擬歌手中最有名氣的,肯定莫過於Crypton自己推出的初音未來了。於2007年8月31日開始販售的初音未來軟體不僅運用了當時最新的YAMAHA vocaloid2語音引擎,更擁有一個經過精心策畫的專屬角色形象。到2011年底為止,她不只已出過多張專輯、多次登上大眾媒體的版面,更在日本多處和全世界多個國家舉辦過多場虛擬演唱會。在初音未來誕生之前,從未有虛擬歌手或虛擬偶像享有過此殊榮。

  初音未來儼然已成為vocaloid的同義詞,知名度更勝於她背後的技術vocaloid2語音引擎,受歡迎的程度由此可見一般。不過,造成初音未來風行的原因不僅是因為她是最早期發布的幾套vocaloid2軟體之一,更重要的關鍵是一項2003年時缺少的因素——影音社群網站的興起。


「初音ミク」的語音庫擴充包「初音ミクAppend」,2010年4月30日開始販售
(請參閱〈淡淡的思念情愫 -- 「±(ぷらすまいなす)」介紹,與Love Plus、初音ミクAppend的二三事 〉一文介紹)

  2005年2月YouTube誕生,2006年12月niconico動畫開始營運,雖然這時的nico還是用YouTube的影片與流量來經營著。這些網站的誕生標示著幾項重要的事實:現在許多人有足夠大的頻寬可以上傳影音作品了、現在擁有讓大家分享影音作品的免費平台了、現在可自由分享自己的創作給全世界的人們看而不需要懂複雜的技術了,而這些都是2003年還遠遠做不到的事情。

  2007年的網路環境加上niconico動畫和Crypton推出的piapro等影音和創作社群的茁壯,使得於適當時機誕生的初音未來在2007年結束前的四個月內迅速爆紅。不僅重量級原創曲輩出、將許多素人作曲家推上舞台並開始推出專輯,也讓專業從事人員開始對這個圈子產生好奇;而影音網站的佳作分享、大眾媒體的傳播、雜誌附贈的試用版和友善易懂的入門教學等各項因素推波助瀾下,更吸引了許多非專業的作曲者陸續加入音樂創作這個大圈子。此外,製作影片、MV或MAD的需求也連帶吸引許多專精不同方面的創作者一同共襄盛舉,讓音樂創作頓時成為創作圈中數一數二、僅次於動漫與試唱試跳等自拍影片之外的大宗項目。

  在初音未來推出前,Crypton的產品銷售量不算太高,如一套虛擬合成器軟體產品的銷量約在250到3000套左右,而音樂素材集則是80到500套左右。虛擬歌手屬於虛擬合成器軟體的一種,但初音未來的銷量卻不同於一般虛擬合成器,竟達到了42000套之譜;而Crypton於同年稍晚推出的鏡音鈴、連,其銷售量也同樣有24000套左右的好成績。原本在數位音樂市場並非相當知名的Crypton,由於推出初音未來的成功與其所帶來的亮眼銷售成績,因而大幅提升了在日本虛擬合成器軟體市場的市佔率,一躍成為市場上不容忽視的一股力量。

  因應這股數位音樂界難得一見的廣大風潮,許多數位音樂相關廠商因此陸續投入了虛擬歌手的開發行列,因而造就2008年至今各家廠商的虛擬歌手百家爭鳴的盛況。初音未來不僅改變了數位音樂界廠商的版圖消長,她機器合成的歌聲所帶來的新風格和此技術將來的發展性,更讓許多人對「音樂」有了新的看法。初音未來的誕生所引起的素人作曲風潮,是2007年日本創作圈的大事之一。


2007年11月的音樂軟體雜誌「DTM Magazine」。當期雜誌附贈初音未來軟體試用版、軟體的簡單入門教學和一些免費素材可供無償使用,也記載了訪問初音的聲音來源藤田咲小姐的訪談內容。

這期雜誌的首刷版在三天內即迅速銷售一空。在一年能賣出約一千本左右便算得上是暢銷的數位音樂雜誌市場中,這期雜誌光是在兩個星期就賣超過了3500本,但依然供不應求。

後來,在雜誌社的庫存全部銷售一空、並宣布不再增印後,當時在拍賣網站上,甚至還會看到雜誌以原定價的三倍在拍賣。最後,這一期雜誌的銷售量創下該雜誌社創社以來,最高的銷售紀錄。(資料來源:「初音ミク」特集雑誌3日で完売 ヤフオク、アマゾンで3倍の価格も)。

  在這個新興的圈子中,vocaloid作曲者創作出一首新旋律,接著由作曲者本人或委請他人填詞;圖畫可請繪師合作、影片可請影片製作者合作:有3D軟體高手、有MMD製作達人、也有平面插畫同好和專攻特效與合成的專家;甚至想找人翻唱也沒問題,素人歌手社群可以找到願意合作的對象。一個影片少了音樂將為之褪色,而光有音樂但缺乏視覺元素也有許多難以表達的地方。vocaloid所引領起的這股音樂創作風潮,無疑是整合這一切創作元素並產生一個完整多媒體作品的關鍵所在。

vocaloid二代歌手中的耀眼新星 -- GUMI


Internet公司日語女聲「GUMI」,2009年6月26日開始販售

  由Internet公司於2009年6月26日推出的Megpoid、代表人物GUMI是比較特別的虛擬歌手。雖然比初音晚出生近兩年的時間,不過GUMI的柔軟歌聲在二代歌手中獨樹一格,連帶使得提供GUMI聲音的聲優中島愛也頗受矚目。



Internet公司日語男聲「がくっぽいど(GACKPOID)」,2008年7月31日開始販售

  就和由同公司推出的虛擬男聲歌手がくっぽいど(GACKPOID,常略稱為がくぽ)的名字是由提供聲音的歌手GACKT親自命名一樣,GUMI的名字也是由中島小姐親自命名的。GUMI的名字便是來自中島愛(Nakajima Megumi)名字中「愛(Megumi)」字的一部份發音。在GUMI介紹網頁上由中島小姐錄製的介紹影片中便曾說過,GUMI就像是小小的中島愛分身一般。


Crypton公司日語女聲「MEIKO」,2004年11月5日開始販售

  GUMI的聲音特質使得她較難調整,但她獨特的音色在vocaloid作曲者的巧手下發揮得淋漓盡致,因此也吸引了許多獨愛GUMI的粉絲,在原本由Crypton公司五位歌手(編號01的初音、02的鏡音和03的巡音加上MEIKO和KAITO兩位初代歌手)主宰的虛擬歌手圈中佔有一片天地。


Crypton公司日語男聲「KAITO」,2006年2月17日開始販售。
於2013年2月15日推出「KAITO V3」(Crypton初位Vocaloid 3歌手問世 -- KAITO V3

  每位虛擬歌手都有各自偏好其歌聲的擁戴者,不過同樣有許多不在此限、不分歌手都喜歡的粉絲。雖然各歌手間的支持者有時會顯得壁壘分明,甚或帶有幾分排他性,不過整體而言,大多數人都能正確認識虛擬歌手的存在意義,並由衷欣賞這些歌手和他們的製作者們共同帶來的音樂饗宴,享受音樂的樂趣,這是很棒的事情。

Dec. 18, 2011附注:
接續下文:
專文:Vocaloid語音引擎的發展(下)

Plurk this!