第6章 領先全球語音技術
第6章 領先全球語音技術
第一時間,陳耀安裝編程軟體。
這款名叫「宇宙」的編程軟體,是從黑科技U盤找到的,利用它,可以加快編程速度。
編寫代碼的時候,它會給你智能聯想、智能補充、智能修復。
996加班碼代碼不存在的,Bug不存在的。
要說配音軟體,網上一搜一大把,專業電影公司也有自己的專業配音軟體,效果也非常不錯。
陳耀開發的黑馬配音,究竟牛逼在哪裡?
一句話總結——AI智能配音!
說白了,就是利用人工智慧語音,代替配音師完成電影、動漫的配音。
如此智能的配音技術,別說在國內,全世界沒有一家公司能做得到。
因為,這裡邊涉及到非常複雜的「自然語音識別」技術啊!
在國內,做「自然語音」技術,百度和訊飛毫無疑問是最領先的,兩家的語音輸入法,好多人都在用,背後的技術就是來自於他們強大的AI語音識別引擎。
在國外,語音技術最牛逼的是亞馬遜、谷歌和微軟,微軟小冰許多人都玩過。
這些公司已經是當今世界最前沿的科技公司了,但他們依然無法做出真正的智能配音軟體。
想要讓智能語音,像是真人一樣完成電影、動漫的配音,需要解決兩大難題。
第一,超高的智能化。
現在的所謂人工智慧,直白點說,還真有點傻。
智能音箱,你向智能音箱提問,答案往往讓人感覺滑稽可笑。
例如,你問問智能音箱:「在你的腳下有一張5元和一張100元的鈔票,你會撿哪一張?」
語音助手的回答,要麼是「不知道啦。」要麼回答:「撿100元。」
正確的答案應該是:兩張都撿了!
再問問智能音箱:「馬路上開車,突然從左邊衝出來一個人,右邊衝出來一條狗,車子應該向左轉還是向右轉?」
智能音箱會回答不知道啦,要麼回答向右轉。
真正的答案應該是:剎車!
現在的所謂人工智慧,給人的感覺更像是個智障,或者說是個死腦筋的獃子。
所有問答都是程序員在背後設定好的,不是真正的神經網路智能。
所謂的深度學習,也做不到靈活變通。
例如問他一個腦筋急轉彎。
小明的爸爸有四個兒子,大兒子叫大明,二兒子叫二明,三兒子叫三明,四兒子叫什麼?
語音助手根據邏輯演算法,它會回答:「四明!」
有一種東西叫大數據,程序員完全可以把所有的腦筋急轉彎採集下來啊,那樣,上面的問題,智能音箱不就可以答對了嗎?
但要是我換一個詢問方式。
有一個人叫傻筆,傻筆的爸爸有三個兒子,大兒子叫大筆,二兒子叫二筆,三兒子叫什麼?
然後智能音箱又不會回答了,要麼不知道,要麼胡說八道。
雖然配音不需要什麼高智商,也不需要它回答問題,但它至少也要有圖象分辨能力。
給電影、動漫做配音,配音師需要根據裡邊的場景,人物的表情等等調整說話的語氣、語調。
現在的人工智慧在文字識別很強,基本可以做到100%,看著電影字幕,機器人也能配音。
但問題是……
識別不了電影動漫裡邊的景象、表情,效果就會非常差勁。
在動態圖象識別方面,當今世界沒有一家公司真正做得好。
第二個問題,就是人工語音的感情。
真人說話的聲音,抑揚頓挫、喜怒哀樂、有呼吸、有口水聲,節奏或快或慢,這樣的配音效果是當今的語音無法做到的。
現在的語音就是電子音,金屬音,雖然某些公司做的語音做得很逼真,但還是能很明顯聽得出那種沒人情味的「機器人」聲音。
同一句話在不同的影視動漫場景,都會有不同的表現效果。
喜!
「今生得不到你的愛,來世再相見。」女主角在災難現場找到了男主角,他還活著,她的語氣是喜悅的。
怒!
「今生得不到你的愛,來世再相見。」反派被女主一劍刺穿胸膛,他語氣充滿了憤怒與不甘。
哀!
「今生得不到你的愛,來世再相見。」男主角向女主表白,被拒絕了,他語氣低落。
樂!
「今生得不到你的愛,來世再相見。」男主角在愚人節戲弄女主成功,他得意大笑。
真人配音可以根據不同的場景,表現出不同的配音效果。
而AI語音只能根據文字配音,每說一次,它的語氣、語調都是一樣的,一樣一樣的。
如此呆板的語音,是不可能用在影視動漫配音的。
所以,人工智慧想要應用在配音領域,在智能化和真感情方面都要有革命性的飛躍。
當今世界沒有一家公司能做好,這就是留給初創者的機會。
陳耀手指飛快地在鍵盤上敲打著,一串串代碼出現在編輯框當中。
他的大腦和手速都經過黑科技強化的,碼字的速度那叫一個神速。
眨眨眼的時間,20行代碼……眨眨眼的時間,50行代碼……
換做普通人,別說有他那樣的手速,眼睛都沒這麼快的速度啊,還沒看清寫了什麼,就飛速滾屏刷新了。
陳耀完全沉浸在編寫程序的境界中,體驗著那種閃電一般的刷新快感。
大概三個小時后……
「啪!」陳耀重重敲下回車鍵:「OK,大功告成!」
黑馬配音軟體開發成功了!
更強大的是它內置的智能語音引擎,前者的任務量不算大,大部分的時間都花在了語音引擎上。
語音引擎的底層,是當今世界第一個,真正意義上的智能神經網路框架,演算法的複雜程度堪比人類的大腦神經。
換做谷歌、微軟,起碼要20年的時間才能做出來。
陳耀揉了揉手指:「我花了3個小時,真是累啊。」
之所以這麼快,除了他本身速度快,還有另外一個原因,裡邊許多的數據,都是來自宇宙U盤,直接導入,省去了不少功夫。
原本,陳耀想直接在U盤裡邊找配音軟體的成品,這樣就不用自己編寫代碼了。
可是,目前U盤只是解鎖了第一個白羊座分區,這個分區並沒有成品,想要解鎖其他分區需要更多的積分。
其實轉念一想,黑馬配音軟體有自己參與編寫也挺好,成就感更強,反正也花不了多少時間。
現在配音軟體有了,語音引擎也有了,接下來,生產發音角色。
……
PS:不知道大家有沒有用過起點讀書的語音朗讀功能?不妨用語音聽聽一下感覺。
陳耀同學現在做的肯定比當今的語音技術強大很多很多。
求收藏、投票