微信文章

 

前无来者,语音克隆技术亮相纳斯达克

 

 Cerence China 赛轮思 11月27日 
每个季度,上市公司的首席执行官、首席财务官和分析师都一起参加例行的财报电话会议汇报公司的业绩。通常的做法是,电话会议开始时先由首席执行官和首席财务官发表事先准备好的讲话,然后是问答环节。

 

上周,Cerence FY20第四季度的财报电话会议(Earnings Call)的发布形式作了新的突破,使用了Cerence Reader背后的先进人工智能引擎,这是Cerence在8月份推出的一款具有独特的预测、语调和情感表达力的语音合成新产品。

 

 

 
收录于话题#语音克隆技术2个

Cerence投资者关系副总裁Richard Yerganian介绍此次电话会议时说:在这次电话会议上,我们将展示Cerence的创新技术。各位,今天的汇报将由AI系统克隆出的Sanjay和Mark进行,整个汇报由Cerence GEEnE,深度神经网络驱动的语音克隆技术实现。”这个环节之后,两位高管加入了电话会议,与分析师们进行答问。

Cerence首席执行官Sanjay Dhawan表示,“这应该是世界上首个财报电话会议使用了克隆语音汇报季度业绩和收益状况。我和首席财务官可以边享用咖啡边等待问答的环节,这是一次有趣的经历。

 

我以后“总是”在财报会议电话会继续使用这个技术,这可以确保读出文本时不会有任何错误。我们都预先准备好发布的内容,因为要确保说的每一句话都很准确。那么为什么不使用克隆语音读出呢?”

 

什么是GEEnE?

GEEnE(全称为Generative-End-to-End NEural speech synthesis)是一个深度神经网络系统。GEEnE可以在不同的情景下学习用不同的情感语调,例如,作为一名新闻主播播报新闻或像这一次在Cerence Q4财报电话会议上汇报公司业绩。

在一般情况下,克隆语音需要采集大量录音数据。这可能需要数小时的音频,从多样化的句子类型、风格和意图中提取有效数据。GEEnE的语音克隆技术是基于大量(专业)说话人的音频数据,以创建一个基准合成语音模型——你可以将其视为通用语音引擎。这次的挑战是,Cerence AI 实验室工程师只使用少量数据,通过迁移学习的人工智能技术训练GEEnE,便将通用语音引擎转化为与原始说话人匹配的高质量克隆语音。

这次采集录音样本中,Sanjay和Mark只是在自己家里笔记本电脑上录了40到50段随机句子,共5到10分钟音频数据。从这些样本中,工程师便可以生成他们的克隆语音,并没有根据准备好的文本进行机器学习。

Cerence Reader

 

这是一款基于神经网络的语音合成(TTS)新产品,是目前市场上最先进的语音合成技术,可以通过像真人一样自然、并富情感的声音为行车中的驾驶者播报新闻。 利用先进的AI技术和处理器,Cerence Reader实现前所未有、富有人类情感表达能力的车载语音功能。

 

 

值得一提的是, Cerence Reader不但具有与真人几乎没有区别的声音,还懂播报长句的自然停顿和呼吸节奏;以及可以基于内容、上下文和新闻类别(包括时事、体育或纪录片),自动预测适当的播报风格和情感语调。除了播报新闻以外,Cerence Reader还可以满足用户有声读物、语言学习等不同场景的需求。

 

 

 

如果你想收听Cerence完整的财报电话会议网络直播并了解创新的语音克隆技术,请点击“阅读原文”或访问www.cerence.com.cn/solutions 了解Cerence 最新产品及解决方案。

 

 

进入微信链接

相关文章

 

移动世界的最新新闻和观点洞察,了解最新资讯。