OpenAI的语音克隆AI模型只需15秒样本即可操作

据The Verge报道，OpenAI正在为其文本到语音生成平台Voice Engine提供有限的访问权限。这个创新平台可以基于15秒的音频片段合成语音，从而生成逼真的人工语音。OpenAI的博客文章指出，这些AI生成的语音能够用多种语言朗读文本提示，并在多个行业中具有潜在应用。

获得Voice Engine访问权限的公司包括Age of Learning、HeyGen、Dimagi、Livox和Lifespan。OpenAI展示了示例，说明Age of Learning如何利用这项技术生成预设脚本的配音内容，并通过GPT-4为学生生成个性化的回应。

Voice Engine的开发始于2022年底，从那时起，它已为文本到语音API和ChatGPT的朗读功能提供预设语音支持。OpenAI的Voice Engine产品团队的杰夫·哈里斯（Jeff Harris）向TechCrunch透露，该模型是在授权数据和公开数据的基础上训练的。根据OpenAI向媒体透露的信息，该平台将限制在大约10个开发者范围内使用。

尽管AI文本到音频生成技术在不断进步，但由于各种担忧，语音生成技术受到的关注较少，正如OpenAI所指出的那样。然而，像Podcastle和ElevenLabs这样的公司也在探索AI语音克隆技术，这一点在The Vergecast中曾被探讨过。

与此同时，美国政府正在采取措施规范AI语音技术的不道德应用。联邦通信委员会（FCC）最近禁止了利用AI语音的自动电话拨号，此前曾发生过利用总统乔·拜登声音进行的垃圾电话事件。

OpenAI的合作伙伴已承诺遵守使用政策，禁止未经同意的模仿行为，要求原始发言者的明确和知情同意，并向听众披露AI生成的语音。为了确保问责制，OpenAI在音频片段中实施了水印，并积极监控其使用情况。

OpenAI建议采取若干措施以减轻与此类工具相关的风险，包括逐步淘汰用于银行账户的语音认证，实施保护个人语音在AI中使用的政策，加强对AI深度伪造的教育，并开发AI内容追踪系统。

OpenAI的语音克隆AI模型只需15秒样本即可操作

我们接受

产品

公司

资源

联系我们

销售

在社交媒体上关注我们

订阅并了解最新更新、新闻和功能

OpenAI的语音克隆AI模型只需15秒样本即可操作

相关文章

CN2 在加速中国人工智能和机器学习方面发挥着什么作用

柬埔寨经济复苏对其数字经济的影响

加强网络安全措施：前亚马逊工程师加密货币交易所黑客事件的教训

我们接受