据The Verge报道,OpenAI正在为其文本到语音生成平台Voice Engine提供有限的访问权限。这个创新平台可以基于15秒的音频片段合成语音,从而生成逼真的人工语音。OpenAI的博客文章指出,这些AI生成的语音能够用多种语言朗读文本提示,并在多个行业中具有潜在应用。 获得Voice Engine访问权限的公司包括Age of Learning、HeyGen、Dimagi、Livox和Lifespan。OpenAI展示了示例,说明Age of Learning如何利用这项技术生成预设脚本的配音内容,并通过GPT-4为学生生成个性化的回应。 Voice Engine的开发始于2022年底,从那时起,它已为文本到语音API和ChatGPT的朗读功能提供预设语音支持。OpenAI的Voice Engine产品团队的杰夫·哈里斯(Jeff Harris)向TechCrunch透露,该模型是在授权数据和公开数据的基础上训练的。根据OpenAI向媒体透露的信息,该平台将限制在大约10个开发者范围内使用。 尽管AI文本到音频生成技术在不断进步,但由于各种担忧,语音生成技术受到的关注较少,正如OpenAI所指出的那样。然而,像Podcastle和ElevenLabs这样的公司也在探索AI语音克隆技术,这一点在The Vergecast中曾被探讨过。 与此同时,美国政府正在采取措施规范AI语音技术的不道德应用。联邦通信委员会(FCC)最近禁止了利用AI语音的自动电话拨号,此前曾发生过利用总统乔·拜登声音进行的垃圾电话事件。 OpenAI的合作伙伴已承诺遵守使用政策,禁止未经同意的模仿行为,要求原始发言者的明确和知情同意,并向听众披露AI生成的语音。为了确保问责制,OpenAI在音频片段中实施了水印,并积极监控其使用情况。 OpenAI建议采取若干措施以减轻与此类工具相关的风险,包括逐步淘汰用于银行账户的语音认证,实施保护个人语音在AI中使用的政策,加强对AI深度伪造的教育,并开发AI内容追踪系统。
OpenAI的语音克隆AI模型只需15秒样本即可操作
据The Verge报道,OpenAI正在为其文本到语音生成平台Voice Engine提供有限的访问权限。这个创新平台可以基于15秒的音频片段合成语音,从而生成逼真的人工语音。OpenAI的博客文章指出,这些AI生成的语音能够用多种语言朗读文本提示,并在多个行业中具有潜在应用。
获得Voice Engine访问权限的公司包括Age of Learning、HeyGen、Dimagi、Livox和Lifespan。OpenAI展示了示例,说明Age of Learning如何利用这项技术生成预设脚本的配音内容,并通过GPT-4为学生生成个性化的回应。
Voice Engine的开发始于2022年底,从那时起,它已为文本到语音API和ChatGPT的朗读功能提供预设语音支持。OpenAI的Voice Engine产品团队的杰夫·哈里斯(Jeff Harris)向TechCrunch透露,该模型是在授权数据和公开数据的基础上训练的。根据OpenAI向媒体透露的信息,该平台将限制在大约10个开发者范围内使用。
尽管AI文本到音频生成技术在不断进步,但由于各种担忧,语音生成技术受到的关注较少,正如OpenAI所指出的那样。然而,像Podcastle和ElevenLabs这样的公司也在探索AI语音克隆技术,这一点在The Vergecast中曾被探讨过。
与此同时,美国政府正在采取措施规范AI语音技术的不道德应用。联邦通信委员会(FCC)最近禁止了利用AI语音的自动电话拨号,此前曾发生过利用总统乔·拜登声音进行的垃圾电话事件。
OpenAI的合作伙伴已承诺遵守使用政策,禁止未经同意的模仿行为,要求原始发言者的明确和知情同意,并向听众披露AI生成的语音。为了确保问责制,OpenAI在音频片段中实施了水印,并积极监控其使用情况。
OpenAI建议采取若干措施以减轻与此类工具相关的风险,包括逐步淘汰用于银行账户的语音认证,实施保护个人语音在AI中使用的政策,加强对AI深度伪造的教育,并开发AI内容追踪系统。
相关文章
加强网络安全措施:前亚马逊工程师加密货币交易所黑客事件的教训
在最近的一起网络安全事件中,前亚马逊安全工程师 Shakeeb Ahmed 因黑客入侵两个加密货币交易所并盗取 …
柬埔寨经济复苏对其数字经济的影响
据《柬中时报》10月7日报道,柬埔寨副总理翁本莫尼洛近日会见美国代表,表示柬埔寨经济前景乐观,预计未来两年经济 …
解构网页缓存欺骗攻击:它们很糟糕;现在该怎么办?
“Web缓存”指的是任何位于原始Web服务器前端的技术,这些技术可以暂时存储频繁访问的内容,以便后续对相同内容 …