据The Verge报道,OpenAI正在为其文本到语音生成平台Voice Engine提供有限的访问权限。这个创新平台可以基于15秒的音频片段合成语音,从而生成逼真的人工语音。OpenAI的博客文章指出,这些AI生成的语音能够用多种语言朗读文本提示,并在多个行业中具有潜在应用。 获得Voice Engine访问权限的公司包括Age of Learning、HeyGen、Dimagi、Livox和Lifespan。OpenAI展示了示例,说明Age of Learning如何利用这项技术生成预设脚本的配音内容,并通过GPT-4为学生生成个性化的回应。 Voice Engine的开发始于2022年底,从那时起,它已为文本到语音API和ChatGPT的朗读功能提供预设语音支持。OpenAI的Voice Engine产品团队的杰夫·哈里斯(Jeff Harris)向TechCrunch透露,该模型是在授权数据和公开数据的基础上训练的。根据OpenAI向媒体透露的信息,该平台将限制在大约10个开发者范围内使用。 尽管AI文本到音频生成技术在不断进步,但由于各种担忧,语音生成技术受到的关注较少,正如OpenAI所指出的那样。然而,像Podcastle和ElevenLabs这样的公司也在探索AI语音克隆技术,这一点在The Vergecast中曾被探讨过。 与此同时,美国政府正在采取措施规范AI语音技术的不道德应用。联邦通信委员会(FCC)最近禁止了利用AI语音的自动电话拨号,此前曾发生过利用总统乔·拜登声音进行的垃圾电话事件。 OpenAI的合作伙伴已承诺遵守使用政策,禁止未经同意的模仿行为,要求原始发言者的明确和知情同意,并向听众披露AI生成的语音。为了确保问责制,OpenAI在音频片段中实施了水印,并积极监控其使用情况。 OpenAI建议采取若干措施以减轻与此类工具相关的风险,包括逐步淘汰用于银行账户的语音认证,实施保护个人语音在AI中使用的政策,加强对AI深度伪造的教育,并开发AI内容追踪系统。
OpenAI的语音克隆AI模型只需15秒样本即可操作
据The Verge报道,OpenAI正在为其文本到语音生成平台Voice Engine提供有限的访问权限。这个创新平台可以基于15秒的音频片段合成语音,从而生成逼真的人工语音。OpenAI的博客文章指出,这些AI生成的语音能够用多种语言朗读文本提示,并在多个行业中具有潜在应用。
获得Voice Engine访问权限的公司包括Age of Learning、HeyGen、Dimagi、Livox和Lifespan。OpenAI展示了示例,说明Age of Learning如何利用这项技术生成预设脚本的配音内容,并通过GPT-4为学生生成个性化的回应。
Voice Engine的开发始于2022年底,从那时起,它已为文本到语音API和ChatGPT的朗读功能提供预设语音支持。OpenAI的Voice Engine产品团队的杰夫·哈里斯(Jeff Harris)向TechCrunch透露,该模型是在授权数据和公开数据的基础上训练的。根据OpenAI向媒体透露的信息,该平台将限制在大约10个开发者范围内使用。
尽管AI文本到音频生成技术在不断进步,但由于各种担忧,语音生成技术受到的关注较少,正如OpenAI所指出的那样。然而,像Podcastle和ElevenLabs这样的公司也在探索AI语音克隆技术,这一点在The Vergecast中曾被探讨过。
与此同时,美国政府正在采取措施规范AI语音技术的不道德应用。联邦通信委员会(FCC)最近禁止了利用AI语音的自动电话拨号,此前曾发生过利用总统乔·拜登声音进行的垃圾电话事件。
OpenAI的合作伙伴已承诺遵守使用政策,禁止未经同意的模仿行为,要求原始发言者的明确和知情同意,并向听众披露AI生成的语音。为了确保问责制,OpenAI在音频片段中实施了水印,并积极监控其使用情况。
OpenAI建议采取若干措施以减轻与此类工具相关的风险,包括逐步淘汰用于银行账户的语音认证,实施保护个人语音在AI中使用的政策,加强对AI深度伪造的教育,并开发AI内容追踪系统。
相关文章
网络安全在越南:机遇与挑战
在2023年下半年,越南的网络安全格局呈现出一系列的机遇和挑战。一方面,分布式拒绝服务(DDoS)攻击重新成为 …
揭开网络犯罪的危险面纱:全面分析和预防措施
互联网的出现和技术的迅猛发展不仅彻底改变了我们的日常生活,也为一个隐秘的网络犯罪世界打开了大门。这些隐形的罪犯 …
Facebook 和 Instagram 中断:大面积中断问题已解决
根据CNN的报道,Meta旗下的平台,包括Facebook和Instagram,在周二由于公司所描述的“技术问 …