据The Verge报道,OpenAI正在为其文本到语音生成平台Voice Engine提供有限的访问权限。这个创新平台可以基于15秒的音频片段合成语音,从而生成逼真的人工语音。OpenAI的博客文章指出,这些AI生成的语音能够用多种语言朗读文本提示,并在多个行业中具有潜在应用。获得Voice Engine访问权限的公司包括Age of Learning、HeyGen、Dimagi、Livox和Lifespan。OpenAI展示了示例,说明Age of Learning如何利用这项技术生成预设脚本的配音内容,并通过GPT-4为学生生成个性化的回应。Voice Engine的开发始于2022年底,从那时起,它已为文本到语音API和ChatGPT的朗读功能提供预设语音支持。OpenAI的Voice Engine产品团队的杰夫·哈里斯(Jeff Harris)向TechCrunch透露,该模型是在授权数据和公开数据的基础上训练的。根据OpenAI向媒体透露的信息,该平台将限制在大约10个开发者范围内使用。尽管AI文本到音频生成技术在不断进步,但由于各种担忧,语音生成技术受到的关注较少,正如OpenAI所指出的那样。然而,像Podcastle和ElevenLabs这样的公司也在探索AI语音克隆技术,这一点在The Vergecast中曾被探讨过。与此同时,美国政府正在采取措施规范AI语音技术的不道德应用。联邦通信委员会(FCC)最近禁止了利用AI语音的自动电话拨号,此前曾发生过利用总统乔·拜登声音进行的垃圾电话事件。OpenAI的合作伙伴已承诺遵守使用政策,禁止未经同意的模仿行为,要求原始发言者的明确和知情同意,并向听众披露AI生成的语音。为了确保问责制,OpenAI在音频片段中实施了水印,并积极监控其使用情况。OpenAI建议采取若干措施以减轻与此类工具相关的风险,包括逐步淘汰用于银行账户的语音认证,实施保护个人语音在AI中使用的政策,加强对AI深度伪造的教育,并开发AI内容追踪系统。
OpenAI的语音克隆AI模型只需15秒样本即可操作
据The Verge报道,OpenAI正在为其文本到语音生成平台Voice Engine提供有限的访问权限。这个创新平台可以基于15秒的音频片段合成语音,从而生成逼真的人工语音。OpenAI的博客文章指出,这些AI生成的语音能够用多种语言朗读文本提示,并在多个行业中具有潜在应用。
获得Voice Engine访问权限的公司包括Age of Learning、HeyGen、Dimagi、Livox和Lifespan。OpenAI展示了示例,说明Age of Learning如何利用这项技术生成预设脚本的配音内容,并通过GPT-4为学生生成个性化的回应。
Voice Engine的开发始于2022年底,从那时起,它已为文本到语音API和ChatGPT的朗读功能提供预设语音支持。OpenAI的Voice Engine产品团队的杰夫·哈里斯(Jeff Harris)向TechCrunch透露,该模型是在授权数据和公开数据的基础上训练的。根据OpenAI向媒体透露的信息,该平台将限制在大约10个开发者范围内使用。
尽管AI文本到音频生成技术在不断进步,但由于各种担忧,语音生成技术受到的关注较少,正如OpenAI所指出的那样。然而,像Podcastle和ElevenLabs这样的公司也在探索AI语音克隆技术,这一点在The Vergecast中曾被探讨过。
与此同时,美国政府正在采取措施规范AI语音技术的不道德应用。联邦通信委员会(FCC)最近禁止了利用AI语音的自动电话拨号,此前曾发生过利用总统乔·拜登声音进行的垃圾电话事件。
OpenAI的合作伙伴已承诺遵守使用政策,禁止未经同意的模仿行为,要求原始发言者的明确和知情同意,并向听众披露AI生成的语音。为了确保问责制,OpenAI在音频片段中实施了水印,并积极监控其使用情况。
OpenAI建议采取若干措施以减轻与此类工具相关的风险,包括逐步淘汰用于银行账户的语音认证,实施保护个人语音在AI中使用的政策,加强对AI深度伪造的教育,并开发AI内容追踪系统。
相关文章
身份欺诈新威胁:Sumsub年度报告揭示数字经济下的欺诈趋势
Sumsub年度身份欺诈报告揭示FaaS模型和深度伪造欺诈在亚太地区激增121%。了解数字经济中企业和消费者面临的安全挑战及应对策略。
谷歌宣布永久关闭VPN服务:反思与市场变革
谷歌One VPN于2020年10月推出,尽管VPN服务需求激增,但最近悄然停止运营。还记得2020年10月推 …
欧盟网络安全认证计划争议:主权与开放之争
来源: [Finance Intelligence] 欧盟内部关于网络安全认证计划的争论再次升级, …