共计 1276 个字符,预计需要花费 4 分钟才能阅读完成。
一种新的人工智能工具可以改变你声音的风格和音色,隐藏你的声音身份。
据悉,借助一个名为 Koe Recast 的新 AI 工具的网络演示,你可以将长达 20 秒的声音转换成不同的风格,包括动漫角色、深沉的男性叙述者、ASMR 耳语等等。这是对目前正在进行个人内部测试的潜在商业产品的一次令人大开眼界的预览。
Koe Recast 最近由德克萨斯州的开发商 Asara Near 推出。Asara Near 正在独立开发一款桌面应用程序,目的是让人们通过 Zoom 和 Discord 等其他应用程序,实时改变自己的声音。Asara Near 表示:我的目标是帮助人们以任何让他们更快乐的方式表达自己。
Koe 网站上提供了几个演示,展示了马克·扎克伯格(Mark Zuckerberg)用女性声音、低沉的男性旁白声音和高音调的动漫声音谈论增强现实的剪辑片段,所有这些都由 Recast 提供支持。
这种逼真的人工智能语音转换技术并不新鲜。谷歌在 2018 年用类似的技术引起了轰动,知名人士的音频深度造假已经引起了几年的争议。但是,在一家由一个人资助的独立初创公司中看到这种能力,表明了人工智能语音合成技术已经走了多远,或许也暗示了通过低成本或开源发布,语音转换技术距离广泛采用和推广有多近。
但是,关于 Recast 的语音转换背后是哪种特定类型的人工智能,Asara Near 保留了细节。但他简单概括了它的工作原理,我们能够在我们创造的嵌入空间中深入并改变声音的特征。因此,我们的目标是修改音频中与说话者个人风格或音色相对应的部分,同时保留与说话内容相对应的部分,如韵律和单词。这让我们能够将某人的声音风格改变为任何其他风格,包括他们感知的性别、年龄、种族等。
目前,Recast 支持 10 种不同的声音,更多的正在进行中。Asara Near 说:目前还没有决定我们是否会提供名人或其他知名人士的现有声音。
然而,提供名人声音(或模仿在世的非名人声音)可能会引发伦理和法律问题。当被问及 Recast 可能被滥用的问题时,Asara Near 回答说:就像任何技术一样,它可能既有积极的一面,也有消极的一面,但我认为绝大多数人类都是由优秀的人组成的,他们将会从中受益。Near 还指出,Recast 包含了一项服务条款政策,禁止非法和仇恨的使用。
关于发行时间表,Asara Near 正在追求商业选择,但不排除开源发行,这可能会产生类似于稳定扩散的影响,将逼真的音频深度伪造技术放到许多人手中而不受严格限制。我们正在探索一些货币化策略,Asara Near 说。如果我心目中的盈利模式行不通,开源这项技术可能是未来的一种选择。
随着深度学习技术继续剥离 20 世纪媒体作为对现实的固定和准确记录的概念(或者有人可能会说是幻觉),我们正在展望未来。在不久的将来,一个活生生的人的声音的数字表示,就像图像和视频一样,将是一个你不能只看表面价值的东西,除非你对来源有很大的信任。因此,这项技术的发展势必伴随着各种争论,但技术的发展是不会止步不前,我们只能期待法律和监管也能尽快适应时代的发展。
如果朋友们喜欢,敬请关注知新了了!
丸趣 TV 网 – 提供最优质的资源集合!