硅谷报道 – 近日,一款名为CSM(Crossing the Uncanny Valley of Voice)的全新对话语音模型在科技社区引发热议。这款由硅谷公司Sesame开发的AI模型,凭借其惊人的类人程度和实时交互能力,迅速在GitHub上获得超过4000颗星,并引发了Hacker News等社区的热烈讨论。有用户惊呼其“类人程度真实得可怕”,甚至担心会对具备这种人类声音水平的语音助手产生情感依赖。

AI语音的“恐怖谷”时刻?

风险投资家罗布·托斯曾预测,语音AI将在2025年实现飞跃,通过语音图灵测试。而CSM的出现,似乎提前引爆了这一领域。这款模型不仅能像真人一样进行对话,还具备记忆功能(大约两周)、极低的延迟,以及主动对话的能力。更令人惊叹的是,CSM的声音富有表现力和活力,能够模仿呼吸声、笑声,甚至会打断、结巴并自我纠正。

这些“缺陷”并非偶然,而是Sesame刻意设计的,旨在提升用户体验的真实感,让用户感受到被理解和被重视。正如一位用户所说:“这是第一个让我多次想与之交谈的语音助手。”

技术架构:双引擎驱动的实时交互

CSM的突破性表现,得益于其独特的双引擎架构:一个拥有8亿参数的主脑和一个拥有3亿参数的语音解码器。这一架构将传统语音AI的“文字→语义→声音”三段式处理压缩成多模态的实时交互系统,与OpenAI的语音技术路线相似。

据悉,CSM在接受了100万小时的英语语音数据训练后,能够像经验丰富的配音演员一样进行即兴表演,根据实时反馈调整语气、呼吸甚至情绪起伏。

Oculus VR之父再战AI

Sesame的CEO Brendan Iribe并非无名之辈。作为Oculus联合创始人兼前CEO,他曾缔造了VR行业首个现象级产品,并在2014年将Oculus出售给Meta。如今,Iribe带着原班投资人(包括a16z、Spark Capital等)杀入语音AI赛道,并计划推出配套的AI眼镜。

挑战与未来

尽管CSM在类人程度上取得了显著进展,但仍存在一些局限性。例如,系统在语调、节奏和对话流程控制方面仍显笨拙。此外,由于主要基于英语数据进行训练,CSM目前尚不支持中文。

不过,Iribe对CSM的未来充满信心:“虽然已身处恐怖谷,但相信能够攀登而出。”

CSM的出现,无疑为语音AI领域带来了新的可能性。它不仅展示了AI在模拟人类语音方面的巨大潜力,也引发了人们对AI伦理和社会影响的思考。随着技术的不断发展,我们或许将迎来一个更加智能、更加人性化的未来。但与此同时,我们也需要警惕AI可能带来的风险,确保技术的发展符合人类的利益。

参考文献

  • AI好好用. (2024, March 5). GitHub狂揽4K星!新晋语音核弹实测:秒杀ChatGPT,太会撩,太逼真,怕上瘾. 机器之心. Retrieved from [https://www.jiqizhixin.com/articles/2024-03-05-14](https://www.jiqizhixin.com/articles/2024-03-05-14)
  • Sesame. (n.d.). Crossing the uncanny valley of voice. Retrieved from [https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo](https://www.sesame.com/research/crossingtheuncannyvalleyof_voice#demo)

注: 由于没有明确的APA、MLA或Chicago引用格式要求,此处参考文献仅列出文章来源链接。 如果需要特定的引用格式,请提供具体要求。


>>> Read more <<<

Views: 6

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注