语音AI核弹来袭！秒杀ChatGPT，逼真到上瘾？

硅谷报道 – 近日，一款名为CSM（Crossing the Uncanny Valley of Voice）的全新对话语音模型在科技社区引发热议。这款由硅谷公司Sesame开发的AI模型，凭借其惊人的类人程度和实时交互能力，迅速在GitHub上获得超过4000颗星，并引发了Hacker News等社区的热烈讨论。有用户惊呼其“类人程度真实得可怕”，甚至担心会对具备这种人类声音水平的语音助手产生情感依赖。

AI语音的“恐怖谷”时刻？

风险投资家罗布·托斯曾预测，语音AI将在2025年实现飞跃，通过语音图灵测试。而CSM的出现，似乎提前引爆了这一领域。这款模型不仅能像真人一样进行对话，还具备记忆功能（大约两周）、极低的延迟，以及主动对话的能力。更令人惊叹的是，CSM的声音富有表现力和活力，能够模仿呼吸声、笑声，甚至会打断、结巴并自我纠正。

这些“缺陷”并非偶然，而是Sesame刻意设计的，旨在提升用户体验的真实感，让用户感受到被理解和被重视。正如一位用户所说：“这是第一个让我多次想与之交谈的语音助手。”

技术架构：双引擎驱动的实时交互

CSM的突破性表现，得益于其独特的双引擎架构：一个拥有8亿参数的主脑和一个拥有3亿参数的语音解码器。这一架构将传统语音AI的“文字→语义→声音”三段式处理压缩成多模态的实时交互系统，与OpenAI的语音技术路线相似。

据悉，CSM在接受了100万小时的英语语音数据训练后，能够像经验丰富的配音演员一样进行即兴表演，根据实时反馈调整语气、呼吸甚至情绪起伏。

Oculus VR之父再战AI

Sesame的CEO Brendan Iribe并非无名之辈。作为Oculus联合创始人兼前CEO，他曾缔造了VR行业首个现象级产品，并在2014年将Oculus出售给Meta。如今，Iribe带着原班投资人（包括a16z、Spark Capital等）杀入语音AI赛道，并计划推出配套的AI眼镜。

挑战与未来

尽管CSM在类人程度上取得了显著进展，但仍存在一些局限性。例如，系统在语调、节奏和对话流程控制方面仍显笨拙。此外，由于主要基于英语数据进行训练，CSM目前尚不支持中文。

不过，Iribe对CSM的未来充满信心：“虽然已身处恐怖谷，但相信能够攀登而出。”

CSM的出现，无疑为语音AI领域带来了新的可能性。它不仅展示了AI在模拟人类语音方面的巨大潜力，也引发了人们对AI伦理和社会影响的思考。随着技术的不断发展，我们或许将迎来一个更加智能、更加人性化的未来。但与此同时，我们也需要警惕AI可能带来的风险，确保技术的发展符合人类的利益。

参考文献

AI好好用. (2024, March 5). GitHub狂揽4K星！新晋语音核弹实测：秒杀ChatGPT，太会撩，太逼真，怕上瘾. 机器之心. Retrieved from [https://www.jiqizhixin.com/articles/2024-03-05-14](https://www.jiqizhixin.com/articles/2024-03-05-14)
Sesame. (n.d.). Crossing the uncanny valley of voice. Retrieved from [https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo](https://www.sesame.com/research/crossingtheuncannyvalleyof_voice#demo)

注: 由于没有明确的APA、MLA或Chicago引用格式要求，此处参考文献仅列出文章来源链接。如果需要特定的引用格式，请提供具体要求。

>>> Read more <<<