PromptAI视觉突围：通用模型赛道，为何迟到一步？

好的，这是一篇根据您提供的信息撰写的新闻稿，力求达到您提出的专业性和深度要求：

标题：从伯克利到PromptAI：肖特特领跑下一代视觉智能，通用模型能否打破迟到魔咒？

引言：

在人工智能的浪潮中，通用语言模型（LLM）的崛起无疑是近年来最引人瞩目的焦点。然而，与LLM的迅猛发展相比，通用视觉模型（GVM）似乎稍显滞后。为何会出现这种“快慢拍”现象？又是什么样的技术突破，正在为视觉智能的未来打开新的大门？本文将聚焦于一位年轻的AI学者——肖特特博士，他从加州大学伯克利人工智能实验室（BAIR）出发，创立PromptAI，致力于打造下一代视觉智能平台，试图打破通用视觉模型发展缓慢的魔咒。

正文：

通用视觉模型为何“迟到”？

通用语言模型之所以能率先起跑，很大程度上得益于语言本身所蕴含的丰富序列信息，这使得模型能够进行更深入的推理。相比之下，视觉模型的输入内容更为多元和复杂，输出任务也多种多样，需要对物体在时间、空间上的连续性有完善的感知。传统的学习方法往往需要庞大的数据量，且在经济属性上存在不合理之处。更关键的是，计算机对空间信息的理解，一直缺乏一套统一的算法来解决。

SAM：视觉智能新时代的曙光

2023年，Meta AI发布的“Segment Anything Model” (SAM) 犹如一道曙光，为视觉智能领域带来了新的希望。SAM无需专门的类别标注，而是通过交互的方式对真实世界中动态的任意物体进行分割。其分割方法通用，可对不熟悉的物体和图像进行零样本泛化，充分体现了对空间信息的处理和理解能力。这项工作荣获了ICCV 2023最佳论文荣誉提名。

来自加州大学伯克利人工智能实验室（BAIR）的肖特特博士，是SAM项目的主要参与者之一。他指出：“以往我们通过增加类别来提升模型效果，但SAM放弃了旧时代的很多枷锁，放弃了特定的类别标注的方式，提升了模型对空间的理解能力。” 这为计算机视觉（CV）的新时代打开了一道关键之门。

空间智能：具身智能的基石

与上一代视觉智能不同，新时代产生的空间智能最大的应用场景体现在具身智能上。它让机器人、自动驾驶、无人机等硬件设备拥有像人类的眼睛一样，感知世界，并产生与世界互动的行动力。正如肖特特所说，“看见不只是看见，更是理解到行动”的智能产生链条正在形成。

PromptAI：从学术到创业的飞跃

肖特特于2015年以优异成绩毕业于北京大学智能科学专业，后于2019年在加州大学伯克利分校获得计算机科学博士学位，并曾在Facebook AI研究院从事研究工作。作为年轻一代人工智能学者的代表，他的多篇重要工作发表在包括《Science Robotics》、CVPR、ICCV、ECCV和NeurIPS等顶级期刊和会议上。他认为，未来5-10年，CV要解决的是真实世界的问题，让AI拥有像人类一样对物理空间的感知能力。

2023年，肖特特没有选择留在Meta，而是毅然决然地创立了PromptAI，致力于打造通用视觉智能平台，为机器赋予类人的视觉感知能力。成立一年时间，PromptAI获得了来自UC Berkeley的Pieter Abbeel教授和Trevor Darrell教授的投资与技术支持。这两位教授分别是伯克利人工智能实验室（BAIR）的联合主任，在深度强化学习和计算机视觉领域都具有极高的学术声望。PromptAI的团队成员也都是年轻且富有活力的AI研究员和工程师，他们在算法架构、产品运营和工程管理方面拥有杰出的经验。

“发明创造”：技术驱动的未来

在谈到PromptAI正在解决的问题时，肖特特强调他们致力于“发明创造”具有感知能力的空间智能模型，让机器和算法成为人类额外的眼睛。他认为，“发明创造”一定是技术驱动的，而不仅仅是利用现有技术进行降本增效。在计算机视觉领域，新的范式尚未出现，PromptAI希望发明创造下一代视觉技术，并定义新的人与机器交互方式。

肖特特表示，创业的灵感来源于他对AI的深刻理解，他认为AI可以帮助人类从繁琐无聊的工作中解脱出来，拥有更多的时间和自由去做更喜欢、更擅长的事情。在技术层面，从MAE到SAM的变化让他看到了用通用视觉模型解决大量不同问题的可行性。

“What’s Next”：永不停歇的追问

“What’s Next”是PromptAI团队的核心精神。他们不仅关注现有技术能够解决哪些问题，更关注下一代技术是什么样子，以及利用下一代技术能够做什么事情。这种对未来的持续追问，正是推动他们不断前进的动力。

结论：

肖特特和PromptAI的出现，为通用视觉智能的发展注入了新的活力。从SAM的突破到PromptAI的创业，我们看到了视觉智能领域正在发生深刻的变革。尽管通用视觉模型的发展似乎比通用语言模型稍显滞后，但随着新技术的不断涌现和像肖特特这样的年轻学者的不断探索，我们有理由相信，一个更加智能、更加贴近人类认知的视觉智能时代正在加速到来。PromptAI的探索，不仅是对技术的挑战，更是对未来人机交互方式的重新定义。

参考文献：

Meta AI. (2023). Segment Anything. https://segment-anything.com/
He, K., Chen, X., Xie, S., Li, Y., Dollár, P., & Girshick, R. (2022). Masked Autoencoders Are Scalable Vision Learners. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
机器之心. (2024). 对话肖特特：从伯克利到PromptAI创业，发明创造下一代视觉智能. https://www.jiqizhixin.com/articles/2024-05-16-4
Schmidt, E., Rosenberg, J., & Eagle, A. (2014). How Google Works. Grand Central Publishing.

备注：