张祥雨：多模态推理或迎GPT-4时刻

引言：

在人工智能领域，每一次技术突破都如同划破夜空的流星，短暂而耀眼。然而，真正能照亮未来方向的，是那些深刻变革底层逻辑的创新。近日，我们有幸专访了阶跃星辰首席科学家张祥雨博士，他以其深厚的学术背景和丰富的实践经验，为我们描绘了多模态推理和自主学习这两大领域，将如何引领人工智能走向下一个“GPT-4”时刻。

正文：

一、多模态AI：超越文本的感知与理解

长期以来，自然语言处理（NLP）一直是人工智能研究的核心领域。然而，真实世界的信息并非仅仅以文本形式存在，图像、声音、视频等多种模态的数据交织在一起，构成了我们对世界的完整认知。多模态AI，正是旨在打破文本的壁垒，让机器能够像人类一样，理解和处理多种感官信息。

张祥雨指出，当前的多模态AI仍然面临着诸多挑战。首先，不同模态的数据具有不同的结构和特征，如何有效地融合这些信息是一个难题。例如，图像数据通常是像素级别的，而文本数据则是符号级别的，如何将这两种数据进行对齐和关联，需要精巧的算法设计。其次，多模态数据的标注成本非常高昂。相比于文本数据，图像、声音、视频等数据的标注更加复杂和耗时，这限制了多模态AI模型的训练规模和泛化能力。

尽管挑战重重，多模态AI的潜力依然巨大。张祥雨认为，多模态推理是未来的关键方向。这意味着，AI不仅要能够识别图像中的物体，理解文本中的含义，还要能够将两者结合起来，进行更深层次的推理和判断。例如，给定一张包含人物和场景的图片，以及一段描述人物行为的文字，AI需要能够推断出人物的情绪和意图。这种能力对于智能客服、自动驾驶、医疗诊断等领域都具有重要的应用价值。

二、Next Token Prediction的局限与突破

当前的大型语言模型（LLM），如GPT系列，主要采用Next Token Prediction（NTP）的训练范式。这种范式通过预测下一个词语来学习语言的规律，取得了显著的成果。然而，张祥雨认为，NTP存在着固有的局限性。

首先，NTP本质上是一种自回归模型，它只能依赖于之前的上下文信息来预测下一个词语。这种机制使得模型难以进行长距离的依赖建模，也难以捕捉到文本中蕴含的深层语义关系。其次，NTP容易产生幻觉（Hallucination）现象，即模型会生成一些看似合理但实际上并不存在的知识。这是因为模型在训练过程中，会学习到一些虚假的关联，从而导致错误的预测。

为了克服NTP的局限性，研究者们正在探索新的训练范式。张祥雨特别提到了OpenAI提出的o1范式，这是一种基于目标驱动的训练方法。与NTP不同，o1范式不是简单地预测下一个词语，而是让模型学习如何完成特定的任务。例如，给定一个问题，模型需要生成一段能够回答该问题的文本。通过这种方式，模型可以更好地理解问题的本质，并生成更加准确和有用的答案。

三、自主学习：AI的终极目标

自主学习（Self-Supervised Learning）是近年来人工智能领域的热门研究方向。它旨在让机器能够从海量无标注数据中学习知识，而无需人工干预。张祥雨认为，自主学习是AI走向通用人工智能（AGI）的必经之路。

当前，自主学习已经在图像识别、自然语言处理等领域取得了显著的成果。例如，通过对比学习，模型可以学习到图像的特征表示，从而能够识别不同的物体。通过掩码语言模型，模型可以学习到文本的语义信息，从而能够理解文本的含义。

然而，自主学习仍然面临着诸多挑战。首先，如何设计有效的预训练任务是一个难题。不同的预训练任务会影响模型的学习效果，需要根据具体的应用场景进行选择。其次，如何将预训练得到的知识迁移到下游任务中是一个挑战。预训练模型通常需要在下游任务的数据上进行微调，才能达到最佳的性能。

张祥雨强调，自主学习的最终目标是让AI能够像人类一样，通过观察和实践来学习知识。这意味着，AI需要具备强大的感知能力、推理能力和行动能力，才能在真实世界中进行自主学习。

四、OpenAI o1范式：通往通用人工智能的桥梁

OpenAI提出的o1范式，被张祥雨视为通往通用人工智能的重要桥梁。o1范式的核心思想是，通过让AI完成各种各样的任务，来学习世界的知识和规律。

与传统的监督学习方法不同，o1范式不需要大量的标注数据。AI可以通过与环境的交互，或者通过阅读大量的文本和观看大量的视频，来学习知识。这种方式更加接近人类的学习方式，也更加具有通用性。

张祥雨认为，o1范式的成功，依赖于两个关键因素。首先，需要有足够强大的模型。只有当模型具有足够的能力时，才能从海量的数据中学习到有用的知识。其次，需要有足够多样化的任务。只有当模型能够完成各种各样的任务时，才能真正理解世界的复杂性。

五、多模态推理与自主学习的融合：AI的未来

张祥雨预见，多模态推理和自主学习将在未来深度融合，共同推动人工智能的发展。多模态推理可以为自主学习提供更加丰富的信息来源，而自主学习可以为多模态推理提供更加强大的知识支撑。

例如，AI可以通过观看大量的视频，学习到物体的运动规律和人与人之间的交互方式。然后，AI可以将这些知识应用到自动驾驶领域，从而能够更加安全地驾驶车辆。或者，AI可以通过阅读大量的医学文献，学习到疾病的诊断和治疗方法。然后，AI可以将这些知识应用到医疗诊断领域，从而能够更加准确地诊断疾病。

六、阶跃星辰的探索与实践

作为阶跃星辰的首席科学家，张祥雨带领团队在多模态AI和自主学习领域进行了积极的探索和实践。他们开发了一系列先进的算法和模型，并在智能客服、自动驾驶、医疗诊断等领域取得了显著的成果。

张祥雨表示，阶跃星辰将继续加大在多模态AI和自主学习领域的投入，致力于打造更加智能、更加通用的人工智能系统。他们希望通过自己的努力，为人工智能的发展做出更大的贡献。

七、结语：迎接AI的“GPT-4”时刻

多模态推理和自主学习，是人工智能领域未来的两大发展趋势。它们将打破文本的壁垒，让机器能够像人类一样，理解和处理多种感官信息。它们将克服NTP的局限性，让机器能够更好地理解问题的本质，并生成更加准确和有用的答案。它们将让AI能够像人类一样，通过观察和实践来学习知识。

我们有理由相信，在多模态推理和自主学习的共同推动下，人工智能将迎来下一个“GPT-4”时刻。届时，AI将不再仅仅是一个工具，而将成为我们真正的伙伴，共同创造更加美好的未来。

参考文献：

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020). A simple framework for contrastive learning of visual representations. arXiv preprint arXiv:2002.05709.
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., … & Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901.
Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving language understanding by generative pre-training.
Lillicrap, T. P., Hunt, J. J., Pritzel, A., Heess, N., Erez, T., Tassa, Y., … & Wierstra, D. (2015). Continuous control with deep reinforcement learning. arXiv preprint arXiv:1509.02971.
Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A. A., Veness, J., Bellemare, M. G., … & Hassabis, D. (2015). Human-level control through deep reinforcement learning. Nature, 518(7540), 529-533.
Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., … & Bengio, Y. (2014). Generative adversarial nets. Advances in neural information processing systems, 27.
Hinton, G. E., Osindero, S., & Teh, Y. W. (2006). A fast learning algorithm for deep belief nets. Neural computation, 18(7), 1527-1554.
LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521(7553), 436-444.