川普在美国宾州巴特勒的一次演讲中遇刺_20240714川普在美国宾州巴特勒的一次演讲中遇刺_20240714

上海讯 – 在人工智能领域,提升大型语言模型(LLM)和多模态大型语言模型(MLLM)的推理效率与准确性一直是研究人员和开发者的重要目标。近日,字节跳动联合复旦大学重磅推出了一款名为CAR(Certainty-based Adaptive Reasoning)的自适应推理框架,该框架旨在通过动态调整推理策略,显著提升LLM和MLLM在各种任务中的表现,尤其是在视觉问答(VQA)、关键信息提取(KIE)以及数学推理等领域。

CAR:应需而变的智能推理引擎

CAR的核心理念在于“自适应”,它能够根据模型对答案的置信度,智能地在短答案和长形式推理之间切换。这种动态调整机制使得模型能够根据问题的复杂程度,灵活选择最合适的推理方式,从而在保证准确性的前提下,最大限度地提高推理效率。

传统的推理方法往往采用固定的模式,要么始终采用长形式推理,导致计算资源浪费;要么始终采用短答案,可能牺牲准确性。CAR的出现打破了这一僵局,它通过引入置信度评估机制,使得模型能够像人类一样,根据问题的难易程度,选择不同的思考深度。

技术原理:置信度驱动的推理切换

CAR的技术原理主要包含以下几个关键步骤:

  1. 模型训练: 首先,需要使用包含短答案和长形式推理答案的训练数据对LLM或MLLM进行训练。训练过程中,模型需要学习如何根据不同的提示生成相应的短答案或长形式推理答案。优化目标是交叉熵损失,通过最小化预测token的概率分布与真实token的分布之间的差异来训练模型。

  2. 获取短答案的PPL: 在训练数据上进行短答案推理,并计算每个短答案的困惑度(Perplexity,PPL)。PPL是衡量模型对答案置信度的重要指标,PPL值越低,表示模型对答案的置信度越高。通俗地说,PPL可以理解为模型对某个答案“感到困惑”的程度,困惑度越低,说明模型越有把握。

  3. 高斯分布建模: 假设正确和错误短答案的PPL分数分别服从高斯分布。基于训练数据,估计分布的参数,分别计算正确和错误答案的PPL均值和方差,从而得到两个高斯分布模型。这两个高斯分布模型是CAR进行推理决策的重要依据。

  4. 推理过程: 对于新的输入,模型首先生成短答案,并计算其PPL值。然后,根据之前建立的高斯分布模型,计算该PPL值下答案正确的概率。如果该概率高于预设的阈值,则直接输出短答案;否则,触发长形式推理,以提高答案的准确性。

这种基于置信度的推理切换机制,使得CAR能够在保证准确性的前提下,显著减少模型生成的token数量,从而降低计算成本和推理时间。

主要功能:效率与准确性的完美结合

CAR框架的主要功能可以概括为以下几个方面:

  • 动态推理切换: CAR能够智能地在短答案和长形式推理之间进行切换。对于简单问题,直接输出短答案,提高效率;对于复杂问题,触发长形式推理,确保准确性。

  • 提升推理效率: CAR显著减少模型生成的token数量,降低计算成本和推理时间,提高模型在实际应用中的效率。

  • 提高推理准确性: 在需要详细推理的情况下,激活长形式推理,提高模型在复杂任务中的表现,确保推理结果的准确性。

  • 适应多种任务: CAR适用于视觉问答(VQA)和关键信息提取(KIE)等任务,在数学推理、常识推理等复杂任务中也能发挥作用,具有广泛的适用性。

应用场景:赋能各行各业

CAR框架的应用场景非常广泛,可以赋能各行各业,提升AI应用的智能化水平。以下是一些典型的应用场景:

  • 视觉问答(VQA): 在VQA任务中,CAR能够根据问题的复杂程度,选择合适的推理方式。对于简单的问题,例如“图中有什么颜色?”,CAR可以直接输出短答案;对于复杂的问题,例如“图中人物的情绪是什么?”,CAR会触发长形式推理,结合图像和文本信息,给出更准确的答案。

  • 关键信息提取(KIE): 在KIE任务中,CAR能够根据置信度动态选择推理方式,减少token使用量,同时保持高准确率。例如,在从合同中提取关键信息时,对于明确的信息,CAR可以直接提取;对于模糊的信息,CAR会进行长形式推理,结合上下文信息,准确提取关键信息。

  • 数学推理: 在数学推理任务中,CAR能够根据问题的难度,选择合适的推理方式。对于简单的数学问题,例如“2+2等于多少?”,CAR可以直接输出答案;对于复杂的数学问题,例如“求解微分方程”,CAR会进行详细的推理步骤,最终给出正确的答案。

  • 常识推理: 在常识推理任务中,CAR能够针对简单常识问题直接给出答案,对于复杂问题则进行长形式推理,减少token消耗。例如,对于“鸟会飞吗?”这样的问题,CAR可以直接回答“会”;对于“为什么冬天要穿厚衣服?”这样的问题,CAR会进行长形式推理,解释保暖的原因。

  • 多模态任务: CAR能够结合文本和图像信息,动态选择推理方式,提升多模态任务的准确性和效率。例如,在图像描述生成任务中,CAR可以根据图像的复杂程度,选择生成简洁的描述或详细的描述。

挑战与展望:持续优化,走向未来

尽管CAR框架在提升AI推理效率和准确性方面取得了显著进展,但仍然面临一些挑战。例如,如何更准确地评估模型的置信度,如何设计更有效的长形式推理策略,以及如何将CAR框架应用到更多的任务中,都是未来需要重点研究的方向。

此外,随着AI技术的不断发展,未来的推理框架可能会更加智能化和自适应化。例如,未来的推理框架可能会具备自我学习和自我优化的能力,能够根据实际应用场景,自动调整推理策略,从而达到更高的效率和准确性。

字节跳动和复旦大学的合作,无疑为AI推理领域注入了新的活力。CAR框架的推出,不仅为研究人员和开发者提供了一个强大的工具,也为AI技术的未来发展指明了方向。我们有理由相信,在各方的共同努力下,AI技术将会在各个领域发挥更大的作用,为人类社会带来更多的福祉。

学术支持与项目地址

CAR框架的技术细节已发表在arXiv上,供全球研究人员参考学习。

该论文详细阐述了CAR框架的原理、实现方法以及实验结果,为相关领域的研究提供了重要的参考价值。

结语:AI推理的未来已来

CAR框架的推出,标志着AI推理技术进入了一个新的阶段。它不仅提升了推理效率和准确性,也为AI应用的智能化发展开辟了新的道路。我们期待CAR框架能够在更多的领域得到应用,为人类社会带来更多的便利和价值。同时,我们也期待更多的研究人员和开发者能够加入到AI推理技术的研究中来,共同推动AI技术的进步,创造更加美好的未来。


>>> Read more <<<

Views: 6

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注