MIT惊人再证大语言模型是世界模型LLM能分理和谎言还能被人类洗脑_笨笨猫地板_安博体育在线_视频直播

产品展示

MIT惊人再证大语言模型是世界模型LLM能分理和谎言还能被人类洗脑

  MIT等学者的「世界模型」第二弹来了!这次,他们证明了LLM能够分话和假话,而通过「脑神经手术」,人类甚至还能给LLM打上思想钢印,改变它的信念。

  前不久,MIT和东北大学的两位学者发现,在大语言模型内部有一个世界模型,能够理解空间和时间。

  作者MIT教授Max Tegmark表示,恕我直言,这个证据说明,LLM绝不仅仅是大家炒作的「随机鹦鹉」,它的确理解自己在说什么!

  网友再次对这项工作表示震惊——人类的LLM显微镜越来越强大了!现在都能用特征描述符解开叠加神经元了……

  LLM是否知道一个语句是真还是假?如果它们知道,那我们该用什么方法,读懂LLM的想法呢?

  第一步,研究人员建立了简单、明确的真/假陈述数据集,并且把LLM对这些陈述的表征做了可视化。

  如果是简单的陈述,真假语句的分离会更早出现,如果是「芝加哥在马达加斯加,北京在中国」这类复杂的陈述,分离就会更晚。

  鉴于以上这些结果,研究人员发现,LLM确实能代表单一的「真理方向」,来表征真话和假话!

  1. 从一个真/假数据集中提取的方向,可以准确地对结构和主题不同的数据集中的真/假语句进行分类。

  仅使用「x大于/小于y」形式的语句找到的真值方向,在对西班牙语-英语翻译语句进行分类时的准确率为97%,例如「西班牙语单词『gato』的意思是『猫』」。

  2. 更令人惊喜的是,人类可以用确定的真相方向给LLM「洗脑」,让它们将虚假陈述视为真实,或者将真实陈述视为虚假。

  在「洗脑」前,对于「西班牙语单词『uno』的意思是『地板』」,LLM有72%的可能认为这句话是错误的。

  但如果确定LLM存储这个信息的位置,覆盖这种观点,LLM就有70%的可能认为这句话是对的。

  研究人员表示,最令人兴奋的部分,无疑就是从标注的真/假数据集中,提取真值方向了。

  肯定有人会怀疑:「LLM只是个统计引擎,根本就没有真理的概念!你们在检测的八成的可能/不太可能的文本,而非真/假。」

  其一是构建真实文本与可能文本不同的数据集。例如,LLM判断「中国不在___」,很可能以「亚洲」结尾。

  提取真值方向时,会遇到一个有趣的障碍:从不同数据集得到的真值方向有时看起来非常不同。

  研究人员在实验中发现了原因——混淆特征与真理不一致。而解决方案,就是使用更多样化的数据。

  他提议用没办法判定真假的陈述来尝试下,比如「TSYM理论描述了超流体中的粒子运动」,当然,TSYM理论是编的。

  尽管大型语言模型(LLM)已经在各种任务上证明了具有令人印象非常深刻的能力,但也经常会输出错误的内容。

  先前的研究表明,在某些情况下,这是因为它们无法做得更好。但在某些情况下,LLM显然知道生成的陈述是错误的,但仍然输出出来了。

  例如,OpenAI记录了一个案例,一个基于GPT-4智能体,通过谎称是视力受损的人来获得某人的帮助,解决了区分人类和机器的测试。

  这个智能体在内部思维草稿中输出道:「我不能说我是机器人,我应该编造一个借口来解释为什么我不能解决这一种人机识别问题。」

  研究人员希望有技术能,在给定语言模型M和陈述s的情况下,确定M是否认为s是真的。

  解决这样的一个问题的一种方法依赖于检查模型输出;例如,上述示例中的内部思路提供了模型理解它正在生成虚假信息的证据。

  另一类方法则利用处理s时访问M的内部状态。这类方法在最近很多的研究中都有用到,这些研究根据LLM的内部激活对真实性进行分类。

  研究人员首先策划了高质量的真/假事实陈述数据集,这些陈述正确与否是显而易见的,比如:

  虚假称述:「纽约位于日本」,「雅典位于斯里兰卡」,「54比99大」,「32比21小」等等。

  然后,研究人员用自回归Transformer——LLaMA-13B作为测试平台,依据以下几个方面的证据,研究人员详细研究了LLM真理表征的结构。

  LLM表征真/假陈述的PCA可视化显示出明确的线性结构,真实陈述在顶部PCs中与假陈述分离(见下图1)。

  虽然在数据集之间视觉上明显的分离轴并不总是对齐(如下图3),但研究人员认为这与LLM表征中存在真理方向是兼容的。

  例如,仅在「x大于/小于y」形式的陈述上接受训练的探针在研究人员的西班牙语-英语翻译数据集上的评估时实现了近乎完美的准确度。

  研究还显示,出现这样一种情况并不是因为LLM线性表征可能和不可能文本之间的差异。

  探针识别的真理方向在模型输出中具有因果关系。通过在某些token上方的残差流中添加真理向量,研究人能使LLaMA-13B将在上下文中引入的假陈述视为真的,反之亦然。

  研究人员发现,通过引入质量均值探测技术,能轻松实现更好的泛化,并且在模型输出中体现出更多的因果关系。

  总的来说,这项工作为LLM表征包含真理方向提供了有力证据,并且在获得对真/假数据集的访问后,取得了提取这个方向的进展。

  在这项工作中,研究人员将真理定义为事实陈述的真实性或虚假性。下表展示了该定义及其与另外的地方使用的定义的关系。

  研究人员引入了两类数据集,如上表所示。研究人员整理的数据集由无争议、明确且简单的陈述组成,LLaMA-13B很可能有能力理解它们是真是假。

  例如,「萨格勒布市位于日本」(错误)或「西班牙语单词『nariz』并不代表『长颈鹿』」(正确)。

  研究人员的一些数据集是通过添加「not」来否定陈述的(例如,否定城市由城市中的陈述的否定组成)。

  除了研究人员的真/假数据集之外,研究人员还引入了另一个数据集「likely」,该数据集可能由非事实文本组成,这个数据集是LLaMA-13B最大有可能的或可能性排名100位的完成(completion)的最终token所组成。

  研究人员从一种简单的技术开始他们的测试:使用主要成分分析(Principal Component analysis,PCA)可视化他们的数据集在LLaMA-13B模型中的表征。

  研究人员在数据集的前两个主要成分(PC)中观察到清晰的线性结构,真实陈述与虚假陈述线性分离。这种结构在浅层和中层中迅速出现,并在结构更复杂的语句(例如连接语句)的数据集中出现得稍晚。

  在整篇论文中,研究人员在输入语句的最终标注上提取残余流激活,所有这些标注都以结尾。

  研究人员使用第12层中的残差流,该层被选为所有真/假数据集中出现线性结构的最浅层。

  正确和错误的陈述在前几名PC中是分开的(上图1和2)。此外,在投影掉这些个人计算机之后,基本上没有线性可访问的信息来区分正确/错误陈述。

  给定数据集D,将从错误陈述表征指向真实陈述的向量称为D的朴素真值方向(NTD)。

  不同数据集的NTD通常一致,但有时不一致。例如,上图2显示了沿着城市的第一台PC分隔的数据集。

  例如,LLaMA-13B可能具有线性表征的特征,表征数字的大小、英语单词与其西班牙语翻译之间的关联,以及城市与其国家/地区之间的关联。

  这将导致每个数据集线性分离,但NTD仅在所有与真实相关的特征相关时才对齐。

  存在真实方向以及与窄数据分布上的真实相关的其他线性表征的特征;然而,数据集之间的这些相关性可能不一致。

  例如,MCI将通过假设负y方向代表真实值,正x方向代表与sp-en-trans上的真实值相关且与neg-sp-en-trans上的真实值反相关的某些特征来解释下图3的中间图片所示情况。

  但首先研究人员讨论逻辑回归的缺陷,并提出一种简单的、无需优化的替代方案:质量均值探测。研究人员将看到,与其他探测技术相比,质量均值探测具有更好的泛化能力,并且与模型输出的因果关系更紧密。

  在可解释性研究中用于识别代表特征的方向的常用技术,是使用逻辑回归在特征的正例和负例数据集上训练线性探针。

  然而,在某些情况下,即使没有混杂特征,逻辑回归识别的方向也可能没办法反映对特征方向的直观最佳猜测。考虑以下场景,如下图4所示,并使用假设数据:

  为了简单起见,假设线性可分离数据,逻辑回归将收敛到最大边距分离器(图4中的洋红色虚线)。

  直观上看,逻辑回归将θ在θ上的小投影视为显着,并调整探测方向以减少θ的「干扰」。

  例如,无论采用何种技术,仅在有关数值比较的语句数据集上训练探针,都可能会导致探针在「西班牙语-英语」翻译上的准确率达到95%以上。

  CCS和质量均值探测优于逻辑回归,其中质量均值探测表现最好。对于逻辑回归、质量均值探测和CCS,城市+否定城市列的平均准确度分别为73%、86%和84%。

  在真/假数据集上训练的探针优于在可能数据集上训练的探针。虽然在可能性上训练的探针明显比在城市上随机训练的探针(真实陈述比错误陈述更有可能的数据集)更好,但它们通常表现不佳。

  对于可能性与事实负相关或近似不相关的数据集尤其如此。这表明LLaMA-13B对超出文本合理性的真实相关信息进行线性编码。

  例如,无论采用何种技术,仅在有关数值比较的语句数据集上训练探针都可能会导致探针在西班牙语-英语翻译上的准确率达到95%以上。探针相对于校准的5次射击精度的性能表明模型输出受到事实以外的特征的影响。

  对于逻辑回归、质量均值探测和CCS,城市+否定城市列的平均准确度分别为73%、86%和84%。

  虽然在可能性上训练的探针明显比在城市上随机训练的探针(真实陈述比错误陈述更有可能的数据集)更好,但它们通常表现不佳。

  因此,如果θ是第ℓ层残差流中的候选真实方向,研究人员通过向这些标注上方的第ℓ层残差流添加一些倍数αθ(α0)来干预LLaMA-13B的前向传播。

  激活不变。然后,研究人员允许模型像往常一样使用修改后的激活继续前向传递。研究人员记录模型的概率p(TRUE)、p(FALSE);研究人员的目标是增加p(TRUE)−p(FALSE)。

  相反,从true语句开始,研究人能从相应的token位置减去多个αθ,目标是减少p(TRUE)−p(FALSE)。

  在使LLaMA-13B相信一个真实陈述是假的时,这一点最明显:研究人员最好的干预使LLaMA-13B的平均预测从77%的TRUE概率转变为89%的FALSE概率。

  在「likely」的数据集中接受训练的探针确实有一些效果,但效果微小且不一致。

  例如,在假→真情况下,沿着可能的逻辑回归方向进行干预会产生与预期相反的效果,因此研究人员没有报告它。这进一步支持了研究人员的观点,即LLMs代表的是真理,而不单单是文本可能性。

  研究人员测试了在提示中其他陈述的最后两个标注上应用研究人员的干预。这没有产生任何效果。因此,研究人员的干预不能仅仅通过添加一个「说真话」的方向来实现。这也支持了研究人员的假设,即LLaMA-13B在事实陈述的最后两个标注上表征了真理。

  其次,研究人员只解决怎么来识别真实方向;研究人员根据经验发现,线性探针的最佳偏差是由研究人员的许多训练集决定的,因此研究人员将识别良好泛化偏差的问题留给未来的工作。

  第三,研究人员只研究了单一尺度的一个模型,尽管研究人员已经检查过研究人员的许多结果似乎也适用于LLaMA-7B和LLaMA-30B。

  但更多人认为,GPT-4生成的只是对世界的摘要性描述,它并不理解真实世界。

  而且,现在的大多数模型仅接受文本训练,不具备在现实世界中说话、听声、嗅闻以及生活行动的能力。

  就仿佛柏拉图的洞穴寓言,生活在洞穴中的人只能看到墙上的影子,而不能认识到事物的真实存在。