大型语言模型(LLM)的涌现和普及引发了对其是否具备规划能力的广泛关注。为了深入研究这一问题,这篇发表于2024年的论文,它提出了使用基于wikiHow教程的包含警告和提示的流程文本PARADISE数据集,用来评估大型语言模型(LLM)的隐式规划能力。

01

论文概述

这篇《PARADISE: Evaluating Implicit Planning Skills of Language Models with Procedural Warnings and Tips Dataset》是2024年3月5日由约翰霍普金斯大学计算机科学系和科克大学计算机工程系的Arda Uzunoglu、Abdalfatah Rashid Safa和Gozde Gül Sahin发表的一篇论文。这篇论文提出了一种基于wikiHow教程的包含警告和提示的流程文本数据集PARADISE,用于评估大型语言模型(LLM)的隐式规划能力。论文设计了一种基于Q&A的规划推理任务,要求模型根据给定目标推断出相应的警告或提示。实验部分采用微调和零样本设置,评估了DeBERTa、GPT-4等模型在PARADISE数据集上的表现。研究结果显示,特定任务的微调小模型在大多数情况下优于零样本提示的LLM。此外,研究还分析了模型在不同类型目标上的表现差异,以及提出任务对其他未见流程任务的知识迁移能力。

02

论文详细介绍

01.

研究方法介绍:

论文采用了基于wikiHow教程的Q&A形式的推理任务来评估大型语言模型的隐式规划能力。具体来说,研究者构建了一个包含警告和提示的流程文本数据集PARADISE,其中目标被设定为问题,而警告和提示作为候选答案。实验部分分为微调和零样本两种设置,微调部分使用了DeBERTa、BERT、RoBERTa等预训练语言模型,而零样本部分评估了GPT-4、Mistral等大型语言模型。此外,研究者还深入分析了模型在不同类型目标上的表现差异,以及提出任务对其他未见流程任务的知识迁移能力。这一研究方法为评估语言模型在开放域规划推理任务中的表现提供了重要依据。

02.

相关定义、背景及建模:

wikiHow数据集及网站特点:wikiHow数据集是一个包含丰富结构化过程性文档的数据集,它主要来源于wikiHow网站上的教程文章。wikiHow网站是一个由社区驱动的知识共享平台,致力于帮助人们学习各种生活技能。其数据集主要特点如下:

图片

1.结构化信息:每篇教程文章包含结构化的步骤信息,这些步骤详细描述了实现目标所需的具体步骤。此外,文章还可能包含警告、提示、图片等相关信息。

2.多样性:wikiHow数据集覆盖了广泛的领域,如家庭、饮食、教育、金融等,因此具有较高的领域多样性。

3.文本长度:教程文章的文本长度适中,通常包含约10-20个步骤,这使得该数据集适合用于各种自然语言处理任务,例如文本分类、信息抽取、文本生成等。

4.高质量:wikiHow网站上的文章由社区成员撰写和审核,确保了数据的高质量。

5.规模:wikiHow数据集规模较大,包含数万篇教程文章,因此是一个非常适合进行大规模模型训练的数据集。

6.开源:该数据集是开源的,研究者可以自由下载和使用该数据集进行相关研究工作。

作者从wikiHow网站上获取了约10万个教程文章,并自动提取了每个教程的目标文本和相关的警告或提示,构建了PARADISE数据集。这个数据集允许模型根据给定的目标文本选择最相关的警告或提示,而不提供中间步骤的文本。通过这种方式,作者可以评估模型是否具备根据目标推断出规划所需隐含知识的能力。

03.

 PARADISE及实验设置:

 PARADISE数据集是本文的核心贡献,用来评估语言模型在隐含规划推理任务上的表现。该数据集由wikiHow中的程序性文本构成,其中包含约104K个警告和提示。作者将每个文本的目标与相应的警告或提示分离,构建成问答形式的数据集,以测试模型从目标推断隐含规划推理的能力。该数据集覆盖广泛的领域,具有良好的分布均匀性,并且平均目标长度约为7个词,候选长度约为40个词。作者通过自动生成和专家验证的方式构建了测试集,以保持数据质量。PARADISE数据集为评估语言模型的隐含规划推理能力提供了一个可靠和丰富的测试平台。

图片

实验部分主要设置了两种实验设置,以全面评估模型在PARADISE数据集上的表现。第一种是微调预训练语言模型,作者选取了BERT家族中的4个模型,分别是DistilBERT、BERT、RoBERTa和DeBERTa。这些模型在大规模文本语料库上进行预训练,学习通用的语言表示。作者将每个候选与问题连接,并通过交叉熵损失进行优化,以适应下游任务。第二种是零样本提示大型语言模型,作者选择了5个大型语言模型,分别是GPT-4、PALM-2、LLaMA-2、Mistral和Vicuna。这些模型规模较大,参数量达到数百亿级,甚至千亿级。作者通过迭代优化提示模板和参数配置,使这些模型能够适应下游任务。在PARADISE数据集上,作者对所有模型进行了性能评估,发现微调后的DeBERTa和零样本提示的GPT-4表现最佳。作者进行的实验设置和结果分析,从多个角度探讨了不同类型语言模型在警告和提示推理任务上的性能。

03.

 实验结果及分析:

作者进行的实验设置和结果分析,从多个角度探讨了GPT-4(商业)、PALM-2(商业)、LLaMA-2 70B(开源)、Mistral 7B(开源)及Vicuna 33B(开源)在警告和提示推理任务上的性能。不同类型的预训练语言模型(PLMs)和大型语言模型(LLMs)及人类在警告推理和提示推理任务上的表现。通过比较微调的PLMs和零样本的LLMs,如下表所示:

图片

在实验1.在微调设置下,DeBERTa模型在两个任务中表现最佳,但仍然落后于人类表现。

2.在零样本设置下,商业LLMs如GPT-4和PALM-2的表现优于开源LLMs如LLaMA-2、Mistral和Vicuna。

3.微调的PLMs(如DeBERTa)在大多数场景下都优于零样本的LLMs,即使是GPT-4。

4.所有模型在提示推理任务上的表现优于警告推理任务。尽管有所提升,

5.所有模型的表现仍然落后于人类表现。

详细实验步骤分析:

在Fine-tuning Setup部分,作者采用了BERT系列模型进行微调,使用[CLS]标记连接问题和候选答案,并通过额外的投影层输出答案。

在Zero-shot Setup部分,作者选择了5种流行的开源和商业大模型,通过API调用并不断优化prompt来评估模型性能。

在Experiments and Results部分,作者给出了微调模型和零样本模型在警告和提示推理任务上的准确率结果。微调的DeBERTa表现最佳,但与人类水平仍有差距。零样本模型中,GPT-4表现最好,但也落后于微调模型。

在RQ1: Keyword Matching部分,作者通过删除共享关键词评估了任务对关键词的依赖程度。模型是否仅通过简单的关键词匹配来完成任务,并通过在正负候选中移除共同关键词来评估任务的依赖性。如下图展示了不同模型在处理被操纵的测试数据后的表现。

图片

结果显示,删除关键词后,微调模型的准确率下降约15-20%,而大模型下降约5-15%。

在RQ2: Failures of Different Model Families部分,作者分析了不同模型家族的错误模式。通过过绘制模型在错误预测上的相关矩阵来比较不同模型家族的失败模式。如下图展示了PLMs、开源LLMs和商业LLMs在错误预测上的相关矩阵。

图片

同时,也分析了DeBERTa和GPT-4在不同类别任务中的失败模式,如下表:

图片

结果表明:DeBERTa更擅长处理抽象目标,而GPT-4更擅长处理具体目标。

在RQ3: Implicit versus Explicit部分,作者比较了模型在隐式和显式提示/警告上的表现。通过划分测试集的子集,包含与相关wikiHow教程步骤具有高语义相似性的警告和提示,来评估语言模型在隐式推理方面的能力,如下表:

图片

结果显示,随着提示/警告与步骤的语义相似度增加,模型准确率也提高。

在RQ4: Reverse Inference Tasks部分,作者要求模型从提示/警告推断目标。通过构造反向版本的任务,要求系统为给定的警告或提示选择正确目标,来测试模型的反向推理能力,如下表:

图片

结果显示,微调模型性能显著提高,而大模型保持稳定。

在RQ5: Transfer Learning部分,作者进行了跨领域和域外迁移学习实验。

交叉领域测试:作者通过交叉领域测试评估了预训练语言模型在提示推理和警告推理任务之间的迁移学习能力。如下表所示:

图片

结果显示,提示推理数据微调的模型在警告推理任务上的表现相当,而警告推理数据微调的模型在提示推理任务上的表现略有下降。这证实了提示和警告之间的高相似性。

域外迁移学习:作者通过进行域外迁移学习,评估在提示推断和警告推断任务上微调的BERT模型在目标和步骤推断任务上的表现。如下图所示:

图片

结果显示,先在提示推理或警告推理任务上微调的模型,在目标推理和步骤推理任务上的零样本性能显著提高,证明提示推理和警告推理任务可以互相迁移,并为其他程序性任务提供有益的先验知识。

通过比较提示推理和警告推理,作者认为提示推理数据对程序性任务的学习贡献更大,因为提示更具体且与目标更直接相关。实验结果显示,提示推理在关键词操纵下更受影响,表明提示推理数据对关键词变化更敏感。

总体结果表明,提示推理和警告推理任务可以互相迁移,并为其他程序性任务提供有益的先验知识。具体来说,作者首先进行了提示推理和警告推理任务之间的跨领域迁移学习,评估了模型在提示推理数据上微调后在警告推理任务上的表现,以及模型在警告推理数据上微调后在提示推理任务上的表现。结果显示,提示推理数据微调的模型在警告推理任务上的表现相当,而警告推理数据微调的模型在提示推理任务上的表现略有下降。这证实了提示和警告之间的高相似性。然后,作者在目标推理和步骤推理任务上进行了域外迁移学习实验。结果显示,先在提示推理或警告推理任务上微调的模型,在目标推理和步骤推理任务上的零样本性能显著提高,证明提示推理和警告推理任务可以互相迁移,并为其他程序性任务提供有益的先验知识。

04.

 创新性说明:

常识推理领域涵盖多个子领域,如语言推理、逆推理、物理世界推理、时间推理等。过去的研究主要依赖于额外提供的信息或关注连续元素之间的关系。过去的研究集中使用wikiHow数据集进行的任务,如总结、意图检测、推理、链接动作和事件预测等。而本文提出的逆推理任务聚焦于隐式关系,更贴近现实场景,为评估隐式常识推理能力提供了可靠的测试平台。

03

论文的局限性和未来研究方向

文章中所设计局限性主要涉及以下方面:

LLM评估限制:由于LLM的专有性质或高昂的计算成本,作者使用LLM的API进行评估。这意味着LLM的性能可能因未来API的变化或弃用而难以复现。

数据集构建质量:由于数据集是自动生成的,可能包含不理想元素,例如对给定目标有多个合理候选者。作者使用专家注释过程来验证测试集,以提高数据集质量。

噪声检测:通过噪声检测器发现数据集中存在一定程度的噪声,尽管通过过滤已经减少了噪声,但自动生成的数据集仍难以完全避免噪声问题。

未来的研究方向可以由以下方向展开:

改进模型性能:尽管经过微调的PLMs优于LLMs,但所有模型仍无法达到人类水平。因此,未来的工作可以集中在提高模型在PARADISE数据集上的表现。

模型失败分析:文档分析了关键词匹配、模型失败模式、提示与目标的隐式关系、反向任务以及跨域迁移学习等方面。这些分析为改进模型提供了方向。

跨域迁移学习:实验结果表明,PARADISE任务为其他未见的程序性任务提供了有益的先验知识。未来可以继续探索这些任务在其他领域任务中的迁移效果。

数据集改进:尽管作者已尽可能构建高质量的数据集,但自动生成的数据集仍存在噪声。未来可以继续改进数据集构建过程,以提高数据质量。

其他模型架构:文档主要评估了PLMs和LLMs。未来可以探索其他模型架构在PARADISE任务上的表现。

其他隐式推理任务:文档提出了一种评估隐式推理的框架。未来可以探索其他隐式推理任务,以进一步评估模型的隐式常识推理能力。

04

结论

这篇论文提出了一个非常有价值的数据集和评估框架,为研究语言模型的隐式推理能力提供了新的视角。论文中构建的PARADISE数据集具有广泛的覆盖面和高质量的专家标注,对研究模型在开放域下的推理能力具有重要意义。

同时,论文也指出当前模型仍无法达到人类水平,这一现状为后续研究留下了空间。未来可以进一步探索模型性能的提升、数据集构建的改进、其他模型架构的应用、以及更多隐式推理任务的开发,以推进语言模型在隐式常识推理能力方面的研究。总的来说,这篇论文为AI领域的隐式推理研究提供了宝贵的资源和启发,对推动该领域的发展具有重要意义。

END

图片

图片

公众号:赛博詹特曼

微信号:CyberGentry

公众号回复:240306 获取论文

作者 52AI

52人工智能社区管理员