five

ExploreToM

收藏
Hugging Face2024-12-12 更新2024-12-14 收录
下载链接:
https://huggingface.co/datasets/facebook/ExploreToM
下载链接
链接失效反馈
官方服务:
资源简介:
ExploreToM是首个允许大规模生成多样化且具有挑战性的理论思维推理数据的框架。该框架利用A*搜索在自定义的领域特定语言上操作,生成复杂的故事结构和多样化的、合理的场景,以对大型语言模型的极限进行压力测试。数据集包括针对特定模型(如Llama-3.1-70B-Instruct)生成的对抗性数据样本,以及用于训练和评估的多种故事结构。数据字段包括与问题相关的属性(qprop)、与故事相关的属性(sprop)和搜索参数(param)。
提供机构:
AI at Meta
创建时间:
2024-12-10
搜集汇总
数据集介绍
main_image_url
构建方式
ExploreToM数据集的构建基于一种创新的程序引导对抗生成框架,通过A*搜索算法在特定领域语言中进行复杂故事结构的生成。该方法旨在针对特定模型生成具有挑战性的理论思维(Theory of Mind)推理数据。具体而言,研究团队在18种设定下生成了10种故事结构,每种结构使用50个节点预算,随后通过填充技术完善故事内容,从而形成多样且具有挑战性的数据集。
特点
ExploreToM数据集的显著特点在于其对抗性和多样性。通过A*搜索算法,数据集能够生成针对特定模型的复杂且新颖的故事场景,有效测试和评估大型语言模型(LLMs)的极限。此外,数据集的灵活性允许用户根据需求调整生成过程,无论是用于测试还是训练,都能提供高度定制化的数据支持。
使用方法
ExploreToM数据集的使用方法灵活多样。对于模型测试,建议使用特定模型运行算法以生成针对性的对抗数据。对于训练,用户可以根据需求调整A*搜索函数和动作集,甚至可以完全禁用A*搜索以生成更多数据。数据集的代码和分析工具可在提供的GitHub链接中获取,便于用户进行深入研究和应用。
背景与挑战
背景概述
ExploreToM数据集由Facebook Research团队于2024年提出,旨在通过程序引导的对抗性数据生成方法,大规模创建多样且具有挑战性的心智理论(Theory of Mind, ToM)推理数据。该数据集的核心研究问题是如何生成复杂且新颖的故事结构,以测试和评估大型语言模型(LLMs)在心智理论推理任务中的表现。主要研究人员包括Sclar, Melanie等人,他们通过A*搜索算法在自定义的领域特定语言中生成复杂的故事结构,从而为LLMs提供了一个极具挑战性的测试平台。ExploreToM的提出不仅推动了心智理论推理领域的研究,还为模型训练和评估提供了新的数据资源。
当前挑战
ExploreToM数据集在构建过程中面临多项挑战。首先,生成复杂且多样的心智理论推理数据需要高效的搜索算法和领域特定语言的支持,这增加了数据生成的复杂性和计算成本。其次,对抗性数据的生成要求能够针对特定模型找到其弱点,这需要对模型行为有深入的理解和精确的调整。此外,数据集的多样性和真实性也是一个挑战,确保生成的故事结构既新颖又符合现实逻辑,以有效测试模型的推理能力。最后,如何平衡数据生成的多样性与计算资源的消耗,也是该数据集面临的一个重要问题。
常用场景
经典使用场景
ExploreToM数据集的经典使用场景主要集中在理论心智(Theory of Mind, ToM)推理任务的测试与训练。通过利用A*搜索算法生成复杂且多样化的故事结构,该数据集能够为大型语言模型(如Llama-3.1-70B-Instruct)提供具有挑战性的测试案例。研究者可以利用这些数据来评估模型在理解复杂社会互动和心理状态方面的能力,从而推动ToM推理技术的发展。
衍生相关工作
ExploreToM数据集的发布催生了一系列相关研究工作,特别是在理论心智推理和自然语言处理领域。研究者们基于该数据集开发了多种模型优化算法,如改进的A*搜索策略和自适应数据生成方法,以进一步提升模型的推理能力。此外,该数据集还被广泛用于评估不同模型的性能,推动了ToM推理技术的标准化和普及化。
数据集最近研究
最新研究方向
在理论心理(Theory of Mind, ToM)推理领域,ExploreToM数据集的最新研究方向聚焦于通过程序引导的对抗性数据生成,以大规模生成多样且具有挑战性的数据,从而提升大型语言模型(LLMs)的鲁棒性训练与评估。该数据集通过A*搜索算法在特定领域语言中生成复杂的故事结构,旨在针对特定模型生成具有高度挑战性的场景,从而深入测试和扩展LLMs的推理能力。这一研究不仅推动了ToM推理在人工智能领域的应用,还为模型在复杂情境下的表现提供了新的评估标准,具有重要的理论与实践意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作