ExploreToM

github2024-12-13 更新2024-12-14 收录

下载链接：

https://github.com/facebookresearch/ExploreToM

下载链接

链接失效反馈

官方服务：

资源简介：

ExploreToM是第一个允许大规模生成多样化和具有挑战性的心智理论数据的框架，用于鲁棒训练和评估。该方法利用自定义领域特定语言的A*搜索来生成复杂的故事结构和新颖、多样但合理的场景，以测试大型语言模型的极限。

ExploreToM is the first framework that enables large-scale generation of diverse and challenging Theory of Mind (ToM) data for robust training and evaluation. It leverages A* search with a custom domain-specific language to generate complex story structures and novel, diverse yet plausible scenarios, designed to test the limits of large language models (LLMs).

创建时间：

2024-11-23

原始信息汇总

Explore Theory-of-Mind: Program-Guided Adversarial Data Generation for Theory of Mind Reasoning

数据集概述

ExploreToM 是一个用于大规模生成多样化和具有挑战性的心智理论（Theory of Mind）数据的框架。该框架通过自定义领域特定语言（DSL）和 A* 搜索算法生成复杂的故事结构和多样化的场景，旨在对大型语言模型（LLMs）进行鲁棒训练和评估。

数据生成流程

生成故事上下文

python story_context_generator.py --num_elements_by_class 6 --num_contexts_to_generate 100
运行 A 搜索*

for i in seq 0 7 ; do python story_structure_searcher.py --experiment_to_run search --model_name meta-llama/Meta-Llama-3.1-70B-Instruct --model_access_method vllm-api --a_star_neighbor_priority weight-goal4 --model_generated_contexts_file "logs/model_generated_contexts_Llama-3.1-70B-Instruct_n_100_p_6_m_6_r_2_update_object_state_equiv_class_for_v1_dsl_wo_upsampling.jsonl" --i $i & done
填充生成故事

for i in seq 0 7 ; do python story_structure_infiller.py --i $i & done for i in seq 0 7 ; do python story_structure_infiller.py --i $i --generate_fantom_like_data & done # 可选，生成更长的上下文数据

其他资源

统计信息

运行以下命令以获取关于 TrackTheMind 的统计信息：

for i in seq 0 7 ; do python story_structure_searcher.py --experiment_to_run baseline --model_name meta-llama/Meta-Llama-3.1-70B-Instruct --model_access_method vllm-api --model_generated_contexts_file "logs/model_generated_contexts_Llama-3.1-70B-Instruct_n_100_p_6_m_6_r_2_update_object_state_equiv_class_for_v1_dsl_wo_upsampling.jsonl" --i $i & done python compute_statistics.py --evaluate_cross_model_generations --model_name gpt-4o --model_access_method openai-azure-api python compute_statistics.py --evaluate_cross_model_generations --model_name mistralai/Mixtral-8x7B-Instruct-v0.1 --model_access_method vllm-python python compute_statistics.py --evaluate_cross_model_generations --model_name meta-llama/Meta-Llama-3.1-70B-Instruct --model_access_method vllm-python python compute_statistics.py --evaluate_cross_model_generations python compute_statistics.py

功能测试

python tests_belief_tracker.py python tests_story_structure_infiller.py

引用

如果该数据集对你有帮助，请考虑引用：

@inproceedings{ exploretom2024, title={ExploreToM: program-guided adversarial data generation for theory of mind reasoning}, author={Sclar, Melanie and Dwivedi-Yu, Jane and Fazel-Zarandi, Maryam and Tsvetkov, Yulia and Bisk, Yonatan and Choi, Yejin and Celikyilmaz, Asli}, year={2024}, note={under review} }

许可

请参阅 LICENSE 文件以获取许可详情。

搜集汇总

数据集介绍

构建方式

ExploreToM数据集的构建方式独具匠心，通过A*搜索算法与自定义领域特定语言的结合，实现了大规模生成多样且具有挑战性的心智理论（Theory of Mind）数据。该框架首先通过脚本生成故事背景，随后利用A*搜索在复杂的故事结构中探索，最终通过填充机制生成完整的故事情节。这一过程不仅确保了数据的多样性，还通过对抗性生成策略，提升了数据集的难度，从而为大型语言模型的训练与评估提供了强有力的支持。

特点

ExploreToM数据集的核心特点在于其生成的数据具有高度的复杂性和多样性，能够有效测试大型语言模型在心智理论推理任务中的表现。通过A*搜索算法，数据集不仅涵盖了广泛的情境，还引入了新颖且合理的场景，使得模型在面对复杂推理任务时能够展现出更强的鲁棒性。此外，数据集的生成过程还支持对抗性数据的创建，进一步增强了其在模型评估中的应用价值。

使用方法

ExploreToM数据集的使用方法灵活多样，适用于多种场景。用户可以通过提供的脚本生成故事背景、执行A*搜索以及填充故事情节，从而生成自定义的数据集。此外，数据集还支持跨模型的评估与统计分析，用户可以通过运行相关脚本，对不同模型在心智理论推理任务中的表现进行对比与分析。对于模型开发者而言，ExploreToM提供了一个强大的基准，帮助其在复杂推理任务中进行模型优化与验证。

背景与挑战

背景概述

ExploreToM数据集由Sclar, Melanie等人于2024年提出，旨在通过程序引导的对抗性数据生成方法，大规模生成多样且具有挑战性的心智理论（Theory of Mind, ToM）数据，以用于强化学习和评估。该数据集的核心研究问题是如何通过复杂的故事结构和多样化的情境，测试大型语言模型（LLMs）在心智理论推理中的极限。其创新之处在于利用A*搜索算法与自定义领域特定语言相结合，生成新颖且合理的场景，从而推动了心智理论推理领域的研究进展。

当前挑战

ExploreToM数据集在构建过程中面临多项挑战。首先，生成复杂且多样化的故事结构需要高效的搜索算法和领域特定语言的支持，这增加了数据生成的复杂性。其次，确保生成的情境具有合理性和挑战性，同时避免过度拟合或生成不切实际的场景，是数据集质量的关键。此外，如何在大规模数据生成过程中保持计算效率，并确保数据集能够有效评估不同模型的性能，也是该数据集面临的重大挑战。

常用场景

经典使用场景

ExploreToM数据集的经典使用场景在于其能够大规模生成多样且具有挑战性的心智理论（Theory of Mind, ToM）数据，用于训练和评估大型语言模型（LLMs）。通过利用A*搜索算法与自定义领域特定语言，该数据集能够生成复杂的故事结构和多样化的情境，从而有效测试LLMs在心智理论推理方面的能力。

解决学术问题

ExploreToM数据集解决了心智理论推理领域中数据稀缺和多样性不足的问题。传统的心智理论数据集往往局限于特定情境，难以全面评估模型的推理能力。ExploreToM通过生成多样且复杂的情境，为学术研究提供了丰富的数据资源，推动了心智理论推理模型的鲁棒性和泛化能力的提升。

衍生相关工作

ExploreToM数据集的推出激发了大量相关研究工作，特别是在心智理论推理和大型语言模型的评估领域。许多研究者基于该数据集开发了新的模型训练方法和评估指标，进一步推动了心智理论推理技术的发展。此外，该数据集还被广泛用于跨模型比较和基准测试，为学术界和工业界提供了重要的参考依据。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集