five

SeacowX/OpenToM

收藏
Hugging Face2024-02-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SeacowX/OpenToM
下载链接
链接失效反馈
官方服务:
资源简介:
OpenToM是一个用于评估大语言模型(LLMs)神经心智理论(N-ToM)能力的新基准,包含696个叙事故事和16008个问题。数据集的问题设计为二元或三元分类任务,建议使用宏平均F1分数来评估LLMs的性能。数据集的结构包括两个主要文件:`opentom.json`和`opentom_long.json`,分别包含正常长度和长叙事的问答数据。数据集的生成过程涉及LLMs生成故事,部分故事经过人工修订。数据集的使用仅限于基准测试,不应用于训练或微调。

OpenToM是一个用于评估大语言模型(LLMs)神经心智理论(N-ToM)能力的新基准,包含696个叙事故事和16008个问题。数据集的问题设计为二元或三元分类任务,建议使用宏平均F1分数来评估LLMs的性能。数据集的结构包括两个主要文件:`opentom.json`和`opentom_long.json`,分别包含正常长度和长叙事的问答数据。数据集的生成过程涉及LLMs生成故事,部分故事经过人工修订。数据集的使用仅限于基准测试,不应用于训练或微调。
提供机构:
SeacowX
原始信息汇总

数据集概述

基本信息

  • 任务类别: 问答、文本分类、文本生成
  • 语言: 英语
  • 名称: OpenToM
  • 数据量: 10K<n<100K
  • 配置:
    • 默认配置:
      • 文件:
        • opentom.json (Long 分割)
        • opentom_long.json (ExtraLong 分割)

数据集详情

  • 包含: 696个叙事,其中596个为正常长度(平均词数:194.3),100个为长叙事(平均词数:491.6)
  • 问题数量: 每个叙事跟随23个ToM问题,总计16008个问题
  • 问题类型:
    1. Location: 分为粗粒度和细粒度,询问实体位置
    2. Multihop: 基于Location问题的多跳推理,涉及社会常识
    3. Attitude: 测试对角色心理状态的理解

数据集描述

  • 策划: KclNLP
  • 语言: 英语
  • 许可证: Creative Commons Attribution-NonCommercial 4.0 International Public License

数据集结构

  • 文件:
    • opentom.json: 包含596个正常长度叙事的13,708个问题
    • opentom_long.json: 包含100个长叙事的2,300个问题
  • 问题类型文件:
    • location_cg_fo: 粗粒度位置问题(一阶)
    • location_cg_so: 粗粒度位置问题(二阶)
    • location_fg_fo: 细粒度位置问题(一阶)
    • location_fg_so: 细粒度位置问题(二阶)
    • multihop_fo: 多跳推理问题(一阶)
    • multihop_so: 多跳推理问题(二阶)
    • attitude: 态度问题

数据集创建

  • 故事生成: 部分内容源自ToMi数据集

引用

  • BibTeX:

    @article{xu2024opentom, title={OpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reasoning Capabilities of Large Language Models}, author={Xu, Hainiu and Zhao, Runcong and Zhu, Lixing and Du, Jinhua and He, Yulan}, journal={arXiv preprint arXiv:2402.06044}, year={2024} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作