five

ekinakyurek/ftrace

收藏
Hugging Face2022-10-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ekinakyurek/ftrace
下载链接
链接失效反馈
官方服务:
资源简介:
FTRACE是一个零样本信息检索基准数据集,旨在追溯语言模型预测结果与其训练示例之间的联系。该数据集包含两部分:一是从现有LAMA查询中提取的事实查询,用于追踪知识;二是从TRex语料库中提取的Wikidata句子,这些句子被注释了其声明的事实,这些事实可以与查询集中的事实相匹配。数据集支持影响归因、信息检索和问答检索等任务,并且是基于英语的单语数据集。数据集的下载和使用遵循CC-BY-SA-4.0和CC-BY-NC-4.0许可协议。
提供机构:
ekinakyurek
原始信息汇总

数据集概述

数据集名称

  • 名称: FTRACE
  • 别名: 无

数据集基本信息

  • 语言: 英语
  • 许可证:
    • Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0)
    • Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0)
  • 多语言性: 单语种
  • 大小: 1MB至10MB之间

数据集来源

  • 源数据集:
    • TRex
    • Lama

任务类别

  • 任务类别:
    • 影响力归属
    • 信息检索
    • 问答检索

具体任务

  • 任务ID:
    • 影响力归属
    • 掩码语言模型

数据集描述

  • 摘要: FTRACE是一个零射击信息检索基准,用于追溯语言模型的预测至训练示例。该数据集包含两部分:一是从现有LAMA查询中提取的事实查询,二是从TREx语料库中提取的Wikidata句子。这些句子被标注了其陈述的事实,这些事实可以与查询集中的事实匹配。
  • 支持的任务和排行榜: 信息待补充
  • 语言: 信息待补充

数据集结构

  • 数据实例:
    • 摘要: 包含1560453个实例
    • 查询: 包含31479个实例
  • 数据字段:
    • 摘要:
      • inputs_pretokenized: 字符串
      • targets_pretokenized: 字符串
      • masked_uri: 字符串
      • masked_type: 字符串
      • facts: 字符串
      • id: 字符串
      • example_uris: 字符串
      • page_uri: 字符串
    • 查询:
      • inputs_pretokenized: 字符串
      • targets_pretokenized: 字符串
      • obj_surface: 字符串
      • sub_surface: 字符串
      • obj_uri: 字符串
      • sub_uri: 字符串
      • predicate_id: 字符串
      • uuid: 字符串

数据集创建

  • 许可证信息:
    • Creative Commons Attribution-ShareAlike License (CC BY-SA 4.0)
    • Creative Commons Attribution-Noncommercial 4.0 International License
  • 引用信息:
    • 主要论文引用格式:

      @misc{https://doi.org/10.48550/arxiv.2205.11482, doi = {10.48550/ARXIV.2205.11482}, url = {https://arxiv.org/abs/2205.11482}, author = {Akyürek, Ekin and Bolukbasi, Tolga and Liu, Frederick and Xiong, Binbin and Tenney, Ian and Andreas, Jacob and Guu, Kelvin}, keywords = {Computation and Language (cs.CL), Information Retrieval (cs.IR), FOS: Computer and information sciences, FOS: Computer and information sciences}, title = {Tracing Knowledge in Language Models Back to the Training Data}, publisher = {arXiv}, year = {2022}, }

    • 查询集引用: Petroni et al., 2019

    • 摘要集引用: Elsahar et al., 2018

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作