ekinakyurek/ftrace
收藏Hugging Face2022-10-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ekinakyurek/ftrace
下载链接
链接失效反馈官方服务:
资源简介:
FTRACE是一个零样本信息检索基准数据集,旨在追溯语言模型预测结果与其训练示例之间的联系。该数据集包含两部分:一是从现有LAMA查询中提取的事实查询,用于追踪知识;二是从TRex语料库中提取的Wikidata句子,这些句子被注释了其声明的事实,这些事实可以与查询集中的事实相匹配。数据集支持影响归因、信息检索和问答检索等任务,并且是基于英语的单语数据集。数据集的下载和使用遵循CC-BY-SA-4.0和CC-BY-NC-4.0许可协议。
提供机构:
ekinakyurek
原始信息汇总
数据集概述
数据集名称
- 名称: FTRACE
- 别名: 无
数据集基本信息
- 语言: 英语
- 许可证:
- Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0)
- Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0)
- 多语言性: 单语种
- 大小: 1MB至10MB之间
数据集来源
- 源数据集:
- TRex
- Lama
任务类别
- 任务类别:
- 影响力归属
- 信息检索
- 问答检索
具体任务
- 任务ID:
- 影响力归属
- 掩码语言模型
数据集描述
- 摘要: FTRACE是一个零射击信息检索基准,用于追溯语言模型的预测至训练示例。该数据集包含两部分:一是从现有LAMA查询中提取的事实查询,二是从TREx语料库中提取的Wikidata句子。这些句子被标注了其陈述的事实,这些事实可以与查询集中的事实匹配。
- 支持的任务和排行榜: 信息待补充
- 语言: 信息待补充
数据集结构
- 数据实例:
- 摘要: 包含1560453个实例
- 查询: 包含31479个实例
- 数据字段:
- 摘要:
inputs_pretokenized: 字符串targets_pretokenized: 字符串masked_uri: 字符串masked_type: 字符串facts: 字符串id: 字符串example_uris: 字符串page_uri: 字符串
- 查询:
inputs_pretokenized: 字符串targets_pretokenized: 字符串obj_surface: 字符串sub_surface: 字符串obj_uri: 字符串sub_uri: 字符串predicate_id: 字符串uuid: 字符串
- 摘要:
数据集创建
- 许可证信息:
- Creative Commons Attribution-ShareAlike License (CC BY-SA 4.0)
- Creative Commons Attribution-Noncommercial 4.0 International License
- 引用信息:
-
主要论文引用格式:
@misc{https://doi.org/10.48550/arxiv.2205.11482, doi = {10.48550/ARXIV.2205.11482}, url = {https://arxiv.org/abs/2205.11482}, author = {Akyürek, Ekin and Bolukbasi, Tolga and Liu, Frederick and Xiong, Binbin and Tenney, Ian and Andreas, Jacob and Guu, Kelvin}, keywords = {Computation and Language (cs.CL), Information Retrieval (cs.IR), FOS: Computer and information sciences, FOS: Computer and information sciences}, title = {Tracing Knowledge in Language Models Back to the Training Data}, publisher = {arXiv}, year = {2022}, }
-
查询集引用: Petroni et al., 2019
-
摘要集引用: Elsahar et al., 2018
-



