five

Polyglot-or-Not/Fact-Completion

收藏
Hugging Face2023-06-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Polyglot-or-Not/Fact-Completion
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Polyglot or Not? Fact-Completion Benchmark,主要用于测试基础语言模型在多语言百科全书知识检索方面的能力。数据集包含20种语言,数据分割对应这些语言。数据来源主要是英文数据集,其他语言的数据通过Google Translate API生成。数据集采用Apache 2.0许可证,并提供了详细的引用信息。

该数据集名为Polyglot or Not? Fact-Completion Benchmark,主要用于测试基础语言模型在多语言百科全书知识检索方面的能力。数据集包含20种语言,数据分割对应这些语言。数据来源主要是英文数据集,其他语言的数据通过Google Translate API生成。数据集采用Apache 2.0许可证,并提供了详细的引用信息。
提供机构:
Polyglot-or-Not
原始信息汇总

数据集概述

数据集名称

  • 名称: Polyglot or Not? Fact-Completion Benchmark
  • 别名: 无

数据集描述

  • 目的: 用于评估多语言百科知识从基础语言模型中的检索能力。
  • 测试方法: 通过对比模型对事实的预测概率与错误预测的平均概率来评估模型对特定事实的掌握程度。

数据集特征

  • 语言创造者: 专家生成和机器生成
  • 多语言性: 多语言
  • 大小: 100K<n<1M
  • 任务类别: 文本生成、填充掩码、文本到文本生成

数据集内容

  • 特征:
    • dataset_id: 字符串
    • stem: 字符串
    • true: 字符串
    • false: 字符串
    • relation: 字符串
    • subject: 字符串
    • object: 字符串
  • 分割:
    • 英语: 26254个例子
    • 西班牙语: 18786个例子
    • 法语: 18395个例子
    • 俄语: 3289个例子
    • 葡萄牙语: 22974个例子
    • 德语: 16287个例子
    • 意大利语: 20448个例子
    • 乌克兰语: 7918个例子
    • 波兰语: 9484个例子
    • 罗马尼亚语: 17568个例子
    • 捷克语: 9427个例子
    • 保加利亚语: 20577个例子
    • 瑞典语: 21576个例子
    • 塞尔维亚语: 5426个例子
    • 匈牙利语: 4650个例子
    • 克罗地亚语: 7358个例子
    • 丹麦语: 23365个例子
    • 斯洛文尼亚语: 7873个例子
    • 荷兰语: 22590个例子
    • 加泰罗尼亚语: 18898个例子

数据集语言

  • 支持语言: 英语、法语、西班牙语、德语、乌克兰语、保加利亚语、加泰罗尼亚语、丹麦语、克罗地亚语、匈牙利语、意大利语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、俄语、斯洛文尼亚语、塞尔维亚语、瑞典语、捷克语

数据集大小

  • 下载大小: 27090207字节
  • 数据集大小: 52358225字节

许可证

  • 许可证: Apache 2.0

引用信息

@misc{schott2023polyglot, doi = {10.48550/arXiv.2305.13675}, title={Polyglot or Not? Measuring Multilingual Encyclopedic Knowledge Retrieval from Foundation Language Models}, author={Tim Schott and Daniel Furman and Shreshta Bhat}, year={2023}, eprint={2305.13675, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作