Polyglot-or-Not/Fact-Completion

Name: Polyglot-or-Not/Fact-Completion
Creator: Polyglot-or-Not
Published: 2023-06-14 03:05:21
License: 暂无描述

Hugging Face2023-06-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Polyglot-or-Not/Fact-Completion

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Polyglot or Not? Fact-Completion Benchmark，主要用于测试基础语言模型在多语言百科全书知识检索方面的能力。数据集包含20种语言，数据分割对应这些语言。数据来源主要是英文数据集，其他语言的数据通过Google Translate API生成。数据集采用Apache 2.0许可证，并提供了详细的引用信息。

提供机构：

Polyglot-or-Not

原始信息汇总

数据集概述

数据集名称

名称: Polyglot or Not? Fact-Completion Benchmark
别名: 无

数据集描述

目的: 用于评估多语言百科知识从基础语言模型中的检索能力。
测试方法: 通过对比模型对事实的预测概率与错误预测的平均概率来评估模型对特定事实的掌握程度。

数据集特征

语言创造者: 专家生成和机器生成
多语言性: 多语言
大小: 100K<n<1M
任务类别: 文本生成、填充掩码、文本到文本生成

数据集内容

特征:
- dataset_id: 字符串
- stem: 字符串
- true: 字符串
- false: 字符串
- relation: 字符串
- subject: 字符串
- object: 字符串
分割:
- 英语: 26254个例子
- 西班牙语: 18786个例子
- 法语: 18395个例子
- 俄语: 3289个例子
- 葡萄牙语: 22974个例子
- 德语: 16287个例子
- 意大利语: 20448个例子
- 乌克兰语: 7918个例子
- 波兰语: 9484个例子
- 罗马尼亚语: 17568个例子
- 捷克语: 9427个例子
- 保加利亚语: 20577个例子
- 瑞典语: 21576个例子
- 塞尔维亚语: 5426个例子
- 匈牙利语: 4650个例子
- 克罗地亚语: 7358个例子
- 丹麦语: 23365个例子
- 斯洛文尼亚语: 7873个例子
- 荷兰语: 22590个例子
- 加泰罗尼亚语: 18898个例子

数据集语言

支持语言: 英语、法语、西班牙语、德语、乌克兰语、保加利亚语、加泰罗尼亚语、丹麦语、克罗地亚语、匈牙利语、意大利语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、俄语、斯洛文尼亚语、塞尔维亚语、瑞典语、捷克语

数据集大小

下载大小: 27090207字节
数据集大小: 52358225字节

许可证

许可证: Apache 2.0

引用信息

@misc{schott2023polyglot, doi = {10.48550/arXiv.2305.13675}, title={Polyglot or Not? Measuring Multilingual Encyclopedic Knowledge Retrieval from Foundation Language Models}, author={Tim Schott and Daniel Furman and Shreshta Bhat}, year={2023}, eprint={2305.13675, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集