huawei-noah/entity_cs

Name: huawei-noah/entity_cs
Creator: huawei-noah
Published: 2023-09-20 07:05:07
License: 暂无描述

Hugging Face2023-09-20 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/huawei-noah/entity_cs

下载链接

链接失效反馈

官方服务：

资源简介：

EntityCS数据集是基于英文维基百科和Wikidata的实体信息构建的，旨在创建一个基于实体的代码切换语料库。该数据集通过利用维基百科中的wikilinks，将英文句子中的实体映射到其对应的Wikidata ID，并检索其可用的翻译。对于每个句子，检查哪些语言具有该句子中所有实体的翻译，并将这些语言视为代码切换的候选。确保所有实体在同一句子中切换到相同的目标语言，以避免包含过多语言带来的噪音。为了控制语料库的大小，每个英文句子最多生成五个代码切换句子。数据集覆盖93种语言，包括英语，并用于语言模型的中间预训练和实体中心的下游任务，如命名实体识别（NER）。

提供机构：

huawei-noah

原始信息汇总

数据集卡片 for EntityCS

数据集描述

EntityCS 数据集是通过利用英文维基百科和Wikidata中的实体信息构建的一个基于实体的代码转换语料库。具体构建过程如下：

使用英文维基百科的wikilinks（从一个页面链接到另一个页面的链接）。
使用2021年11月的英文维基百科转储，并通过WikiExtractor提取原始文本并跟踪wikilinks。
仅保留包含至少一个wikilink的句子，以创建实体级别的代码转换实例。
将每个wikilink中的实体映射到其对应的Wikidata ID，并从Wikidata中检索其可用翻译。
对于每个句子，检查哪些语言对所有实体都有翻译，并将其视为代码转换的候选语言。
确保所有实体在单个句子中都转换为相同的目标语言，避免包含过多语言的噪声。
为了控制语料库的大小，每个英文句子最多生成五个代码转换句子。
如果少于五种语言对所有实体都有翻译，则使用所有这些语言创建代码转换实例；否则，从候选语言中随机选择五种目标语言。
如果没有候选语言，则不进行代码转换，而是将句子保留为英文语料库的一部分。
最后，使用实体指示符（<e>，</e>）包围每个实体。

支持的任务和排行榜

该数据集用于语言模型的中间预训练。在论文中，我们还进一步在实体中心的下游任务（如NER）上对模型进行微调。

语言

该数据集涵盖了93种语言，包括英语。

数据统计

统计量	数量
语言数量	93
英文句子数量	54,469,214
英文实体数量	104,593,076
平均句子长度	23.37
每个句子的平均实体数量	2
每个英文句子的代码转换句子数量	≤ 5
代码转换句子数量	231,124,422
代码转换实体数量	420,907,878

数据字段

每个实例包含4个字段：

id：每个句子的唯一ID
language：给定句子实体代码转换的语言
en_sentence：原始英文句子
cs_sentence：代码转换后的句子

在英文子集中，cs_sentence字段不存在，因为句子未进行代码转换。

数据实例示例： json { id: 19, en_sentence: The subs then enter a <en>coral reef</en> with many bright reflective colors., cs_sentence: The subs then enter a <de>Korallenriff</de> with many bright reflective colors., language: de }

数据分割

每种语言有一个单一的数据分割。您可以从每种语言中随机选择一些示例作为验证集。

限制

该工作的一个重要限制是，在进行代码转换之前，未检查实体的形态屈折。这可能导致潜在的错误，因为代码转换实体的形式可能与周围上下文不一致（例如复数形式）。虽然这种情况应该很少，因为我们只转换实体，但这应在语料库的后续版本中改进。

其次，用于构建EntityCS语料库的语言多样性受限于Wikidata和XLM-R预训练中可用语言的重叠。这一选择是为了更好地比较模型，但可以按照论文中介绍的程序，使用XLM-R未涵盖的更多语言扩展语料库。

5,000+

优质数据集

54 个

任务类型

进入经典数据集