huawei-noah/entity_cs
收藏Hugging Face2023-09-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/huawei-noah/entity_cs
下载链接
链接失效反馈官方服务:
资源简介:
EntityCS数据集是基于英文维基百科和Wikidata的实体信息构建的,旨在创建一个基于实体的代码切换语料库。该数据集通过利用维基百科中的wikilinks,将英文句子中的实体映射到其对应的Wikidata ID,并检索其可用的翻译。对于每个句子,检查哪些语言具有该句子中所有实体的翻译,并将这些语言视为代码切换的候选。确保所有实体在同一句子中切换到相同的目标语言,以避免包含过多语言带来的噪音。为了控制语料库的大小,每个英文句子最多生成五个代码切换句子。数据集覆盖93种语言,包括英语,并用于语言模型的中间预训练和实体中心的下游任务,如命名实体识别(NER)。
提供机构:
huawei-noah
原始信息汇总
数据集卡片 for EntityCS
数据集描述
EntityCS 数据集是通过利用英文维基百科和Wikidata中的实体信息构建的一个基于实体的代码转换语料库。具体构建过程如下:
- 使用英文维基百科的wikilinks(从一个页面链接到另一个页面的链接)。
- 使用2021年11月的英文维基百科转储,并通过WikiExtractor提取原始文本并跟踪wikilinks。
- 仅保留包含至少一个wikilink的句子,以创建实体级别的代码转换实例。
- 将每个wikilink中的实体映射到其对应的Wikidata ID,并从Wikidata中检索其可用翻译。
- 对于每个句子,检查哪些语言对所有实体都有翻译,并将其视为代码转换的候选语言。
- 确保所有实体在单个句子中都转换为相同的目标语言,避免包含过多语言的噪声。
- 为了控制语料库的大小,每个英文句子最多生成五个代码转换句子。
- 如果少于五种语言对所有实体都有翻译,则使用所有这些语言创建代码转换实例;否则,从候选语言中随机选择五种目标语言。
- 如果没有候选语言,则不进行代码转换,而是将句子保留为英文语料库的一部分。
- 最后,使用实体指示符(
<e>,</e>)包围每个实体。
支持的任务和排行榜
该数据集用于语言模型的中间预训练。在论文中,我们还进一步在实体中心的下游任务(如NER)上对模型进行微调。
语言
该数据集涵盖了93种语言,包括英语。
数据统计
| 统计量 | 数量 |
|---|---|
| 语言数量 | 93 |
| 英文句子数量 | 54,469,214 |
| 英文实体数量 | 104,593,076 |
| 平均句子长度 | 23.37 |
| 每个句子的平均实体数量 | 2 |
| 每个英文句子的代码转换句子数量 | ≤ 5 |
| 代码转换句子数量 | 231,124,422 |
| 代码转换实体数量 | 420,907,878 |
数据字段
每个实例包含4个字段:
id:每个句子的唯一IDlanguage:给定句子实体代码转换的语言en_sentence:原始英文句子cs_sentence:代码转换后的句子
在英文子集中,cs_sentence字段不存在,因为句子未进行代码转换。
数据实例示例: json { id: 19, en_sentence: The subs then enter a <en>coral reef</en> with many bright reflective colors., cs_sentence: The subs then enter a <de>Korallenriff</de> with many bright reflective colors., language: de }
数据分割
每种语言有一个单一的数据分割。您可以从每种语言中随机选择一些示例作为验证集。
限制
该工作的一个重要限制是,在进行代码转换之前,未检查实体的形态屈折。这可能导致潜在的错误,因为代码转换实体的形式可能与周围上下文不一致(例如复数形式)。虽然这种情况应该很少,因为我们只转换实体,但这应在语料库的后续版本中改进。
其次,用于构建EntityCS语料库的语言多样性受限于Wikidata和XLM-R预训练中可用语言的重叠。这一选择是为了更好地比较模型,但可以按照论文中介绍的程序,使用XLM-R未涵盖的更多语言扩展语料库。



