five

argosopentech/xlent-de_en

收藏
Hugging Face2022-11-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/argosopentech/xlent-de_en
下载链接
链接失效反馈
官方服务:
资源简介:
XLEnt数据集是一个包含120种语言与英文的平行实体对的数据集,总计超过1.6亿个对齐实体对。该数据集通过挖掘CCAligned、CCMatrix和WikiMatrix的平行句子构建,使用了命名实体识别和类型标注技术,并通过词对齐方法将英文实体标签和类型投影到非英文句子中。词对齐方法结合了词共现对齐、语义对齐和音译对齐三种信号,形成了一个统一的词对齐模型。数据集的构建不涉及对原始数据的知识产权声明。

The XLEnt dataset is a parallel entity pair dataset covering 120 languages paired with English, containing a total of over 160 million aligned entity pairs. It is constructed by mining parallel sentences from CCAligned, CCMatrix and WikiMatrix, adopting named entity recognition (NER) and entity typing technologies, and projecting English entity labels and their types onto non-English sentences through a word alignment approach. This word alignment approach integrates three types of alignment signals: word co-occurrence alignment, semantic alignment and transliteration alignment, thereby forming a unified word alignment model. No intellectual property right claims are made regarding the original data used in the dataset's construction.
提供机构:
argosopentech
原始信息汇总

数据集概述

数据集名称: XLEnt

版本: v1.1

发布日期: 2021年5月23日

格式: Moses格式

内容描述: XLEnt数据集包含120种语言与英语之间的平行实体提及。该数据集通过从CCAligned、CCMatrix和WikiMatrix中挖掘平行句子创建,这些源数据来自Commoncrawl快照和Wikipedia快照。数据集中的实体对是通过对英语句子进行命名实体识别和类型标注,并将标签投影到非英语对齐的句子对上得到的。实体对是通过结合三种对齐信号((1) FastAlign的词共现对齐 (2) 使用LASER嵌入的语义对齐 (3) 通过转写实现的语音对齐)构建的统一词对齐模型得到的。这种方法产生了超过1.6亿对在120种语言中与英语对齐的实体对。

数据集来源:

  • 原始数据来自CCAligned、CCMatrix和WikiMatrix。
  • 数据处理包括命名实体识别、类型标注和词对齐。

数据集特点:

  • 包含超过1.6亿对实体对。
  • 支持120种语言与英语的对齐。
  • 使用了词共现、语义和语音三种对齐方法。

数据集链接:

  • 原始数据集链接: http://data.statmt.org/xlent/
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作