five

XLEnt

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/XLEnt
下载链接
链接失效反馈
官方服务:
资源简介:
该语料库是通过挖掘 CCAligned、CCMatrix 和 WikiMatrix 并行句子创建的。这三个来源本身是从 Commoncrawl Snapshots 和 Wikipedia 快照的网络数据中提取的。实体对是通过在英语句子上执行命名实体识别和打字以及将标签投影到非英语对齐的句子对来获得的。没有对语料库的准备工作提出任何知识产权要求。 XLEnt 由 120 种与英语一致的语言的平行实体提及组成。这些实体对是通过执行命名实体识别 (NER) 并从挖掘的句子对中输入英文句子来构建的。这些提取的英语实体标签和类型通过单词对齐投影到非英语句子中。单词对齐是通过将三个对齐信号((1)单词共现对齐与 FastAlign(2)使用 LASER 嵌入的语义对齐,以及(3)通过音译的语音对齐)组合成一个统一的单词对齐模型来执行的。这种词汇/语义/语音对齐方法在 120 种语言与英语配对中产生了超过 1.6 亿个对齐的实体对。认识到每个英语通常与不同目标语言的多个实体对齐,我们可以加入英语实体以获得直接配对两个非英语实体的对齐实体对(例如,阿拉伯语-法语)
提供机构:
OpenDataLab
创建时间:
2022-09-01
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作