five

cis-lmu/m_lama

收藏
Hugging Face2025-05-14 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/cis-lmu/m_lama
下载链接
链接失效反馈
官方服务:
资源简介:
mLAMA数据集是LAMA的多语言版本,用于研究预训练语言模型在多语言环境下的知识表现。该数据集包含了53种语言的数据,涵盖了43种关系/谓词,每个语言和关系都有一组三元组。数据集通过机器翻译生成,并经过有效性检查,确保每个模板包含一个[X]和一个[Y]。该数据集可用于生成跨语言的填空查询,例如“巴黎是[MASK]的首都”。数据集的结构包括唯一标识符、行标识符、对象和主题的知识图谱ID、对象和主题的表面形式、模板、语言代码和关系ID。数据集仅包含一个标记为“测试数据”的分区。

The mLAMA dataset is the multilingual variant of LAMA, designed to investigate the knowledge performance of pre-trained language models in cross-lingual scenarios. This dataset contains data across 53 languages and encompasses 43 relations or predicates, with a set of triples for each language-relation pair. Generated via machine translation and subjected to validity checks, the dataset ensures that every template contains exactly one [X] and one [Y]. It can be used to generate cross-lingual cloze queries, such as "Paris is the capital of [MASK]". The dataset's structure includes unique identifiers, row identifiers, knowledge graph IDs of objects and subjects, surface forms of the objects and subjects, templates, language codes, and relation IDs. The dataset only includes one partition marked as "test data".
提供机构:
cis-lmu
原始信息汇总

数据集概述

数据集名称

  • 名称: MLama

数据集创建

  • 创建方式: 数据集通过机器翻译和自动处理生成,包括众包、专家生成和机器生成的方式。
  • 语言创建: 支持的语言创建方式包括众包、专家生成和机器生成。

语言支持

  • 支持语言: 数据集包含53种语言,包括但不限于af, ar, az, be等。

许可信息

  • 许可: 数据集遵循Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)许可。

多语言性

  • 多语言性: 数据集支持翻译。

大小分类

  • 大小: 数据集大小介于100K到1M之间。

源数据集

  • 源数据集: 数据集扩展自LAMA。

任务类别

  • 任务类别: 支持的任务包括问答和文本分类。
  • 具体任务: 包括开放领域问答和文本评分。

数据集结构

  • 数据实例: 每个语言和关系都有一组三元组,包括对象、谓词和主题。
  • 数据字段: 每个实例包含uuid, lineid, obj_uri, obj_label, sub_uri, sub_label, template, language, predicate_id等字段。
  • 数据分割: 数据集仅有一个标记为test的分割。

数据集使用考虑

  • 已知限制: 并非所有三元组在所有语言中都可用。

贡献者

  • 贡献者: 感谢@pdufter为数据集的添加做出贡献。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
m_lama是一个多语言数据集,用于语言模型知识探测,包含53种语言的填充空白查询和三元组数据。数据来源于多个知识图谱并通过机器翻译生成,适用于问答和文本分类任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作