MLRS/korpus_malti
收藏Hugging Face2025-01-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/MLRS/korpus_malti
下载链接
链接失效反馈官方服务:
资源简介:
Korpus Malti是一个马耳他语的通用语料库,包含来自不同领域/体裁的马耳他语文本。数据集主要用于文本生成和掩码语言建模任务。数据集分为两种配置:一种是默认的随机打乱数据,另一种是按领域划分的数据。数据集没有额外的注释,实例仅包含文本字段。数据集的创建者包括Albert Gatt等人,并且数据集遵循CC BY-NC-SA 4.0许可。
提供机构:
MLRS
原始信息汇总
数据集概述
基本信息
- 名称: Korpus Malti
- 语言: 马耳他语 (mt)
- 多语言性: 单语种
- 大小: 10M<n<100M
- 注释创建者: 无注释
- 语言创建者: 发现
- 来源数据集: 原始
- 任务类别:
- 文本生成
- 填充掩码
- 任务ID:
- 语言建模
- 掩码语言建模
- 许可证: CC-BY-NC-SA-4.0
数据集内容
- 描述: 该数据集包含马耳他语的各种体裁/领域的文本。
- 配置:
- 默认配置 ("shuffled"): 所有体裁的文本混合并打乱,不保留句子顺序。
- 域分割数据: 特定配置下的数据未被打乱,保留文档级别的句子顺序。
数据集使用
- 加载示例:
-
默认配置: python import datasets dataset = datasets.load_dataset("MLRS/korpus_malti")
-
特定配置 (例如 Wikipedia 部分): python import datasets dataset = datasets.load_dataset("MLRS/korpus_malti", "wiki")
-
数据集实例
-
默认配置实例: json { "text": "Din hija sentenza." }
-
域分割数据实例: json { "text": ["Din hija sentenza.", "U hawn oħra!"], }
许可证信息
- 许可证: 创意共享署名-非商业性使用-相同方式共享 4.0 国际许可 (CC-BY-NC-SA-4.0)



