indonlp/NusaX-MT|机器翻译数据集|多语言语料库数据集
收藏数据集概述
数据集基本信息
- 名称: NusaX-MT
- 标注创建者: 专家生成
- 语言创建者: 专家生成
- 许可证: CC-BY-SA-4.0
- 多语言性: 多语言
- 语言:
- ace (亚齐语)
- ban (巴厘语)
- bjn (班查尔语)
- bug (布吉语)
- en (英语)
- id (印尼语)
- jv (爪哇语)
- mad (马都拉语)
- min (米南卡保语)
- nij (恩加朱语)
- su (巽他语)
- bbc (托巴语)
- 数据集大小: 10K<n<100K
- 源数据集: 原始数据
- 任务类别: 翻译
数据集特征
- id: 字符串
- text_1: 字符串
- text_2: 字符串
- text_1_lang: 字符串
- text_2_lang: 字符串
数据集摘要
NusaX-MT 是一个高质量的多语言平行语料库,涵盖12种语言,包括印尼语、英语和10种印尼地方语言,即亚齐语、巴厘语、班查尔语、布吉语、马都拉语、米南卡保语、爪哇语、恩加朱语、巽他语和托巴语。该数据集以csv格式呈现,每种语言对应一列。
支持的任务和排行榜
- 印尼语言的机器翻译
数据集创建
策划理由
由于印尼有超过700种语言,但针对印尼语言的自然语言处理研究和资源相对匮乏。因此,我们创建了这个数据集,以支持未来对印尼未被充分代表的语言的研究。
源数据
初始数据收集和规范化
NusaX-MT 是一个由母语者专家翻译的印尼语言机器翻译数据集。
源语言生产者
数据由人类(母语者)生产。
标注
标注过程
NusaX-MT 源自 SmSA,这是印尼情感分析最大的公开可用数据集。它包含来自多个在线平台的评论和评论。为了确保数据集的质量,我们通过手动审查所有句子来过滤掉任何辱骂性语言和个人身份信息。为了确保标签分布的平衡,我们通过分层抽样随机选择了1,000个样本,然后将它们翻译成相应的语言。
标注者
印尼语和相应语言的母语者。标注者根据翻译样本的数量获得报酬。
个人和敏感信息
个人身份信息已被移除。
使用数据的注意事项
数据集的社会影响
偏见讨论
NusaX 是从评论文本中创建的。这些数据源可能包含一些偏见。
其他已知限制
无其他已知限制
附加信息
许可信息
CC-BY-SA 4.0。
- 署名 — 您必须给出适当的署名,提供指向许可证的链接,并指出是否进行了更改。您可以用任何合理的方式这样做,但不以任何方式暗示许可人认可您或您的使用。
- 相同方式共享 — 如果您 remix、变换或构建此材料,您必须基于与原始材料相同的许可证分发您的贡献。
- 无附加限制 — 您不得应用法律条款或技术措施,这些法律条款或技术措施在法律上限制他人进行许可证允许的任何事情。
引用信息
@misc{winata2022nusax, title={NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local Languages}, author={Winata, Genta Indra and Aji, Alham Fikri and Cahyawijaya, Samuel and Mahendra, Rahmad and Koto, Fajri and Romadhony, Ade and Kurniawan, Kemal and Moeljadi, David and Prasojo, Radityo Eko and Fung, Pascale and Baldwin, Timothy and Lau, Jey Han and Sennrich, Rico and Ruder, Sebastian}, year={2022}, eprint={2205.15960}, archivePrefix={arXiv}, primaryClass={cs.CL} }
贡献
感谢 @afaji 添加此数据集。

HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
Subway Dataset
该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。
www.kaggle.com 收录
FMA (Free Music Archive)
免费音乐档案 (FMA) 是一个大型数据集,用于评估音乐信息检索中的多个任务。它包含 343 天的音频,来自 16,341 位艺术家的 106,574 首曲目和 14,854 张专辑,按 161 种流派的分级分类排列。它提供完整长度和高质量的音频、预先计算的功能,以及轨道和用户级元数据、标签和自由格式的文本,例如传记。作者定义了四个子集:Full:完整数据集,Large:音频限制为 30 秒的完整数据集 从轨道中间提取的剪辑(如果短于 30 秒,则为整个轨道),Medium:选择25,000 个具有单一根流派的 30 年代剪辑,小:一个平衡的子集,包含 8,000 个 30 年代剪辑,其中 8 种根流派中的每一个都有 1,000 个剪辑。官方分为训练集、验证集和测试集(80/10/10)使用分层抽样来保留每个流派的曲目百分比。同一艺术家的歌曲只是一组的一部分。资料来源:FMA:音乐分析数据集
OpenDataLab 收录
中国逐日降水数据集(1961-2022,0.1°/0.25°/0.5°)
CHM_PRE数据集基于中国境内及周边1961至今共2839个站点的日降水观测,在传统的“降水背景场 + 降水比值场”的数据集构建思路上,尝试应用月值降水约束和地形特征校正,并依据中国范围内约4万个高密度站点2015–2019年的日降水量插值后数据进行精度评价。经评估认为,CHM_PRE可以较好的表征降水的空间变异性,其日值时间序列与高密度站点日值降水观测结果之间的相关系数中位数为0.78,均方根误差中位数为8.8 mm/d,KGE值中位数为0.69,与目前常用的降水数据集(CGDPA、CN05.1、CMA V2.0)有很好的一致性。 数据集的时间范围为1961年至今,空间分辨率为0.1°、0.25°和0.5°,经纬度范围为18°N–54°N, 72°E–136°E。
国家青藏高原科学数据中心 收录
糖尿病预测数据集
糖尿病相关的医学研究或者健康数据
AI_Studio 收录