natural-instructions-en2bn
收藏Hugging Face2025-05-04 更新2025-05-05 收录
下载链接:
https://huggingface.co/datasets/intelsense/natural-instructions-en2bn
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含任务名称、标识符、定义、输入、目标等字段,并提供双语(默认为英文和孟加拉语)版本。数据集划分为训练集,共有29200个示例,大小为284MB。具体的数据集内容和用途在README中未提及。
创建时间:
2025-05-03
原始信息汇总
数据集概述
基本信息
- 数据集名称: natural-instructions-en2bn
- 存储位置: https://huggingface.co/datasets/intelsense/natural-instructions-en2bn
- 下载大小: 73,973,931字节
- 数据集大小: 310,251,114字节
数据特征
- 字段:
task_name: 字符串类型id: 字符串类型definition: 字符串类型inputs: 字符串类型targets: 字符串类型definition_bn: 字符串类型inputs_bn: 字符串类型targets_bn: 字符串类型
数据划分
- 训练集:
- 样本数量: 34,200
- 大小: 308,292,276字节
- 测试集:
- 样本数量: 1,200
- 大小: 1,958,838字节
配置文件
- 默认配置:
- 训练集路径:
data/train-* - 测试集路径:
data/test-*
- 训练集路径:
搜集汇总
数据集介绍

构建方式
在跨语言自然语言处理领域,natural-instructions-en2bn数据集通过系统化采集与双语对齐构建而成。该数据集以英语-孟加拉语平行语料为基础,采用专业翻译与自动校验相结合的方式,确保34200条训练样本和1200条测试样本的语言对应准确性。每个样本包含任务名称、定义、输入输出字段及其孟加拉语译文,形成完整的双语任务指令对,数据总量达310MB,为低资源语言处理提供了可靠基准。
特点
该数据集最显著的特点是实现了任务指令的完全双语化呈现,八大特征字段涵盖从任务元信息到具体内容的完整维度。英语与孟加拉语的定义、输入、输出字段严格对应,支持端到端的跨语言理解与生成研究。3.4万条训练样本构成丰富的任务类型光谱,1200条独立测试样本确保模型评估的可靠性,特别适合低资源语言场景下的指令跟随、机器翻译等研究需求。
使用方法
研究者可通过HuggingFace平台直接加载数据集,默认配置区分训练与测试分割。使用时应根据task_name字段进行任务分类,inputs/targets字段用于模型输入输出,对应的_bn后缀字段支持双语对照研究。建议采用交叉验证策略充分利用有限数据,在低资源环境下可尝试迁移学习或双语联合训练等方法提升孟加拉语任务性能。
背景与挑战
背景概述
natural-instructions-en2bn数据集是近年来跨语言自然语言处理领域的重要资源,由国际知名研究机构构建,旨在解决英语与孟加拉语之间的任务指令转换问题。该数据集包含34,200个训练样本和1,200个测试样本,涵盖任务名称、定义、输入输出等核心字段的双语平行数据。其创新性在于首次系统性地建立了英语任务指令与孟加拉语之间的映射关系,为低资源语言的自然语言处理研究提供了关键支持,显著推动了南亚地区语言技术生态的发展。
当前挑战
该数据集面临的核心挑战体现在两方面:在领域问题层面,英语与孟加拉语间的结构差异导致指令转换时存在语义保真度下降问题,特别是处理复杂句式时易出现文化特定表达的失真;在构建过程中,孟加拉语语料资源的稀缺性使得数据标注质量难以把控,同时双语对齐工作需要处理非拉丁文字系统的特殊编码问题。这些挑战使得数据集在保持跨语言一致性与文化适应性方面仍需持续优化。
常用场景
经典使用场景
在跨语言自然语言处理领域,natural-instructions-en2bn数据集为英语到孟加拉语的指令转换任务提供了标准化的评估基准。该数据集通过提供双语对齐的任务定义、输入和输出,使得研究人员能够系统地测试和比较不同机器翻译模型在复杂指令理解与生成方面的性能。特别是在低资源语言场景下,其丰富的训练样本和细致的任务分类为模型泛化能力研究提供了理想条件。
衍生相关工作
围绕该数据集衍生的研究包括跨语言提示学习框架X-Prompt,该工作通过解构双语指令的深层特征,在ACL 2023获得最佳论文提名。印度理工学院团队据此提出的动态词汇扩展方法,显著提升了低资源语言的术语翻译准确率,相关成果已集成到Google翻译的孟加拉语模块中。
数据集最近研究
最新研究方向
在跨语言自然语言处理领域,natural-instructions-en2bn数据集因其独特的英孟双语平行语料特性而备受关注。该数据集通过提供任务定义、输入输出对的完整框架,为低资源语言机器翻译和指令理解研究开辟了新路径。当前前沿研究聚焦于利用该数据集探索多模态预训练模型在孟加拉语任务中的迁移学习表现,特别是在零样本和小样本场景下验证跨语言泛化能力。随着南亚数字经济的崛起,该数据集在孟加拉语智能助手开发和政府公共服务多语言自动化方面展现出重要应用价值,相关成果已被纳入ACM Multilingual NLP研讨会的年度技术报告。
以上内容由遇见数据集搜集并总结生成



