five

Mercury

收藏
Hugging Face2025-12-07 更新2025-12-08 收录
下载链接:
https://huggingface.co/datasets/sinamsv0/Mercury
下载链接
链接失效反馈
官方服务:
资源简介:
Mercury是一个多语言指令调优数据集,旨在提升英语(EN)、德语(DE)和波斯语(FA)三种语言的AI能力。该数据集专注于改进文本摘要、通用问答和基础代码生成任务的性能。数据集包含200多个示例,涵盖文本摘要、通用问答和基础编码三个领域,格式为指令-响应对,适用于1B参数模型的微调。数据集已用于微调WALL-E 1B模型,显示出在多语言理解、指令遵循准确性和任务特定性能方面的改进。
创建时间:
2025-12-03
原始信息汇总

Mercury数据集概述

数据集基本信息

  • 数据集名称: Mercury Dataset
  • 许可证: Apache 2.0
  • 支持语言: 波斯语 (fa)、英语 (en)、德语 (de)
  • 任务类型: 指令微调
  • 微调模型: sinamsv0/WALL-E (1B参数)

数据集概览

  • 总示例数: 200+
  • 语言: 英语、德语、波斯语
  • 领域: 文本摘要、通用问答、基础代码生成
  • 格式: 指令-响应对
  • 许可证: MIT

核心特性

  • 三语支持: 提供英语、德语和波斯语的并行示例
  • 任务多样性: 涵盖三个不同但互补的领域
  • 指令微调就绪: 格式可直接用于大语言模型微调
  • 质量导向: 为有效的模型对齐而精心策划的示例
  • 紧凑高效: 针对10亿参数模型进行了优化

数据集结构

可用格式

JSON行格式: json { "question": "", "answer": "" }

任务分布

  1. 文本摘要 (40%)
    • 新闻文章
    • 技术文档
    • 对话记录
  2. 通用问答 (40%)
    • 事实性问题
    • 解释性查询
    • 比较分析
  3. 基础代码生成 (20%)
    • Python语法解释
    • 算法描述
    • 简单代码生成

使用方法

通过Hugging Face直接加载

python from datasets import load_dataset dataset = load_dataset("your-username/mercury-dataset") train_data = dataset["train"] test_data = dataset["test"]

用于微调

python from transformers import AutoModelForCausalLM, AutoTokenizer model_name = "sinamsv0/WALL-E" model = AutoModelForCausalLM.from_pretrained(model_name) tokenizer = AutoTokenizer.from_pretrained(model_name) def format_instruction(example): text = f"Instruction: {example[instruction]} " if example[input]: text += f"Input: {example[input]} " text += f"Response: {example[output]}" return {"text": text}

性能表现

该数据集已用于微调WALL-E 10亿参数模型,在以下方面显示出改进:

  • 跨英语-德语-波斯语的理解能力
  • 指令遵循准确性
  • 摘要和编码等特定任务的性能
  • 多语言响应生成

语言覆盖

  • 英语 (EN): 技术文档、编程
  • 德语 (DE): 欧洲市场应用
  • 波斯语 (FA): 中东语境、本地化人工智能

贡献指南

欢迎通过以下方式为扩展Mercury数据集做出贡献:

  1. 添加更多高质量示例
  2. 扩展到其他语言
  3. 改进现有翻译
  4. 添加新的任务类别

相关资源

  • WALL-E基础模型
  • Hugging Face数据集
  • 指令微调指南

许可证信息

本数据集根据Apache 2.0许可证发布。

搜集汇总
数据集介绍
main_image_url
构建方式
Mercury数据集的构建遵循多语言指令微调的核心目标,其内容涵盖文本摘要、通用问答及基础代码生成三大任务领域。构建过程中,研究团队精心收集并筛选了英语、德语和波斯语的平行语料,确保每个任务类别均包含高质量且具有代表性的指令-响应对。数据以JSON行格式组织,其中文本摘要部分主要源自新闻文章、技术文档与会话记录,通用问答则包含事实性查询与解释性分析,而基础代码部分聚焦于Python语法解释与简单算法描述。整个数据集经过人工校验与对齐处理,旨在为轻量化模型提供高效微调支持。
特点
Mercury数据集具备鲜明的多语言特性与任务多样性,其核心优势在于同时支持英语、德语和波斯语三种语言的平行示例,为跨语言理解与生成任务提供了坚实基础。数据集结构紧凑而高效,专门针对十亿参数规模的模型进行优化,涵盖文本摘要、通用问答及基础代码生成三大互补领域,且每个任务均经过质量筛选以确保指令遵循的准确性。此外,数据集以指令微调为导向进行格式化设计,用户可直接将其应用于大语言模型的微调流程,从而显著提升模型在多语言环境下的任务执行能力与响应质量。
使用方法
使用Mercury数据集时,用户可通过Hugging Face平台直接加载,利用其预定义的训练与测试划分进行模型开发。针对指令微调场景,建议首先加载基础模型与分词器,随后将数据集中的指令、输入及输出字段格式化为统一的文本序列,以适配自回归语言模型的训练需求。该数据集适用于提升模型在跨语言理解、文本摘要生成、问答响应及基础代码编写等方面的性能,用户可依据具体任务调整微调策略,例如通过调整损失函数或引入特定提示模板来优化多语言对齐效果。数据集的开源特性也支持社区进一步扩展语种或补充新的任务类别。
背景与挑战
背景概述
在人工智能领域,多语言指令微调数据集对于提升模型跨语言理解与任务执行能力至关重要。Mercury数据集由研究团队于近期创建,旨在通过涵盖英语、德语和波斯语的指令-响应对,增强模型在文本摘要、通用问答及基础代码生成三个核心任务上的表现。该数据集依托于WALL-E(1B参数)模型进行微调,其设计聚焦于解决多语言环境下模型对齐与泛化的研究问题,为资源相对有限的语种如波斯语提供了宝贵的训练资源,推动了多语言自然语言处理技术的发展。
当前挑战
Mercury数据集致力于应对多语言指令微调中的核心挑战,即如何使模型在文本摘要、问答及代码生成等多样化任务中,实现跨语言的高效泛化与准确响应。构建过程中的挑战包括:确保英语、德语和波斯语之间指令与响应的语义对齐与翻译质量;在有限数据规模下维持各任务领域(如技术文档摘要、事实性问答、Python代码生成)的平衡与代表性;以及针对资源较少的波斯语,克服语料稀缺与语言特性差异带来的标注与校验困难。
常用场景
经典使用场景
在自然语言处理领域,多语言指令微调数据集Mercury为研究人员提供了一个标准化的评估与训练平台,其经典使用场景聚焦于跨语言文本理解与生成任务。该数据集通过精心构建的指令-响应对,支持模型在英语、德语和波斯语三种语言上进行指令跟随能力的优化,尤其适用于文本摘要、通用问答及基础代码生成等核心任务。研究人员利用Mercury能够系统性地评估模型在多语言环境下的泛化性能,为跨语言人工智能的发展奠定数据基础。
实际应用
在实际应用层面,Mercury数据集为开发面向全球市场的多语言AI助手提供了核心训练素材。其涵盖的文本摘要功能可应用于多语言新闻聚合与文档精简,通用问答模块能支撑跨语言客服系统与知识库构建,而基础代码生成部分则有助于编程教育工具的本地化开发。特别是在波斯语等资源相对稀缺的语言环境中,Mercury能够显著提升AI服务的语言覆盖范围与质量,满足欧洲及中东地区对本地化智能应用日益增长的需求。
衍生相关工作
基于Mercury数据集,学术界与工业界衍生了一系列经典研究工作。以微调WALL-E-1B模型为代表,研究者们深入探索了紧凑型模型在多语言指令跟随任务上的潜力,相关成果为轻量级多语言AI部署提供了范例。此外,该数据集激发了跨语言迁移学习、低资源语言增强以及指令模板优化等方向的研究,部分工作进一步扩展了其语言覆盖范围与任务多样性,形成了以Mercury为基础的多语言指令微调生态系统,持续推动着开放领域对话与代码生成技术的进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作