five

TIGER-Lab/WebInstructSub

收藏
Hugging Face2024-10-27 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/TIGER-Lab/WebInstructSub
下载链接
链接失效反馈
官方服务:
资源简介:
WebInstruct数据集是MAmmoTH2项目的一部分,主要用于通过指令调优提升大语言模型(LLM)的性能。该数据集主要来源于StackExchange和Socratic等论坛,包含高质量的问答对。数据集构建过程包括从Common Crawl中召回文档、提取问答对并进行质量优化。数据集包含多个字段,如原始问题、原始答案、优化后的问题和答案等。数据集的大小和来源也在README中进行了详细说明。

WebInstruct数据集是MAmmoTH2项目的一部分,主要用于通过指令调优提升大语言模型(LLM)的性能。该数据集主要来源于StackExchange和Socratic等论坛,包含高质量的问答对。数据集构建过程包括从Common Crawl中召回文档、提取问答对并进行质量优化。数据集包含多个字段,如原始问题、原始答案、优化后的问题和答案等。数据集的大小和来源也在README中进行了详细说明。
提供机构:
TIGER-Lab
原始信息汇总

数据集概述

数据集名称

  • WebInstruct

语言

  • 英语(en)

许可证

  • Apache-2.0
  • CC BY-NC 4.0(仅适用于来自Socratic的数据)

大小分类

  • 1M<n<10M

任务分类

  • 问答(question-answering)

数据集特征

  • orig_question (字符串)
  • orig_answer (字符串)
  • question (字符串)
  • answer (字符串)
  • source (字符串)
  • index (整数64位)

数据集拆分

  • train
    • 数据大小: 6215888891 字节
    • 示例数量: 2335220
    • 下载大小: 3509803840 字节

数据来源

  • MathStackExchange
  • ScienceStackExchange
  • Socratic

数据集构建

  • 数据集通过从Common Crawl中召回文档,提取Q-A对,并对其进行质量精炼的三步流程构建。
  • 总共产生了1000万个指令-响应对。

数据集用途

  • 用于提升大型语言模型(LLM)通过指令调优的性能。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作