TIGER-Lab/WebInstructSub
收藏Hugging Face2024-10-27 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/TIGER-Lab/WebInstructSub
下载链接
链接失效反馈官方服务:
资源简介:
WebInstruct数据集是MAmmoTH2项目的一部分,主要用于通过指令调优提升大语言模型(LLM)的性能。该数据集主要来源于StackExchange和Socratic等论坛,包含高质量的问答对。数据集构建过程包括从Common Crawl中召回文档、提取问答对并进行质量优化。数据集包含多个字段,如原始问题、原始答案、优化后的问题和答案等。数据集的大小和来源也在README中进行了详细说明。
WebInstruct数据集是MAmmoTH2项目的一部分,主要用于通过指令调优提升大语言模型(LLM)的性能。该数据集主要来源于StackExchange和Socratic等论坛,包含高质量的问答对。数据集构建过程包括从Common Crawl中召回文档、提取问答对并进行质量优化。数据集包含多个字段,如原始问题、原始答案、优化后的问题和答案等。数据集的大小和来源也在README中进行了详细说明。
提供机构:
TIGER-Lab
原始信息汇总
数据集概述
数据集名称
- WebInstruct
语言
- 英语(en)
许可证
- Apache-2.0
- CC BY-NC 4.0(仅适用于来自Socratic的数据)
大小分类
- 1M<n<10M
任务分类
- 问答(question-answering)
数据集特征
- orig_question (字符串)
- orig_answer (字符串)
- question (字符串)
- answer (字符串)
- source (字符串)
- index (整数64位)
数据集拆分
- train
- 数据大小: 6215888891 字节
- 示例数量: 2335220
- 下载大小: 3509803840 字节
数据来源
- MathStackExchange
- ScienceStackExchange
- Socratic
数据集构建
- 数据集通过从Common Crawl中召回文档,提取Q-A对,并对其进行质量精炼的三步流程构建。
- 总共产生了1000万个指令-响应对。
数据集用途
- 用于提升大型语言模型(LLM)通过指令调优的性能。



