five

Align-Anything-Instruction-100K-zh|自然语言处理数据集|中文数据集数据集

收藏
huggingface2024-07-21 更新2024-12-12 收录
自然语言处理
中文数据集
下载链接:
https://huggingface.co/datasets/PKU-Alignment/Align-Anything-Instruction-100K-zh
下载链接
链接失效反馈
资源简介:
Align-Anything-Instruction-100K-zh是一个高质量的中文指令遵循数据集,包含100K问题-答案对。这些条目涵盖了总结、创作、提取、分类、角色扮演、知识问答、开放问答、推理、头脑风暴等多个类别。数据集中的50.7%来自公共数据集如Firefly和COIG,而49.3%的指令由我们精心构建并由GPT-4在专家指导下标注。每个QA对都根据特定指南由GPT-4进行后期处理,确保了数据集的高质量。
提供机构:
PKU-Alignment
创建时间:
2024-07-17
原始信息汇总

数据集卡片 Align-Anything-Instruction-100K-zh

亮点

  • 数据来源
    • Firefly (47.8%)
    • COIG (2.9%)
    • 精心构建的QA对 (49.3%)
  • 100K QA对 (中文):104,550个精心制作的指令,从多个中文数据集中精选和打磨,并使用GPT-4进一步增强QA对。
  • 注意:此数据集的数据来源和打磨方法与Align-Anything-Instruction-100K(en)不同,并非直接从此数据集翻译而来。

数据概述

  • 该数据集是Align-Anything的姊妹项目。
  • 提供了一个高质量的中文指令遵循数据集,包含100K个问答对,涵盖总结、创作、提取、分类、角色扮演、知识问答、开放问答、推理、头脑风暴等多个类别。
  • 100K QA对中,50.7%来自公共数据集如Firefly和COIG。其余49.3%的QA对由我们精心制作,并在专家指导下由GPT-4标注,类似于PKU-SafeRLHF数据集
  • 每个QA对都根据特定指南由GPT-4进行后处理,确保高质量的指令遵循数据集。

数据集比较

  • 使用Align-Anything-Instruction-100K-zh (50K样本)和Firefly (50K样本)训练多个基础模型(Llama2-7B, Llama3-8B, Qwen2-7B),并在Just-Eval基准上评估微调模型,将评估提示翻译成中文进行评估。
  • 模型在五个维度(有用性、清晰度、事实性、深度、参与度)上表现出色。

使用方法

  • 使用load_dataset()函数加载数据集: python from datasets import load_dataset

    dataset = load_dataset("PKU-Alignment/Align-Anything-Instruction-100K-zh")

AI搜集汇总
数据集介绍
main_image_url
构建方式
Align-Anything-Instruction-100K-zh数据集的构建过程体现了高度的专业性和精细化的数据处理流程。该数据集整合了多个公开数据集,包括Firefly和COIG,占比50.7%,其余49.3%的问答对则由研究团队精心设计,并通过GPT-4在专家指导下进行标注。每个问答对均经过GPT-4的后期处理,确保其符合特定的质量标准。这种多层次的处理流程不仅提升了数据的多样性,还显著增强了数据集的整体质量。
使用方法
使用Align-Anything-Instruction-100K-zh数据集时,用户可以通过Hugging Face的`load_dataset()`函数轻松加载数据。具体操作如下:首先导入`datasets`库,然后调用`load_dataset()`函数并指定数据集名称即可。该数据集适用于文本生成任务,尤其是基于指令的模型训练和评估。通过加载该数据集,研究人员和开发者可以快速获取高质量的中文指令数据,用于模型训练和性能评估。
背景与挑战
背景概述
Align-Anything-Instruction-100K-zh数据集由北京大学对齐研究团队(PKU-Alignment)于近期发布,旨在为中文指令跟随任务提供高质量的训练数据。该数据集包含104,550条精心构建的中文问答对,涵盖了摘要、创作、提取、分类、角色扮演、知识问答、开放问答、推理、头脑风暴等多种任务类型。数据来源包括公开数据集Firefly和COIG,以及团队自主构建的问答对,后者通过GPT-4在专家指导下进行标注和优化。该数据集的发布为中文大语言模型的指令跟随能力提供了重要支持,推动了中文自然语言处理领域的发展。
当前挑战
Align-Anything-Instruction-100K-zh数据集在构建过程中面临多重挑战。首先,中文指令跟随任务的多样性和复杂性要求数据集必须覆盖广泛的任务类型,同时确保每个问答对的高质量。其次,数据来源的多样性带来了数据一致性和标注标准的挑战,团队需要通过GPT-4进行精细的后期处理以确保数据质量。此外,如何平衡公开数据与自主构建数据的比例,以及如何通过模型评估验证数据集的有效性,也是构建过程中的关键问题。这些挑战的解决为中文指令跟随数据集的构建提供了宝贵的经验。
常用场景
经典使用场景
在自然语言处理领域,Align-Anything-Instruction-100K-zh数据集被广泛用于训练和评估中文指令跟随模型。该数据集包含10万条高质量的中文问答对,涵盖了摘要、创作、提取、分类、角色扮演、知识问答、开放问答、推理、头脑风暴等多种任务类型。研究人员利用这些数据来优化模型的指令理解和生成能力,特别是在多轮对话和复杂任务场景中,模型的表现得到了显著提升。
解决学术问题
Align-Anything-Instruction-100K-zh数据集解决了中文自然语言处理领域中的指令跟随模型训练数据稀缺和质量参差不齐的问题。通过整合公开数据集和专家指导下的GPT-4标注数据,该数据集提供了高质量、多样化的中文指令对,显著提升了模型在中文环境下的指令理解和生成能力。这一数据集为中文大语言模型的训练和评估提供了重要支持,推动了中文自然语言处理技术的发展。
实际应用
在实际应用中,Align-Anything-Instruction-100K-zh数据集被广泛用于开发智能客服、虚拟助手和教育工具等中文语言模型应用。基于该数据集训练的模型能够更好地理解用户指令,生成准确且符合上下文的回答,从而提升用户体验。此外,该数据集还为中文搜索引擎、内容生成平台和知识问答系统提供了强大的技术支持,推动了中文智能化应用的普及和发展。
数据集最近研究
最新研究方向
在自然语言处理领域,指令跟随数据集的研究正逐渐成为焦点。Align-Anything-Instruction-100K-zh数据集以其高质量的中文问答对,为大型语言模型的训练提供了丰富的资源。该数据集不仅整合了来自Firefly和COIG等公开数据集的数据,还通过GPT-4的精细标注,增强了数据的多样性和准确性。当前的研究方向主要集中在如何利用这些数据提升模型在中文环境下的理解和生成能力,特别是在多维度评估标准如帮助性、清晰度、事实性、深度和参与度上的表现。此外,该数据集的应用也推动了中文自然语言处理技术的发展,为相关领域的研究提供了新的视角和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录