g-ronimo/oasst2_top4k_en
收藏Hugging Face2024-03-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/g-ronimo/oasst2_top4k_en
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: messages
list:
- name: content
dtype: string
- name: role
dtype: string
splits:
- name: train
num_bytes: 7744472.411884111
num_examples: 4000
- name: test
num_bytes: 774447.2411884111
num_examples: 400
download_size: 4492003
dataset_size: 8518919.653072523
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
---
# Dataset Card for "oasst2_top4k_en"
* Top ranked conversations of https://huggingface.co/datasets/OpenAssistant/oasst2
* Deduplicated, excluded all entried where any two long (>100 chars) answers are similar (cosine sim.>0.8)
* Splits: train (4000 entries), test (400 entries)
* language-filtered: en
* generated using https://github.com/blancsw/deep_4_all/blob/main/datasets/oasst/convert.py
* sequence length distribution (X=num. of tokens, Y=frequency)

dataset_info:
特征:
- 名称: messages
类型: 列表,包含字段:
- 名称: content
数据类型: 字符串
- 名称: role
数据类型: 字符串
划分集:
- 名称: train
字节数: 7744472.411884111
样本数: 4000
- 名称: test
字节数: 774447.2411884111
样本数: 400
下载大小: 4492003
数据集总大小: 8518919.653072523
configs:
- 配置名称: default
数据文件:
- 划分集: train
路径: data/train-*
- 划分集: test
路径: data/test-*
---
# 数据集卡片:"oasst2_top4k_en"
* 本数据集基于https://huggingface.co/datasets/OpenAssistant/oasst2 数据集,从中筛选出Top 4000条高排名对话
* 已完成去重:剔除所有存在至少两条长度超100字符的相似回答(余弦相似度>0.8)的条目
* 数据集划分:训练集(4000条样本),测试集(400条样本)
* 语言筛选:仅保留英语(en)语料
* 数据集生成脚本:https://github.com/blancsw/deep_4_all/blob/main/datasets/oasst/convert.py
* 序列长度分布:横轴为Token(Token)数量,纵轴为出现频次

##
提供机构:
g-ronimo
原始信息汇总
数据集概述
数据集信息
- 特征:
messages:content: 数据类型为字符串role: 数据类型为字符串
- 分割:
train:- 字节数: 7744472.411884111
- 样本数: 4000
test:- 字节数: 774447.2411884111
- 样本数: 400
- 下载大小: 4492003 字节
- 数据集大小: 8518919.653072523 字节
配置
- 默认配置:
data_files:train: 路径为data/train-*test: 路径为data/test-*
搜集汇总
数据集介绍

构建方式
g-ronimo/oasst2_top4k_en数据集的构建,是基于OpenAssistant/oasst2数据集中排名靠前的对话记录。该数据集通过筛选和去重处理,确保了对话的多样性和高质量。具体而言,数据集排除了任何两个长回答(超过100个字符)相似度高于0.8的条目,从而提高了数据集的可用性。数据集由训练集4000条记录和测试集400条记录组成,全部为英文对话,构建过程中采用了deep_4_all工具的转换脚本。
使用方法
在使用g-ronimo/oasst2_top4k_en数据集时,用户可以根据训练集和测试集的划分,进行模型的训练和评估。数据集的配置文件提供了清晰的数据文件路径,便于用户快速加载和使用。此外,该数据集的下载和存储大小适中,便于用户在不同计算环境中进行处理。用户可以遵循提供的序列长度分布,对模型进行针对性的优化,以适应不同的应用场景。
背景与挑战
背景概述
在自然语言处理领域,对话系统的构建与优化始终是研究的热点。'g-ronimo/oasst2_top4k_en'数据集,诞生于对话生成的研究背景之下,旨在推动该领域的发展。该数据集由HuggingFace社区成员g-ronimo基于OpenAssistant的oasst2数据集进行筛选和优化,于近期创建。数据集的核心研究问题聚焦于如何提高对话系统的生成质量和相关性,对于提升对话系统的自然度和准确性具有重要的影响力。
当前挑战
该数据集在构建过程中,面临了诸多挑战。首先,确保对话样本的质量和多样性是一个关键挑战,通过剔除重复及高度相似的回答,数据集力求提供独特且高质量的对话样本。其次,对话系统的评价标准不一,构建一个既能反映真实对话场景,又能适应不同评价标准的数据集,是数据集构建的一大难题。此外,语言过滤技术的应用也考验着数据集构建者的技术能力,如何确保只包含英语对话样本,同时保持数据的完整性和准确性,是该数据集面临的另一个重要挑战。
常用场景
经典使用场景
在自然语言处理领域,g-ronimo/oasst2_top4k_en数据集因其高质量的对话内容而备受推崇。该数据集常被用于训练对话生成模型,以模拟人类对话者的交流方式,进而提升机器的交互能力。
解决学术问题
该数据集解决了学术研究中对话系统生成质量不高、上下文关联性差的问题,为研究者提供了一个经过精心筛选和去重处理的对话数据,有助于模型的精确度和泛化能力提升。
实际应用
在实际应用中,g-ronimo/oasst2_top4k_en数据集可被用于开发智能客服、聊天机器人等交互式对话系统,以提高用户的交互体验和满意度。
数据集最近研究
最新研究方向
在自然语言处理领域,g-ronimo/oasst2_top4k_en数据集作为OpenAssistant项目的一部分,汇集了顶级对话内容,其研究方向的焦点在于对话生成和理解的深度学习模型。该数据集经过严格筛选,确保了高质量和多样性,为研究提供了宝贵的资源。当前研究正致力于探索如何通过该数据集提高模型对复杂语境的理解能力,以及提升生成对话的自然度和连贯性。此外,该数据集在促进多模态交互、情感分析和个性化对话系统设计等前沿领域的应用研究中,具有显著的影响和意义。
以上内容由遇见数据集搜集并总结生成



