g-ronimo/oasst2_top4k_en

Name: g-ronimo/oasst2_top4k_en
Creator: g-ronimo
Published: 2024-03-05 05:47:30
License: 暂无描述

Hugging Face2024-03-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/g-ronimo/oasst2_top4k_en

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: messages list: - name: content dtype: string - name: role dtype: string splits: - name: train num_bytes: 7744472.411884111 num_examples: 4000 - name: test num_bytes: 774447.2411884111 num_examples: 400 download_size: 4492003 dataset_size: 8518919.653072523 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* --- # Dataset Card for "oasst2_top4k_en" * Top ranked conversations of https://huggingface.co/datasets/OpenAssistant/oasst2 * Deduplicated, excluded all entried where any two long (>100 chars) answers are similar (cosine sim.>0.8) * Splits: train (4000 entries), test (400 entries) * language-filtered: en * generated using https://github.com/blancsw/deep_4_all/blob/main/datasets/oasst/convert.py * sequence length distribution (X=num. of tokens, Y=frequency) ![image/png](https://cdn-uploads.huggingface.co/production/uploads/64da2a58c307ee5369b92d36/-Y-2a1rplmwdKZsBxQ482.png)

dataset_info: 特征: - 名称: messages 类型: 列表，包含字段： - 名称: content 数据类型: 字符串 - 名称: role 数据类型: 字符串划分集: - 名称: train 字节数: 7744472.411884111 样本数: 4000 - 名称: test 字节数: 774447.2411884111 样本数: 400 下载大小: 4492003 数据集总大小: 8518919.653072523 configs: - 配置名称: default 数据文件: - 划分集: train 路径: data/train-* - 划分集: test 路径: data/test-* --- # 数据集卡片："oasst2_top4k_en" * 本数据集基于https://huggingface.co/datasets/OpenAssistant/oasst2 数据集，从中筛选出Top 4000条高排名对话 * 已完成去重：剔除所有存在至少两条长度超100字符的相似回答（余弦相似度＞0.8）的条目 * 数据集划分：训练集（4000条样本），测试集（400条样本） * 语言筛选：仅保留英语（en）语料 * 数据集生成脚本：https://github.com/blancsw/deep_4_all/blob/main/datasets/oasst/convert.py * 序列长度分布：横轴为Token（Token）数量，纵轴为出现频次 ![图像/png](https://cdn-uploads.huggingface.co/production/uploads/64da2a58c307ee5369b92d36/-Y-2a1rplmwdKZsBxQ482.png) ##

提供机构：

g-ronimo

原始信息汇总

数据集概述

数据集信息

特征:
- messages:
  - content: 数据类型为字符串
  - role: 数据类型为字符串
分割:
- train:
  - 字节数: 7744472.411884111
  - 样本数: 4000
- test:
  - 字节数: 774447.2411884111
  - 样本数: 400
下载大小: 4492003 字节
数据集大小: 8518919.653072523 字节

配置

默认配置:
- data_files:
  - train: 路径为 data/train-*
  - test: 路径为 data/test-*

搜集汇总

数据集介绍

构建方式

g-ronimo/oasst2_top4k_en数据集的构建，是基于OpenAssistant/oasst2数据集中排名靠前的对话记录。该数据集通过筛选和去重处理，确保了对话的多样性和高质量。具体而言，数据集排除了任何两个长回答（超过100个字符）相似度高于0.8的条目，从而提高了数据集的可用性。数据集由训练集4000条记录和测试集400条记录组成，全部为英文对话，构建过程中采用了deep_4_all工具的转换脚本。

使用方法

在使用g-ronimo/oasst2_top4k_en数据集时，用户可以根据训练集和测试集的划分，进行模型的训练和评估。数据集的配置文件提供了清晰的数据文件路径，便于用户快速加载和使用。此外，该数据集的下载和存储大小适中，便于用户在不同计算环境中进行处理。用户可以遵循提供的序列长度分布，对模型进行针对性的优化，以适应不同的应用场景。

背景与挑战

背景概述

在自然语言处理领域，对话系统的构建与优化始终是研究的热点。'g-ronimo/oasst2_top4k_en'数据集，诞生于对话生成的研究背景之下，旨在推动该领域的发展。该数据集由HuggingFace社区成员g-ronimo基于OpenAssistant的oasst2数据集进行筛选和优化，于近期创建。数据集的核心研究问题聚焦于如何提高对话系统的生成质量和相关性，对于提升对话系统的自然度和准确性具有重要的影响力。

当前挑战

该数据集在构建过程中，面临了诸多挑战。首先，确保对话样本的质量和多样性是一个关键挑战，通过剔除重复及高度相似的回答，数据集力求提供独特且高质量的对话样本。其次，对话系统的评价标准不一，构建一个既能反映真实对话场景，又能适应不同评价标准的数据集，是数据集构建的一大难题。此外，语言过滤技术的应用也考验着数据集构建者的技术能力，如何确保只包含英语对话样本，同时保持数据的完整性和准确性，是该数据集面临的另一个重要挑战。

常用场景

经典使用场景

在自然语言处理领域，g-ronimo/oasst2_top4k_en数据集因其高质量的对话内容而备受推崇。该数据集常被用于训练对话生成模型，以模拟人类对话者的交流方式，进而提升机器的交互能力。

解决学术问题

该数据集解决了学术研究中对话系统生成质量不高、上下文关联性差的问题，为研究者提供了一个经过精心筛选和去重处理的对话数据，有助于模型的精确度和泛化能力提升。

实际应用

在实际应用中，g-ronimo/oasst2_top4k_en数据集可被用于开发智能客服、聊天机器人等交互式对话系统，以提高用户的交互体验和满意度。

数据集最近研究