BSC-LT/bsc-dolly-15k-en
收藏Hugging Face2023-12-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BSC-LT/bsc-dolly-15k-en
下载链接
链接失效反馈官方服务:
资源简介:
BSC Dolly 15k EN数据集是基于Argilla Dolly v2英文版本创建的,提供了两个子集:annotated和filtered。annotated子集包含标注了潜在问题的实例,而filtered子集仅包含未观察到问题的实例。数据集包含多个特征,如id、类别、指令、响应、上下文和标签。注释过程中,分析了任务分类、上下文的使用、错误类别、任务混淆等问题,并进行了相应的处理,如清理文本、移除重复实例等。
BSC Dolly 15k EN数据集是基于Argilla Dolly v2英文版本创建的,提供了两个子集:annotated和filtered。annotated子集包含标注了潜在问题的实例,而filtered子集仅包含未观察到问题的实例。数据集包含多个特征,如id、类别、指令、响应、上下文和标签。注释过程中,分析了任务分类、上下文的使用、错误类别、任务混淆等问题,并进行了相应的处理,如清理文本、移除重复实例等。
提供机构:
BSC-LT
原始信息汇总
BSC Dolly 15k EN
我们提供了两个子集:"annotated",其中一些实例被标记了潜在问题;和"filtered",仅包含没有观察到问题的实例。
数据集配置
annotated
- 特征:
- id: int64
- category: string
- instruction: string
- response: string
- context: string
- labels: string
- 分割:
- train:
- 字节数: 11901412
- 样本数: 15015
- train:
- 下载大小: 7553519
- 数据集大小: 11901412
filtered
- 特征:
- id: int64
- category: string
- instruction: string
- response: string
- context: float64
- labels: float64
- 分割:
- train:
- 字节数: 4398990
- 样本数: 10157
- train:
- 下载大小: 2749289
- 数据集大小: 4398990
数据文件
- annotated:
- train: annotated/train-*
- filtered:
- train: filtered/train-*



