five

BSC-LT/bsc-dolly-15k-en

收藏
Hugging Face2023-12-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BSC-LT/bsc-dolly-15k-en
下载链接
链接失效反馈
官方服务:
资源简介:
BSC Dolly 15k EN数据集是基于Argilla Dolly v2英文版本创建的,提供了两个子集:annotated和filtered。annotated子集包含标注了潜在问题的实例,而filtered子集仅包含未观察到问题的实例。数据集包含多个特征,如id、类别、指令、响应、上下文和标签。注释过程中,分析了任务分类、上下文的使用、错误类别、任务混淆等问题,并进行了相应的处理,如清理文本、移除重复实例等。

BSC Dolly 15k EN数据集是基于Argilla Dolly v2英文版本创建的,提供了两个子集:annotated和filtered。annotated子集包含标注了潜在问题的实例,而filtered子集仅包含未观察到问题的实例。数据集包含多个特征,如id、类别、指令、响应、上下文和标签。注释过程中,分析了任务分类、上下文的使用、错误类别、任务混淆等问题,并进行了相应的处理,如清理文本、移除重复实例等。
提供机构:
BSC-LT
原始信息汇总

BSC Dolly 15k EN

我们提供了两个子集:"annotated",其中一些实例被标记了潜在问题;和"filtered",仅包含没有观察到问题的实例。

数据集配置

annotated

  • 特征:
    • id: int64
    • category: string
    • instruction: string
    • response: string
    • context: string
    • labels: string
  • 分割:
    • train:
      • 字节数: 11901412
      • 样本数: 15015
  • 下载大小: 7553519
  • 数据集大小: 11901412

filtered

  • 特征:
    • id: int64
    • category: string
    • instruction: string
    • response: string
    • context: float64
    • labels: float64
  • 分割:
    • train:
      • 字节数: 4398990
      • 样本数: 10157
  • 下载大小: 2749289
  • 数据集大小: 4398990

数据文件

  • annotated:
    • train: annotated/train-*
  • filtered:
    • train: filtered/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作