five

nguyenthanhdo/orca-unanswerable-v2.1

收藏
Hugging Face2023-12-16 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/nguyenthanhdo/orca-unanswerable-v2.1
下载链接
链接失效反馈
官方服务:
资源简介:
数据集nguyenthanhdo/orca-unanswerable-v2.1包含英文和越南文两个版本,每个版本包含40274个样本。数据集的特征包括id、system_prompt、question、response、question_word_count、response_word_count、from和excuse。数据集的分割包括en和vi。README文件还提供了如何使用Python代码加载、过滤和合并数据集的示例。

The dataset orca-unanswerable-v2.1 is a multilingual dataset containing both English and Vietnamese versions. It is primarily used for handling unanswerable questions and includes a series of features such as questions, responses, word counts for both questions and responses, etc. The dataset is filtered by excluding specific keywords and overly long responses to ensure data quality. Additionally, the dataset includes system prompts and excuse information, which may be useful in specific application scenarios.
提供机构:
nguyenthanhdo
原始信息汇总

数据集概述

数据集名称

orca-unanswerable-v2.1

配置信息

  • 默认配置
    • 数据文件路径:
      • 英文(en):data/en-*
      • 越南语(vi):data/vi-*

数据集特征

  • id:字符串类型
  • system_prompt:字符串类型
  • question:字符串类型
  • response:字符串类型
  • question_word_count:64位整数类型
  • response_word_count:64位整数类型
  • from:字符串类型
  • excuse:字符串类型

数据集分割

  • 英文(en)
    • 字节数:105709660.64824432
    • 样本数:40274
  • 越南语(vi)
    • 字节数:138263396.8695503
    • 样本数:40274

数据集大小

  • 下载大小:131306825
  • 数据集大小:243973057.5177946
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作