nguyenthanhdo/orca-unanswerable-v2.1
收藏Hugging Face2023-12-16 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/nguyenthanhdo/orca-unanswerable-v2.1
下载链接
链接失效反馈官方服务:
资源简介:
数据集nguyenthanhdo/orca-unanswerable-v2.1包含英文和越南文两个版本,每个版本包含40274个样本。数据集的特征包括id、system_prompt、question、response、question_word_count、response_word_count、from和excuse。数据集的分割包括en和vi。README文件还提供了如何使用Python代码加载、过滤和合并数据集的示例。
The dataset orca-unanswerable-v2.1 is a multilingual dataset containing both English and Vietnamese versions. It is primarily used for handling unanswerable questions and includes a series of features such as questions, responses, word counts for both questions and responses, etc. The dataset is filtered by excluding specific keywords and overly long responses to ensure data quality. Additionally, the dataset includes system prompts and excuse information, which may be useful in specific application scenarios.
提供机构:
nguyenthanhdo
原始信息汇总
数据集概述
数据集名称
orca-unanswerable-v2.1
配置信息
- 默认配置
- 数据文件路径:
- 英文(en):data/en-*
- 越南语(vi):data/vi-*
- 数据文件路径:
数据集特征
- id:字符串类型
- system_prompt:字符串类型
- question:字符串类型
- response:字符串类型
- question_word_count:64位整数类型
- response_word_count:64位整数类型
- from:字符串类型
- excuse:字符串类型
数据集分割
- 英文(en)
- 字节数:105709660.64824432
- 样本数:40274
- 越南语(vi)
- 字节数:138263396.8695503
- 样本数:40274
数据集大小
- 下载大小:131306825
- 数据集大小:243973057.5177946



