damerajee/filtering_data-v11
收藏Hugging Face2024-06-17 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/damerajee/filtering_data-v11
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征,如问题文本、元数据(包括日期、语言、语言得分、标记计数等)、提示和原始答案文本。数据集分为一个训练集,包含200,000个示例,总大小为1,545,615,750字节。下载大小为675,180,660字节。
该数据集包含多个特征,如问题文本、元数据(包括日期、语言、语言得分、标记计数等)、提示和原始答案文本。数据集分为一个训练集,包含200,000个示例,总大小为1,545,615,750字节。下载大小为675,180,660字节。
提供机构:
damerajee
原始信息汇总
数据集概述
数据集信息
特征
- question_text: 类型为字符串。
- metadata: 结构化数据,包含以下字段:
- date: 类型为int64。
- dump: 类型为字符串。
- file_path: 类型为字符串。
- language: 类型为字符串。
- language_score: 类型为float64。
- token_count: 类型为int64。
- url: 类型为字符串。
- prompt: 类型为字符串。
- orig_answer_texts: 类型为int64。
数据分割
- train: 包含200000个样本,总字节数为1545615750。
数据集大小
- 下载大小: 675180660字节。
- 数据集大小: 1545615750字节。
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:



