bigscience/P3|自然语言处理数据集|数据模板数据集
收藏数据集概述
基本信息
- 标注创建者: 众包和专家生成
- 语言: 英语
- 许可证: Apache 2.0
- 多语言性: 单语种
- 大小类别: 100M < n < 1B
- 任务类别: 其他
- 数据集名称: P3
配置详情
配置: adversarial_qa_dbert_answer_the_following_q
- 特征:
inputs
: 序列, int32inputs_pretokenized
: 数据类型, stringtargets
: 序列, int32targets_pretokenized
: 数据类型, string
- 分割:
train
: 18313753 字节, 10000 样本validation
: 1791034 字节, 1000 样本
- 下载大小: 6288641 字节
- 数据集大小: 20104787 字节
配置: adversarial_qa_dbert_based_on
- 特征:
inputs
: 序列, int32inputs_pretokenized
: 数据类型, stringtargets
: 序列, int32targets_pretokenized
: 数据类型, string
- 分割:
train
: 17580553 字节, 10000 样本validation
: 1717566 字节, 1000 样本
- 下载大小: 6206744 字节
- 数据集大小: 19298119 字节
配置: adversarial_qa_dbert_generate_question
- 特征:
inputs
: 序列, int32inputs_pretokenized
: 数据类型, stringtargets
: 序列, int32targets_pretokenized
: 数据类型, string
- 分割:
train
: 18552810 字节, 10000 样本validation
: 1824231 字节, 1000 样本test
: 1954952 字节, 1000 样本
- 下载大小: 5882604 字节
- 数据集大小: 22331993 字节
配置: adversarial_qa_dbert_question_context_answer
- 特征:
inputs
: 序列, int32inputs_pretokenized
: 数据类型, stringtargets
: 序列, int32targets_pretokenized
: 数据类型, string
- 分割:
train
: 16859685 字节, 10000 样本validation
: 1646118 字节, 1000 样本
- 下载大小: 6180363 字节
- 数据集大小: 18505803 字节
配置: adversarial_qa_dbert_tell_what_it_is
- 特征:
inputs
: 序列, int32inputs_pretokenized
: 数据类型, stringtargets
: 序列, int32targets_pretokenized
: 数据类型, string
- 分割:
train
: 17793277 字节, 10000 样本validation
: 1739418 字节, 1000 样本
- 下载大小: 6276720 字节
- 数据集大小: 19532695 字节
配置: adversarial_qa_dbidaf_answer_the_following_q
- 特征:
inputs
: 序列, int32inputs_pretokenized
: 数据类型, stringtargets
: 序列, int32targets_pretokenized
: 数据类型, string
- 分割:
train
: 18273217 字节, 10000 样本validation
: 1797789 字节, 1000 样本
- 下载大小: 6321670 字节
- 数据集大小: 20071006 字节
配置: adversarial_qa_dbidaf_based_on
- 特征:
inputs
: 序列, int32inputs_pretokenized
: 数据类型, stringtargets
: 序列, int32targets_pretokenized
: 数据类型, string
- 分割:
train
: 17539777 字节, 10000 样本validation
: 1724577 字节, 1000 样本
- 下载大小: 6247591 字节
- 数据集大小: 19264354 字节
配置: adversarial_qa_dbidaf_generate_question
- 特征:
inputs
: 序列, int32inputs_pretokenized
: 数据类型, stringtargets
: 序列, int32targets_pretokenized
: 数据类型, string
- 分割:
train
: 18508967 字节, 10000 样本validation
: 1830585 字节, 1000 样本test
: 1925723 字节, 1000 样本
- 下载大小: 5983857 字节
- 数据集大小: 22265275 字节
配置: adversarial_qa_dbidaf_question_context_answer
- 特征:
inputs
: 序列, int32inputs_pretokenized
: 数据类型, stringtargets
: 序列, int32targets_pretokenized
: 数据类型, string
- 分割:
train
: 16821505 字节, 10000 样本validation
: 1652425 字节, 1000 样本
- 下载大小: 6292806 字节
- 数据集大小: 18473930 字节
配置: adversarial_qa_dbidaf_tell_what_it_is
- 特征:
inputs
: 序列, int32inputs_pretokenized
: 数据类型, stringtargets
: 序列, int32targets_pretokenized
: 数据类型, string
- 分割:
train
: 17755161 字节, 10000 样本validation
: 1745717 字节, 1000 样本
- 下载大小: 6250903 字节
- 数据集大小: 19500878 字节
配置: adversarial_qa_droberta_answer_the_following_q
- 特征:
inputs
: 序列, int32inputs_pretokenized
: 数据类型, stringtargets
: 序列, int32targets_pretokenized
: 数据类型, string
- 分割:
train
: 18084393 字节, 10000 样本validation
: 1798375 字节, 1000 样本
- 下载大小: 6223439 字节
- 数据集大小: 19882768 字节
配置: adversarial_qa_droberta_based_on
- 特征:
inputs
: 序列, int32inputs_pretokenized
: 数据类型, stringtargets
: 序列, int32targets_pretokenized
: 数据类型, string
- 分割:
train
: 17352073 字节, 10000 样本validation
: 1725151 字节, 1000 样本
- 下载大小: 6202901 字节
- 数据集大小: 19077224 字节
配置: adversarial_qa_droberta_generate_question
- 特征:
inputs
: 序列, int32inputs_pretokenized
: 数据类型, stringtargets
: 序列, int32targets_pretokenized
: 数据类型, string
- 分割:
train
: 18257414 字节, 10000 样本validation
: 1828966 字节, 1000 样本test
: 1997556 字节, 1000 样本
- 下载大小: 5928633 字节
- 数据集大小: 22083936 字节
配置: adversarial_qa_droberta_question_context_answer
- 特征:
inputs
: 序列, int32inputs_pretokenized
: 数据类型, stringtargets
: 序列, int32targets_pretokenized
: 数据类型, string
- 分割:
train
: 16638393 字节, 10000 样本validation
: 1653815 字节, 1000 样本
- 下载大小: 6193786 字节
- 数据集大小: 18292208 字节
配置: adversarial_qa_droberta_tell_what_it_is
- 特征:
inputs
: 序列, int32inputs_pretokenized
: 数据类型, stringtargets
: 序列, int32targets_pretokenized
: 数据类型, string
- 分割:
train
: 17571837 字节, 10000 样本validation
: 1747043 字节, 1000 样本
- 下载大小: 6152157 字节
- 数据集大小: 19318880 字节
配置: ag_news_classify
- 特征:
answer_choices
: 序列, stringinputs
: 序列, int32inputs_pretokenized
: 数据类型, stringtargets
: 序列, int32targets_pretokenized
: 数据类型, string
- 分割:
train
: 79459523 字节, 120000 样本test
: 5007082 字节, 7600 样本
- 下载大小: 37504540 字节
- 数据集大小: 84466605 字节
配置: ag_news_classify_question_first
- 特征:
answer_choices
: 序列, stringinputs
: 序列, int32inputs_pretokenized
: 数据类型, stringtargets
: 序列, int32targets_pretokenized
: 数据类型, string
- 分割:
train
: 79339523 字节, 120000 样本test
: 4999482 字节, 7600 样本
- 下载大小: 37311664 字节
- 数据集大小: 84339005 字节
配置: ag_news_classify_with_choices
- 特征:
answer_choices
: 序列, stringinputs
: 序列, int32inputs_pretokenized
: 数据类型, stringtargets
: 序列, int32targets_pretokenized
: 数据类型, string
- 分割:
train
: 91699523 字节, 120000 样本test
: 5782282 字节, 7600 样本
- 下载大小: 38377186 字节
- 数据集大小: 97481805 字节
配置: ag_news_classify_with_choices_question_first
- 特征:
answer_choices
: 序列, stringinputs
: 序列, int32inputs_pretokenized
: 数据类型, stringtargets
: 序列, int32targets_pretokenized
: 数据类型, string
- 分割:
train
: 91699523 字节, 120000 样本test
: 5782282 字节, 7600 样本
- 下载大小: 38318638 字节
- 数据集大小: 97481805 字节
配置: ag_news_recommend
- 特征:
answer_choices
: 序列, stringinputs
: 序列, int32inputs_pretokenized
: 数据类型, stringtargets
: 序列, int32targets_pretokenized
: 数据类型, string
- 分割:
train
: 94039523 字节, 120000 样本test
: 5930482 字节, 7600 样本
- 下载大小: 38368116 字节
- 数据集大小: 99970005 字节
配置: ag_news_which_section
- 特征:
answer_choices
: 序列, stringinputs
: 序列, int32inputs_pretokenized
: 数据类型, stringtargets
: 序列, int32targets_pretokenized
: 数据类型, string
- 分割:
train
: 83899523 字节, 120000 样本test
: 5288282 字节, 7600 样本
- 下载大小: 37893964 字节
- 数据集大小: 89187805 字节
配置: ag_news_which_section_choices
- 特征:
answer_choices
: 序列, stringinputs
: 序列, int32inputs_pretokenized
: 数据类型, stringtargets
: 序列, int32targets_pretokenized
: 数据类型, string
- 分割:
train
: 100099523 字节, 120000 样本test
: 6314282 字节, 7600 样本
- 下载大小: 39167925 字节
- 数据集大小: 106413805 字节
配置: ai2_arc_ARC_Challenge_heres_a_problem
- 特征:
answer_choices
: 序列, stringinputs
: 序列, int32inputs_pretokenized
: 数据类型, stringtargets
: 序列, int32targets_pretokenized
: 数据类型, string
- 分割:
train
:

BBGRE
The Brain & Body Genetic Resource Exchange (BBGRE) provides a resource for investigating the genetic basis of neurodisability. It combines phenotype information from patients with neurodevelopmental and behavioural problems with clinical genetic data, and displays this information on the human genome map.
国家生物信息中心 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录
YOLO-dataset
该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。
github 收录
CWD30
CWD30包含超过219,770张20种杂草和10种作物的高分辨率图像,涵盖了不同的生长阶段、多个观察角度和环境条件。这些图像是从不同地理位置和季节的多样化农业领域收集的,确保了数据集的代表性。
github 收录