bigscience/P3|自然语言处理数据集|数据模板数据集
收藏数据集概述
基本信息
- 标注创建者: 众包和专家生成
- 语言: 英语
- 许可证: Apache 2.0
- 多语言性: 单语种
- 大小类别: 100M < n < 1B
- 任务类别: 其他
- 数据集名称: P3
配置详情
配置: adversarial_qa_dbert_answer_the_following_q
- 特征:
inputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 18313753 字节, 10000 样本validation: 1791034 字节, 1000 样本
- 下载大小: 6288641 字节
- 数据集大小: 20104787 字节
配置: adversarial_qa_dbert_based_on
- 特征:
inputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 17580553 字节, 10000 样本validation: 1717566 字节, 1000 样本
- 下载大小: 6206744 字节
- 数据集大小: 19298119 字节
配置: adversarial_qa_dbert_generate_question
- 特征:
inputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 18552810 字节, 10000 样本validation: 1824231 字节, 1000 样本test: 1954952 字节, 1000 样本
- 下载大小: 5882604 字节
- 数据集大小: 22331993 字节
配置: adversarial_qa_dbert_question_context_answer
- 特征:
inputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 16859685 字节, 10000 样本validation: 1646118 字节, 1000 样本
- 下载大小: 6180363 字节
- 数据集大小: 18505803 字节
配置: adversarial_qa_dbert_tell_what_it_is
- 特征:
inputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 17793277 字节, 10000 样本validation: 1739418 字节, 1000 样本
- 下载大小: 6276720 字节
- 数据集大小: 19532695 字节
配置: adversarial_qa_dbidaf_answer_the_following_q
- 特征:
inputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 18273217 字节, 10000 样本validation: 1797789 字节, 1000 样本
- 下载大小: 6321670 字节
- 数据集大小: 20071006 字节
配置: adversarial_qa_dbidaf_based_on
- 特征:
inputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 17539777 字节, 10000 样本validation: 1724577 字节, 1000 样本
- 下载大小: 6247591 字节
- 数据集大小: 19264354 字节
配置: adversarial_qa_dbidaf_generate_question
- 特征:
inputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 18508967 字节, 10000 样本validation: 1830585 字节, 1000 样本test: 1925723 字节, 1000 样本
- 下载大小: 5983857 字节
- 数据集大小: 22265275 字节
配置: adversarial_qa_dbidaf_question_context_answer
- 特征:
inputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 16821505 字节, 10000 样本validation: 1652425 字节, 1000 样本
- 下载大小: 6292806 字节
- 数据集大小: 18473930 字节
配置: adversarial_qa_dbidaf_tell_what_it_is
- 特征:
inputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 17755161 字节, 10000 样本validation: 1745717 字节, 1000 样本
- 下载大小: 6250903 字节
- 数据集大小: 19500878 字节
配置: adversarial_qa_droberta_answer_the_following_q
- 特征:
inputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 18084393 字节, 10000 样本validation: 1798375 字节, 1000 样本
- 下载大小: 6223439 字节
- 数据集大小: 19882768 字节
配置: adversarial_qa_droberta_based_on
- 特征:
inputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 17352073 字节, 10000 样本validation: 1725151 字节, 1000 样本
- 下载大小: 6202901 字节
- 数据集大小: 19077224 字节
配置: adversarial_qa_droberta_generate_question
- 特征:
inputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 18257414 字节, 10000 样本validation: 1828966 字节, 1000 样本test: 1997556 字节, 1000 样本
- 下载大小: 5928633 字节
- 数据集大小: 22083936 字节
配置: adversarial_qa_droberta_question_context_answer
- 特征:
inputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 16638393 字节, 10000 样本validation: 1653815 字节, 1000 样本
- 下载大小: 6193786 字节
- 数据集大小: 18292208 字节
配置: adversarial_qa_droberta_tell_what_it_is
- 特征:
inputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 17571837 字节, 10000 样本validation: 1747043 字节, 1000 样本
- 下载大小: 6152157 字节
- 数据集大小: 19318880 字节
配置: ag_news_classify
- 特征:
answer_choices: 序列, stringinputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 79459523 字节, 120000 样本test: 5007082 字节, 7600 样本
- 下载大小: 37504540 字节
- 数据集大小: 84466605 字节
配置: ag_news_classify_question_first
- 特征:
answer_choices: 序列, stringinputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 79339523 字节, 120000 样本test: 4999482 字节, 7600 样本
- 下载大小: 37311664 字节
- 数据集大小: 84339005 字节
配置: ag_news_classify_with_choices
- 特征:
answer_choices: 序列, stringinputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 91699523 字节, 120000 样本test: 5782282 字节, 7600 样本
- 下载大小: 38377186 字节
- 数据集大小: 97481805 字节
配置: ag_news_classify_with_choices_question_first
- 特征:
answer_choices: 序列, stringinputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 91699523 字节, 120000 样本test: 5782282 字节, 7600 样本
- 下载大小: 38318638 字节
- 数据集大小: 97481805 字节
配置: ag_news_recommend
- 特征:
answer_choices: 序列, stringinputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 94039523 字节, 120000 样本test: 5930482 字节, 7600 样本
- 下载大小: 38368116 字节
- 数据集大小: 99970005 字节
配置: ag_news_which_section
- 特征:
answer_choices: 序列, stringinputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 83899523 字节, 120000 样本test: 5288282 字节, 7600 样本
- 下载大小: 37893964 字节
- 数据集大小: 89187805 字节
配置: ag_news_which_section_choices
- 特征:
answer_choices: 序列, stringinputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train: 100099523 字节, 120000 样本test: 6314282 字节, 7600 样本
- 下载大小: 39167925 字节
- 数据集大小: 106413805 字节
配置: ai2_arc_ARC_Challenge_heres_a_problem
- 特征:
answer_choices: 序列, stringinputs: 序列, int32inputs_pretokenized: 数据类型, stringtargets: 序列, int32targets_pretokenized: 数据类型, string
- 分割:
train:

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
SIMBAD Astronomical Database
SIMBAD astronomical database is the world reference database for the identification of astronomical objects and provides basic data, cross-identifications, bibliography and measurements for astronomical objects outside the solar system. Using VizieR, the catalogue service for the CDS reference collection of astronomical catalogues and tables published in academic journals and the Aladin interactive software sky atlas for access, visualization and analysis of astronomical images, surveys, catalogues, databases and related data. Simbad bibliographic survey began in 1950 for stars (at least bright stars) and in 1983 for all other objects (outside the solar system)
re3data.org 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
中国区域250米植被覆盖度数据集(2000-2024)
该数据集是中国区域2000至2024年月度植被覆盖度产品,空间分辨率250米,合成方式采用月最大值合成,每年12期,共299期。本产品采用基于归一化植被指数(NDVI)像元二分模型,根据土地利用类型确定纯植被像元值和纯裸土像元值,实现植被覆盖度计算。本产品去除湖泊、河流、冰川/永久积雪等区域。其中,NDVI数据来源于国家青藏高原科学数据中心中国区域250米归一化植被指数数据集(2000-2024)产品。通过时空变化趋势分析检验法分析,该数据集符合时间变化趋势和空间变化趋势。该数据集能够为全国区域生态质量评价、重要生态空间调查评估等工作提供数据参考。
国家青藏高原科学数据中心 收录
云浮市人口状况表信息
该数据包含了2022年至今云浮市人口状况表,指云浮市政务服务数据管理局对该信息的变动情况进行跟踪、采集、预测、分析、公布等活动。
开放广东 收录
