korean-archive-dataset|自然语言处理数据集|韩语文本数据集
收藏数据集概述
基本信息
- 数据集名称: korean-archive-dataset
- 配置名称: baseline
特征信息
- 特征列表:
- _id: 数据类型为字符串(string)
- text: 数据类型为字符串(string)
- source: 数据类型为字符串(string)
数据分割
- 分割名称: queries
- 字节数: 2697707
- 样本数: 24000
- 分割名称: corpus
- 字节数: 45042116
- 样本数: 24000
数据大小
- 下载大小: 22212685 字节
- 数据集大小: 47739823 字节
配置详情
- 配置名称: baseline
- 数据文件:
- 分割: queries
- 路径: baseline/queries-*
- 分割: corpus
- 路径: baseline/corpus-*
- 分割: queries
- 数据文件:

China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
SHHS Sleep Heart Health Study Dataset
SHHS(Sleep Heart Health Study)数据集是一个大型多中心研究项目,旨在研究睡眠障碍与心血管疾病之间的关系。数据集包括了参与者的睡眠记录、心血管健康指标、生活习惯、遗传信息等多方面的数据。
sleepdata.org 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录
BBGRE
The Brain & Body Genetic Resource Exchange (BBGRE) provides a resource for investigating the genetic basis of neurodisability. It combines phenotype information from patients with neurodevelopmental and behavioural problems with clinical genetic data, and displays this information on the human genome map.
国家生物信息中心 收录
FAOSTAT Agricultural Data
FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。
www.fao.org 收录