OECD - Health at a Glance|健康指标数据集|医疗保健系统数据集
收藏
- OECD首次发布《Health at a Glance》报告,旨在提供成员国之间健康状况和卫生系统绩效的比较分析。
- OECD对《Health at a Glance》进行了重大更新,增加了更多关于健康不平等和卫生系统效率的数据。
- 《Health at a Glance》报告首次引入非OECD成员国的数据,扩大了数据集的覆盖范围。
- OECD发布《Health at a Glance 2015》,重点关注慢性病和老龄化对卫生系统的影响。
- 《Health at a Glance 2020》报告特别关注COVID-19大流行对全球健康和卫生系统的影响,并提供了相关数据分析。
- 1Health at a Glance 2021: OECD IndicatorsOECD · 2021年
- 2Health at a Glance: Europe 2020OECD · 2020年
- 3Health at a Glance: Asia/Pacific 2018OECD · 2018年
- 4Health at a Glance: Latin America and the Caribbean 2017OECD · 2017年
- 5Health at a Glance: OECD Indicators 2019OECD · 2019年
中文人名语料库(Chinese-Names-Corpus)
本项目包含多个数据集,如中文常见人名、中文古代人名、中文姓氏等,数据大小从数千到数百万不等,语料来源广泛,经过数据清洗处理,适用于中文分词、人名识别等场景。
github 收录
giovannidemuri__sharegpt-ex50000-seed5_llama8b-er-v573-seed2-hx_256_ngt0.7_tp0.9
该数据集包含了用户与助手之间的对话,其中包含两个字段:用户发言和助手回应,均为字符串类型。训练集大小为38646852字节,共有44096条对话记录。
huggingface 收录
海天瑞声-超大规模中文多领域高质量多轮对话语料库
这是一个符合中国人表达习惯的自然对话数据集,共计约1,0000,000轮,上亿级token,包含正式&非正式风格对话,使用偏口语化自然表达。覆盖工作、生活、校园等场景,及金融、教育、娱乐、体育、汽车、科技等领域。在数据集构成上,DOTS-NLP-216包含了对真实场景的对话采集,及高度还原真实场景的模拟对话这两种方式,兼顾分布的代表性、多样性和样本规模。
魔搭社区 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
Chinese-Poetry-Corpus
本语料库收集自互联网,包含了从先秦到当代的古诗词数据,以CSV格式进行存储。经过去重后,包含诗词共计1014508首。古诗词按朝代进行划分,存储于文件夹下,命名规则为朝代.csv。每首诗词数据包含五个字段,分别为标题、朝代、作者、体裁、内容。
github 收录