Douban-Dushu-Dataset|书籍评论数据集|用户评分数据集
收藏数据集概述
数据集名称
DouBan DuShu 数据集
数据集描述
DouBan DuShu 是一个中文网站,用户可以分享关于各种书籍的评论。该数据集收集了超过3700万条来自约18000本书的短评论,涉及100万用户。评论语言风格多样,从正式到非正式均有涵盖。
数据集内容
数据集包含以下字段:
- Book Name (书名)
- User Name (用户名)
- Tag (标签)
- Comment (评论内容)
- Star (星级评价,1至5星)
- Date (评论日期)
- Like (点赞数)
数据预处理
- 将全角符号转换为半角符号
- 移除特殊符号
- 将繁体中文转换为简体中文
使用条款
- 数据集仅供学习和研究使用,未经许可不得用于任何商业目的。
- 不允许重新分发数据集。
- 如版权所有者提出要求,某些项目必须删除。
- 如需深度研究使用,请引用相关论文。
数据下载
数据集被分为4个CSV文件,可通过Google Drive和Baidu Cloud下载。
许可证
本数据集遵循Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License。

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
Global Firepower Index (GFI)
Global Firepower Index (GFI) 是一个评估全球各国军事力量的综合指数。该指数考虑了超过50个因素,包括军事预算、人口、陆地面积、海军力量、空军力量、自然资源、后勤能力、地理位置等。数据集提供了每个国家的详细评分和排名,帮助分析和比较各国的军事实力。
www.globalfirepower.com 收录
HIT-UAV
HIT-UAV数据集是由中国科学院计算技术研究所分布式系统研究中心创建,专注于无人机(UAV)基于高海拔红外热成像的目标检测。该数据集包含2898张从数百个视频中提取的43470帧红外热图像,涵盖学校、停车场、道路和游乐场等多种场景。数据集不仅提供图像,还记录了飞行高度、相机视角、日期和日光强度等关键飞行数据。每张图像均手动标注了两种类型的边界框(定向和标准),以应对航空图像中目标实例显著重叠的挑战。HIT-UAV旨在解决夜间操作和隐私问题,是首个公开可用的高海拔UAV红外热数据集,用于检测人员和车辆,适用于多种UAV应用和研究,如夜间搜索和救援任务、飞行高度与目标检测精度的关系研究等。
arXiv 收录