婚姻|婚姻统计数据集|社会研究数据集
收藏Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
Amazon电影评论数据集
该数据集包含从1997年8月至2012年10月期间,Amazon用户对253,059种产品的7,911,684条评论。数据集被添加了真实标签,这些标签是通过爬取/抓取Amazon.com获得的,用于分类产品。
github 收录
海天瑞声-超大规模中文多领域高质量多轮对话语料库
这是一个符合中国人表达习惯的自然对话数据集,共计约1,0000,000轮,上亿级token,包含正式&非正式风格对话,使用偏口语化自然表达。覆盖工作、生活、校园等场景,及金融、教育、娱乐、体育、汽车、科技等领域。在数据集构成上,DOTS-NLP-216包含了对真实场景的对话采集,及高度还原真实场景的模拟对话这两种方式,兼顾分布的代表性、多样性和样本规模。
魔搭社区 收录
CHARLS
中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。
charls.pku.edu.cn 收录
RETQA
RETQA是由北京师范大学创建的第一个大规模开放领域中文表格问答数据集,专门针对房地产领域。该数据集包含4932个表格和20762个问答对,涵盖16个子领域,涉及房产信息、房地产公司财务信息和土地拍卖信息。数据集通过从中国八个主要城市的公开数据源收集并清洗整理,每个表格都配有摘要标题以辅助检索。RETQA的创建过程包括表格收集、问答对生成、意图和槽标签注释以及查询重写和质量控制。该数据集主要用于解决房地产领域的开放域和长表格问答问题,推动表格问答技术的发展。
arXiv 收录