Yelp|消费者评论数据集|商家信息数据集
收藏
- Yelp平台正式上线,开始为用户提供本地商业评论服务。
- Yelp首次公开发布其用户生成的评论数据集,标志着数据集的初步形成。
- Yelp数据集被广泛应用于学术研究和商业分析,成为自然语言处理和机器学习领域的重要资源。
- Yelp数据集首次包含超过100万条评论,数据规模显著扩大。
- Yelp数据集开始包含更多元化的数据类型,如用户社交关系和商业属性,丰富了数据集的内容。
- Yelp数据集被用于多个国际数据科学竞赛,进一步提升了其在学术界和工业界的影响力。
- Yelp数据集的更新频率增加,确保数据的新鲜度和时效性,满足不断变化的研究需求。
- Yelp数据集的开放性和透明度进一步提升,通过API接口提供更便捷的数据访问方式。
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
Interaction Dataset
Interaction Dataset是一个用于处理和可视化交通场景的数据集,支持轨迹预测挑战,包括三个不同的预测模型训练和测试轨道。
github 收录
CliMedBench
CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。
arXiv 收录
Internet Traffic Data (CAIDA)
该数据集包含了互联网流量的详细记录,包括IP地址、流量大小、时间戳等信息。数据主要用于网络流量分析和研究。
www.caida.org 收录
MealRec+
MealRec+数据集是由武汉理工大学研究团队创建的,旨在支持个性化和健康饮食推荐的研究。该数据集包含7280条记录,涵盖了餐食与菜品之间的关联信息,以及用户与餐食的交互数据。创建过程中,研究团队采用了模拟方法,从用户与菜品交互数据中推导出餐食与菜品的关联及用户与餐食的交互。此外,数据集还利用了世界卫生组织和英国食品标准局的两个著名营养标准来计算餐食的健康评分。MealRec+数据集的应用领域主要集中在通过分析用户偏好和餐食健康性,提供更健康的餐食推荐,以促进用户的健康饮食习惯。
arXiv 收录