Toronto and LV datasets

github2021-12-20 更新2024-05-31 收录

下载链接：

https://github.com/GitHubLuCheng/Effects-of-Multi-Aspect-Online-Reviews-with-Unobserved-Confounders

下载链接

链接失效反馈

官方服务：

资源简介：

每个数据集（即多伦多和LV数据集）包含两个文件：.txt文件包含每个餐厅的流行时间；相关餐厅的完整评论和业务ID可以在提供的链接中下载。此外，还包括用于训练多方面情感分析分类器的数据集。

Each dataset (namely the Toronto and LV datasets) comprises two files: the .txt file contains the peak hours for each restaurant; the complete reviews and business IDs of the related restaurants can be downloaded from the provided links. Additionally, the dataset includes data for training a multi-faceted sentiment analysis classifier.

创建时间：

2021-10-05

原始信息汇总

数据集概述

数据集名称

Effects-of-Multi-Aspect-Online-Reviews-with-Unobserved-Confounders

数据集来源

用于ICWSM22论文《Effects of Multi-Aspect Online Reviews with Unobserved Confounders: Estimation and Implication》和WSDM22论文《Estimating Causal Effects of Multi-Aspect Online Reviews with Multi-Modal Proxies》。

数据集内容

包含两个子数据集：Toronto和LV。
每个子数据集包含两个文件：
- .txt文件：记录餐厅的流行时间。
- 相关信息文件：包含完整的餐厅评论和业务ID，可通过链接下载。

数据集使用

使用业务ID可在Yelp数据集中访问餐厅的其他信息（如位置）。
包含用于训练多方面情感分析分类器的数据集。

引用信息

引用格式：

@article{cheng2021effects, title={Effects of Multi-Aspect Online Reviews with Unobserved Confounders: Estimation and Implication}, author={Cheng, Lu and Guo, Ruocheng and Candan, Kasim Selcuk and Liu, Huan}, journal={arXiv preprint arXiv:2110.01746}, year={2021} }

搜集汇总

数据集介绍

构建方式

Toronto and LV数据集的构建基于多方面的在线评论分析，旨在研究未观察到的混杂因素对评论效果的影响。数据集包含两个主要部分：一是每家餐厅的繁忙时段数据，存储于.txt文件中；二是通过Yelp数据集获取的餐厅详细信息，如完整评论和商业ID。这些数据通过多模态代理方法进行整合，以支持多方面的情感分析分类器的训练。

使用方法

使用Toronto and LV数据集时，研究者首先需要下载包含餐厅繁忙时段的.txt文件，并通过提供的商业ID在Yelp数据集中查找对应的餐厅详细信息。这些信息可以用于训练多方面的情感分析分类器，或进行更深入的因果效应分析。为了确保研究的透明性和可重复性，建议在使用数据集时引用相关的学术论文。

背景与挑战

背景概述

Toronto and LV datasets是由Lu Cheng、Ruocheng Guo、Kasim Selcuk Candan和Huan Liu等研究人员于2021年创建的，旨在研究多维度在线评论对消费者行为的影响，特别是未观察到的混杂因素对因果效应估计的干扰。该数据集基于Yelp平台的多家餐厅数据，涵盖了餐厅的热门时段、评论内容及商家ID等信息，为研究者提供了丰富的多模态数据源。这些数据集在ICWSM'22和WSDM'22会议上被用于探讨多维度评论的因果效应估计问题，推动了在线评论分析与因果推断领域的交叉研究，具有重要的学术价值和应用潜力。

当前挑战

Toronto and LV数据集的研究挑战主要体现在两个方面。首先，在领域问题层面，如何准确估计多维度在线评论对消费者行为的因果效应是一个核心难题，尤其是未观察到的混杂因素可能导致估计偏差，增加了模型的复杂性。其次，在数据集构建过程中，研究人员面临数据整合与清洗的挑战，例如从Yelp平台提取的评论数据与餐厅热门时段数据的匹配问题，以及多模态数据的对齐与标注。此外，确保数据的代表性和完整性也是构建过程中的一大难点，尤其是在处理大规模在线评论时，如何有效过滤噪声数据并保留关键信息，对研究结果的可靠性至关重要。

常用场景

经典使用场景

Toronto and LV数据集在在线评论分析领域具有重要应用，特别是在研究多维度评论对消费者行为和商家表现的影响时。这些数据集包含了餐厅的流行时间、完整评论和商业ID等信息，为研究者提供了丰富的多模态数据资源。通过结合Yelp数据集，研究者可以深入分析地理位置、评论内容与餐厅表现之间的复杂关系。

解决学术问题

该数据集解决了在线评论研究中未观察到的混杂因素对因果效应估计的挑战。通过提供多模态代理数据，研究者能够更准确地估计多维度评论对消费者决策的实际影响。这一突破为理解在线评论的因果机制提供了新的视角，推动了社交媒体分析和消费者行为研究的深入发展。

实际应用

在实际应用中，Toronto and LV数据集被广泛用于优化在线平台的推荐系统和商家评分机制。通过分析评论数据与餐厅表现之间的关系，平台可以更精准地预测消费者偏好，从而提升用户体验和商家收益。此外，这些数据还为市场营销策略的制定提供了数据支持，帮助商家更好地理解消费者需求。

数据集最近研究