stanfordnlp/craigslist_bargains

Name: stanfordnlp/craigslist_bargains
Creator: stanfordnlp
Published: 2024-01-18 09:47:33
License: 暂无描述

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/stanfordnlp/craigslist_bargains

下载链接

链接失效反馈

官方服务：

资源简介：

CraigslistBargains数据集包含买家和卖家在Craigslist上关于商品价格的谈判对话。该数据集的目标是开发一个能够通过此类对话与人类进行谈判的代理。数据集包含超过6K的谈判对话，涵盖了多个商品类别。数据集的结构包括代理信息、对话轮次、对话行为、商品信息和对话内容等字段。数据集分为训练集、验证集和测试集，分别包含5247、597和838个样本。数据集的创建过程包括从Craigslist上抓取商品信息，并通过Amazon Mechanical Turk收集人类对话。

提供机构：

stanfordnlp

原始信息汇总

数据集概述

名称: CraigslistBargains

语言: 英语

许可证: 未知

多语言性: 单语

大小: 1K<n<10K

来源: 原始数据

任务类别:

文本生成
填充掩码

任务ID: 对话建模

论文代码ID: craigslistbargains

数据集结构

数据实例

agent_info: 包含Bottomline, Role, Target字段，分别表示底线、角色和目标价格。
agent_turn: 表示当前对话轮次的整数。
dialogue_acts: 包含intent和price字段，分别表示意图和价格。
items: 包含Category, Images, Price, Description, Title字段，分别表示类别、图片、价格、描述和标题。
utterance: 表示每个轮次的对话文本。

数据字段

agent_info: 描述参与对话的代理信息。
agent_turn: 标识当前对话轮次的代理。
dialogue_acts: 描述每个代理在每个轮次的策略。
items: 描述代理正在讨价还价的物品信息。
utterance: 对应于agent_turns中的代理的对话文本。

数据分割

训练集: 5247个例子，8538836字节。
验证集: 597个例子，966032字节。
测试集: 838个例子，1353933字节。

数据集创建

数据收集: 从sfbay.craigslist.org的6个最受欢迎的类别中抓取帖子。
对话生成: 每个帖子生成三个场景，买家的目标价格分别为列表价格的0.5x, 0.7x和0.9x。
数据集统计: 包含6682个人类-人类对话。

数据集特征

特征:
- agent_info: 包含Bottomline（字符串），Role（字符串），Target（浮点数）。
- agent_turn: 整数序列。
- dialogue_acts: 包含intent（字符串），price（浮点数）。
- utterance: 字符串序列。
- items: 包含Category（字符串），Images（字符串），Price（浮点数），Description（字符串），Title（字符串）。

数据集分割

分割详情:
- train: 5247个例子，8538836字节。
- test: 838个例子，1353933字节。
- validation: 597个例子，966032字节。

搜集汇总

数据集介绍

构建方式

该数据集通过从Craigslist网站上抓取的多个商品类别（如住房、家具、汽车、自行车、手机和电子产品）的帖子构建而成。每个帖子生成三个谈判场景，买家的目标价格分别为列表价格的0.5倍、0.7倍和0.9倍。研究团队在Amazon Mechanical Turk（AMT）上收集了6682个由人类进行的谈判对话，这些对话具有更长的对话长度和更多样化的表达，鼓励参与者在谈判中加入如免费送货或自取等附加条件，从而生成丰富的对话内容。

特点

CraigslistBargains数据集的主要特点在于其对话的多样性和复杂性。数据集包含了超过6000个谈判对话，涵盖了多个商品类别，且每个对话都包含详细的谈判策略和语言生成信息。此外，数据集中的对话不仅限于价格谈判，还涉及诸如附加服务等多样化内容，使得对话更加贴近现实生活中的谈判场景。

使用方法

该数据集适用于多种自然语言处理任务，如文本生成和对话建模。用户可以通过加载数据集的训练、验证和测试集来训练和评估模型。数据集提供了详细的对话信息，包括参与者的角色、目标价格、对话行为和商品描述等，这些信息可以帮助模型学习如何在谈判中生成合适的语言和策略。

背景与挑战

背景概述

CraigslistBargains数据集由斯坦福大学的He He、Derek Chen、Anusha Balakrishnan和Percy Liang等研究人员创建，旨在研究买卖双方在Craigslist平台上关于商品价格的谈判对话。该数据集包含超过6000个从Craigslist上抓取的谈判对话，涵盖了多个商品类别。其核心研究问题是如何在谈判对话中分离策略学习与语言生成，以开发能够与人类进行有效谈判的智能代理。该数据集的创建不仅推动了对话系统领域的发展，还为研究复杂对话策略和语言生成提供了宝贵的资源。

当前挑战

CraigslistBargains数据集面临的挑战主要集中在两个方面：一是如何有效处理谈判策略与语言生成的分离，这需要在粗略的对话行为空间中学习策略，并将其转化为基于对话历史的具体话语；二是数据集的构建过程中，如何确保对话的多样性和丰富性，包括鼓励参与者在谈判中提出如免费送货或自取等附加条件，以生成更加真实和复杂的对话。此外，数据集的标注过程中，如何通过规则系统准确生成对话行为标签也是一个重要的挑战。

常用场景

经典使用场景

CraigslistBargains数据集的经典使用场景主要集中在谈判对话的建模与生成上。该数据集通过收集来自Craigslist的超过6000个谈判对话，涵盖了多个商品类别，为研究如何在复杂语言环境中进行有效的谈判策略提供了丰富的资源。研究者可以利用该数据集训练模型，使其能够在模拟的谈判环境中生成符合策略的对话内容，从而推动对话系统在谈判领域的应用。

实际应用

CraigslistBargains数据集在实际应用中具有广泛的前景。例如，在电子商务领域，该数据集可以用于训练智能客服系统，使其能够在价格谈判中与客户进行有效沟通，提升用户体验。此外，在人力资源管理中，该数据集也可以用于模拟薪资谈判场景，帮助企业优化招聘流程。通过这些应用，数据集为自动化谈判系统的开发提供了坚实的基础。

衍生相关工作

CraigslistBargains数据集的发布激发了大量相关研究工作。例如，研究者们基于该数据集开发了多种谈判策略模型，探索了如何在不同情境下优化谈判结果。此外，该数据集还被用于研究对话系统中的语言生成技术，特别是在多轮对话中的上下文理解与生成。这些研究不仅推动了谈判对话系统的发展，还为其他领域的对话系统研究提供了宝贵的参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集