five

Customer Support Twitter客服文本数据

收藏
Data Castle2022-05-19 更新2026-04-18 收录
下载链接:
https://www.datacastle.cn/dataset_description.html?type=dataset&id=1823
下载链接
链接失效反馈
官方服务:
资源简介:
#### 背景描述 Twitter 数据集上的客户支持是一个大型的现代推文和回复语料库,用于帮助自然语言理解和会话模型的创新,以及研究现代客户支持实践和影响。 自然语言仍然是我们拥有的最密集的人类经验编码,NLP 的创新加速了对这些数据的理解,但推动这种创新的数据集与当今使用的真实语言不匹配。 Twitter 上的客户支持数据集在 Twitter 上提供了消费者和客户支持代理之间的大量现代英语(主要是)对话,与其他对话文本数据集相比,它具有三个重要优势: - **专注** - 消费者联系客户支持以解决特定问题,要讨论的问题相对较少,特别是与 reddit 语料库等不受约束的对话数据集相比。 - **自然** - 这个数据集中的消费者来自比 Ubuntu 对话语料库中更广泛的部分,并且比康奈尔电影对话语料库更自然和最近使用打字文本。 - **简洁** - Twitter 的简洁导致支持代理(而不是脚本)更自然的响应,以及对问题和解决方案的中肯描述。此外,它还可以方便地为循环网络提供相对较低的消息限制大小。 #### 数据说明 数据集是 CSV,其中每一行都是一条推文。下面描述了不同的列。包含的每个对话至少有一个来自消费者的请求和至少一个来自公司的响应。可以使用入站字段计算哪些用户 ID 是公司用户 ID。 - **推文ID** - 推文的唯一匿名 ID。由 response_tweet_id 和 in_response_to_tweet_id 引用。 - **author_id** - 唯一的匿名用户 ID。数据集中的已被其关联的匿名用户 ID 替换。 - **inbound** - 推文是否“入站”到在 Twitter 上提供客户支持的公司。在为训练会话模型重新组织数据时,此功能很有用。 - **created_at** - 发送推文的日期和时间。 - **text** - 推文内容。电话号码和电子邮件地址等敏感信息将替换为 __email__ 等掩码值。 - **response_tweet_id** - 作为对此推文的响应的推文 ID,以逗号分隔。 - **in_response_to_tweet_id** - 此推文所响应的推文的 ID(如果有)。 #### 数据来源 Twitter #### 问题描述 - 我们可以预测公司的反应吗?鉴于每家公司处理的主题集有限,答案似乎是肯定的! - 请求会过时吗?与最差的公司相比,最好的公司的反应速度有多快? - 我们可以为主题聚类学习高质量的密集嵌入或相似性表示吗? - 语气如何影响客户支持对话?说对不起有用吗? - 我们能否帮助公司发现新问题,或最影响客户的问题?
提供机构:
cascomix
二维码
社区交流群
二维码
科研交流群
商业服务