CPHOS-dataset
收藏github2024-04-15 更新2024-05-31 收录
下载链接:
https://github.com/JingzheShi/CHOPS
下载链接
链接失效反馈官方服务:
资源简介:
我们介绍了一个实用的数据集,*CPHOS-dataset*,包括数据库、一些指导文件,以及从*CPHOS*收集的QA对,*CPHOS*是一个在线平台,用于帮助组织面向高中教师和学生的模拟物理奥林匹克竞赛。
We introduce a practical dataset, *CPHOS-dataset*, which includes a database, some instructional documents, and QA pairs collected from *CPHOS*, an online platform designed to assist in organizing simulated physics Olympiads for high school teachers and students.
创建时间:
2024-04-15
原始信息汇总
数据集概述
数据集名称
- CPHOS-dataset
数据集内容
-
数据库
- 格式:表格以json格式存储在
prepare_datasdatabase中。 - 内容:包含多个表格,如cmf_tp_admin, cmf_tp_area, cmf_tp_correct等,记录管理员、学校区域、问题和考试状态等信息。
- 提供脚本:包括数据去敏处理脚本和数据库添加脚本。
- 格式:表格以json格式存储在
-
API接口
- 格式:Python封装的SQL命令,位于
db_api。 - 内容:包括数据管理和查询API。
- 描述:API的使用说明可在
guidefiles/executable_operations.txt中找到。
- 格式:Python封装的SQL命令,位于
-
指南文件
- 格式:PDF格式,位于
guidefiles。
- 格式:PDF格式,位于
-
QA和系统查询指令
- 格式:CSV文件,位于
QAs。 - 内容:包括系统查询指令和基于指南文件的QA。
- 格式:CSV文件,位于
数据集用途
- 用于验证CHOPS架构的性能,该架构旨在利用LLMs提升或替代人工客服服务。
数据集相关文件和脚本
- 数据库初始化脚本:
add_to_database.py - 数据去敏脚本:
deal_with_*.py - API接口文件:
db_api/DataManagingApis和db_api/DataQueryApis - 指南文件:位于
guidefiles - QA和系统查询指令文件:位于
QAs下的instructions_augmented.csv和newQAs.csv
数据集运行环境
- 数据库:MySQL
- 编程语言:Python 3.8
- 操作系统:推荐Windows平台
数据集实验配置
- 配置文件:
configs.py和configs_executor_only.py - 实验脚本:
test.py和test_Eonly.py - 结果存储:默认存储在
result目录和log_*目录中。
搜集汇总
数据集介绍

构建方式
CPHOS-dataset的构建基于一个在线平台,该平台用于组织模拟物理奥林匹克竞赛,涵盖了高中教师和学生的互动。数据集包括一个数据库,其中存储了多个表格,如管理员记录、学校区域、考试状态、用户信息等,这些表格以JSON格式存储。此外,数据集还包含了指导文件和问答对,这些文件和问答对是通过对平台上的常见问题和系统指令进行收集和整理而得。数据集的构建过程中,使用了数据脱敏技术,确保了用户隐私和数据安全。
特点
CPHOS-dataset的特点在于其结构化和多样性。数据集不仅包含了详细的用户信息和系统操作记录,还提供了丰富的指导文件和问答对,这些内容有助于训练和验证基于大语言模型的客户服务系统。此外,数据集中的数据经过脱敏处理,确保了在实际应用中的隐私保护。数据集的多样性体现在其涵盖了不同类型的用户和操作,能够有效支持复杂场景下的模型训练和测试。
使用方法
使用CPHOS-dataset时,首先需要安装MySQL数据库,并通过提供的Python脚本将数据集中的表格添加到本地数据库中。随后,用户可以根据需要调整配置文件,选择不同的实验设置,如系统相关查询或指导文件相关查询。实验可以通过运行Python脚本启动,生成的结果将以CSV和TXT格式存储,便于后续分析和验证。数据集的使用方法灵活,适用于多种基于大语言模型的客户服务系统的开发和测试。
背景与挑战
背景概述
CPHOS-dataset是由清华大学和哥本哈根大学的研究人员共同创建的,旨在解决基于大语言模型(LLMs)的客户服务系统中客户档案整合不足的问题。该数据集的核心研究问题是如何在现有系统中高效利用客户档案信息,提供准确且合理的响应,同时避免有害操作。CPHOS-dataset通过模拟在线物理奥林匹克竞赛平台的场景,收集了包括数据库、指导文件和问答对在内的多种数据,以验证CHOPS架构的性能。该数据集的创建不仅推动了LLMs在客户服务领域的应用,还为相关研究提供了宝贵的实验资源。
当前挑战
CPHOS-dataset在构建过程中面临多项挑战。首先,如何在现有数据库中高效整合客户档案信息,确保LLMs能够准确访问并利用这些信息,是一个技术难点。其次,数据集的构建需要处理大量敏感信息,如用户名、学校名等,如何进行有效的数据脱敏处理以保护用户隐私,是另一个重要挑战。此外,数据集的多样性和复杂性要求LLMs在处理不同类型的查询和指令时,既能保证精度又能避免错误操作,这对模型的设计和训练提出了更高的要求。
常用场景
经典使用场景
CPHOS-dataset在客户服务领域中展现了其经典应用场景,特别是在利用大型语言模型(LLMs)进行客户服务时。该数据集通过模拟物理奥林匹克竞赛的在线平台,提供了丰富的用户信息数据库、指导文件以及问答对,使得LLMs能够高效地访问和利用这些信息,从而生成准确且合理的响应。这种场景不仅展示了LLMs在客户服务中的潜力,还为研究如何将LLMs与现有系统集成提供了宝贵的资源。
解决学术问题
CPHOS-dataset解决了当前LLM在客户服务中与客户档案集成不足的问题,并通过提供精确和合理的响应,避免了有害操作。该数据集通过模拟实际客户服务场景,验证了LLMs在客户服务中的有效性,为学术界提供了研究LLMs在复杂系统中操作能力的新视角。其意义在于推动了LLMs在实际应用中的进一步发展,特别是在需要高精度操作的客户服务领域。
衍生相关工作
基于CPHOS-dataset,许多研究工作得以展开,特别是在LLMs与客户服务系统的集成方面。例如,有研究通过该数据集验证了不同LLMs架构在客户服务中的性能差异,进一步优化了模型设计。此外,还有工作探讨了如何通过结合小型和大型LLMs来平衡性能与推理成本,为实际应用提供了新的解决方案。这些衍生工作不仅丰富了LLMs在客户服务领域的应用研究,还为未来的技术发展提供了重要参考。
以上内容由遇见数据集搜集并总结生成



