insuranceqa-corpus-zh
收藏github2024-05-23 更新2024-05-31 收录
下载链接:
https://github.com/Samurais/insuranceqa-corpus-zh
下载链接
链接失效反馈官方服务:
资源简介:
该语料库包含从网站[Insurance Library](http://www.insurancelibrary.com/) 收集的问题和答案,由现实世界的用户提出,高质量的答案由具有深度领域知识的专业人士提供。数据集分为两个部分“问答语料”和“问答对语料”,适合用于答复选择任务和其他机器学习任务。
This corpus contains questions and answers collected from the website [Insurance Library](http://www.insurancelibrary.com/). The questions are raised by real-world users, while the high-quality answers are provided by professionals with in-depth domain knowledge. The dataset is divided into two parts: "Question-Answer Corpus" and "Question-Answer Pair Corpus", which is suitable for answer selection tasks and other machine learning tasks.
创建时间:
2017-07-27
原始信息汇总
保险行业语料库概述
数据集来源与内容
- 来源:数据集包含的问题和答案来自Insurance Library。
- 内容特点:
- 由现实世界的用户提出问题,答案由具有深度领域知识的专业人士提供。
- 用于答复选择任务,也可用于阅读理解、观察学习等自主学习。
数据集结构
- 分为两部分:
- 问答语料:原始英文数据翻译过来,未经处理。
- 问答对语料:基于问答语料,经过分词、去标去停,添加label,适合机器学习任务。
数据集格式与内容
-
POOL格式:
- 数据内容:每条数据包括问题的中文、英文、答案的正例和负例。
- 数据分布:
- 训练集:问题12,889条,答案21,325条,词汇107,889个。
- 验证集:问题2,000条,答案3,354条,词汇16,931个。
- 测试集:问题2,000条,答案3,308条,词汇16,815个。
- 数据文件:
- 训练集:
corpus/pool/train.json.gz - 验证集:
corpus/pool/valid.json.gz - 测试集:
corpus/pool/test.json.gz - 答案集:
corpus/pool/answers.json
- 训练集:
-
PAIR格式:
- 数据内容:包含问题Id、问题、回复和label。
- 数据分布:
- 训练集:问题12,889条,数据141,779条。
- 验证集:问题2,000条,数据22,000条。
- 测试集:问题2,000条,数据22,000条。
- 数据特点:每个问题包含10个负例和1个正例。
数据集使用
- 安装与使用:
- 通过
pip install -U insuranceqa_data安装。 - 需要设置环境变量
INSQA_DL_LICENSE并执行insuranceqa_data.download_corpus()下载数据。
- 通过
机器学习应用
声明
- 使用许可:数据集使用Chunsong Public License, version 1.0,仅限于研究用途。引用时需注明来源。
搜集汇总
数据集介绍

构建方式
该数据集的构建基于从保险行业网站[Insurance Library](http://www.insurancelibrary.com/)收集的真实用户问题及其由领域专家提供的答案。数据集分为两个主要部分:'问答语料'和'问答对语料'。'问答语料'直接从原始英文数据翻译而来,未经进一步处理;而'问答对语料'则在此基础上进行了分词、去标、去停用词及添加标签等预处理步骤,以便直接用于机器学习任务。这种双层结构的设计,既保留了原始数据的完整性,又提供了经过精细处理的版本,以满足不同研究需求。
特点
该数据集的主要特点在于其高质量和真实性。所有问题均由实际用户提出,答案则由具备深度领域知识的专家提供,确保了数据的真实价值。此外,数据集的结构设计灵活,既包含未经处理的原始问答语料,也提供经过预处理的问答对语料,便于直接应用于机器学习模型。数据集还特别标注了正例和负例答案,有助于模型训练时的正负样本区分,增强了数据集在问答系统开发中的实用性。
使用方法
使用该数据集时,首先需通过Python包管理工具pip安装相应的脚本包,并设置环境变量以获取数据访问权限。数据集提供两种格式:POOL格式和PAIR格式,其中PAIR格式更适合机器学习任务。用户可以通过加载函数如`insuranceqa.load_pairs_train()`等直接获取训练、验证和测试数据。数据集还提供了词汇表和词频统计,便于进行文本预处理和模型训练。此外,数据集支持gzip压缩,可通过zmore等命令进行数据查看,确保了数据的高效管理和使用。
背景与挑战
背景概述
保险行业语料库(insuranceqa-corpus-zh)是由Chatopera公司于2017年发布的,旨在为保险领域的自然语言处理研究提供高质量的问答数据。该数据集源自现实世界中的用户提问和专业人士的回答,具有极高的实用价值。其核心研究问题是如何通过机器学习技术,特别是深度学习,来实现保险领域的问答系统。这一数据集的发布填补了保险领域在开放QA语料库方面的空白,对推动该领域的技术进步具有重要意义。
当前挑战
构建保险行业语料库(insuranceqa-corpus-zh)过程中面临的主要挑战包括:首先,如何从海量的用户提问中筛选出高质量的问题,并确保答案的准确性和专业性。其次,数据集的翻译和处理过程中,如何保持原文的语义和上下文信息,避免信息丢失或误解。此外,数据集的格式和标注标准需满足机器学习模型的训练需求,这对数据处理技术提出了较高要求。最后,数据集的使用和分发需遵循严格的版权和使用协议,确保数据的合法性和研究的可重复性。
常用场景
经典使用场景
在保险领域,insuranceqa-corpus-zh数据集的经典使用场景主要集中在问答系统的构建与优化。该数据集通过提供大量真实用户提出的保险相关问题及其专业答案,为研究人员和开发者提供了一个宝贵的资源库。这些问答对不仅可用于训练和测试问答模型,还能通过阅读理解和自主学习的方式,使系统能够生成对未见问题的答案。
实际应用
在实际应用中,insuranceqa-corpus-zh数据集被广泛用于开发智能客服系统和保险咨询平台。通过利用该数据集训练的模型,保险公司能够提供更加精准和高效的客户服务,减少人工客服的工作负担。此外,该数据集还支持个性化保险推荐系统的开发,通过分析用户问题和需求,提供定制化的保险产品建议。
衍生相关工作
基于insuranceqa-corpus-zh数据集,研究人员和开发者已经开展了一系列相关工作。例如,开发了基于深度学习的问答模型,如CNN和LSTM,以提高问答系统的性能。此外,还出现了基于该数据集的跨语言问答系统研究,探索如何在不同语言之间实现高效的问答转换。这些工作不仅推动了保险领域的技术进步,也为其他领域的问答系统研究提供了参考。
以上内容由遇见数据集搜集并总结生成



