insuranceqa-corpus-zh
收藏github2024-05-23 更新2024-05-31 收录
下载链接:
https://github.com/chatopera/insuranceqa-corpus-zh
下载链接
链接失效反馈官方服务:
资源简介:
该语料库包含从网站[Insurance Library](http://www.insurancelibrary.com/) 收集的问题和答案,是保险领域首个开放的QA语料库。内容由现实世界的用户提出,高质量的答案由具有深度领域知识的专业人士提供。数据集分为两个部分‘问答语料’和‘问答对语料’,适合用于机器学习训练模型。
This corpus comprises questions and answers collected from the website [Insurance Library](http://www.insurancelibrary.com/), marking the first open QA corpus in the insurance domain. The content is derived from real-world user inquiries, with high-quality answers provided by professionals possessing in-depth domain knowledge. The dataset is divided into two sections: 'Question-Answer Corpus' and 'Question-Answer Pair Corpus', making it suitable for training machine learning models.
创建时间:
2017-07-27
原始信息汇总
保险行业语料库概述
数据集描述
- 来源:该语料库包含从网站Insurance Library收集的问题和答案。
- 特点:
- 由现实世界的用户提出,高质量答案由具有深度领域知识的专业人士提供。
- 用于答复选择任务,也可用于阅读理解、观察学习等自主学习。
- 结构:数据集分为两个部分:
- 问答语料:原始英文数据翻译过来,未经其他处理。
- 问答对语料:基于问答语料,进行了分词、去标去停、添加label,适合直接对接机器学习任务。
数据集内容
- 问答语料:
- 训练集:问题12,889条,答案21,325条,词汇(英语)107,889个。
- 验证集:问题2,000条,答案3,354条,词汇(英语)16,931个。
- 测试集:问题2,000条,答案3,308条,词汇(英语)16,815个。
- 问答对语料:
- 训练集:问题12,889条,数据141,779条,正例:负例 = 1:10。
- 测试集:问题2,000条,数据22,000条,正例:负例 = 1:10。
- 验证集:问题2,000条,数据22,000条,正例:负例 = 1:10。
数据格式
- POOL格式:
- 包含问题的中文、英文、答案的正例和负例。
- 数据文件:corpus/pool/train.json.gz, corpus/pool/valid.json.gz, corpus/pool/test.json.gz, corpus/pool/answers.json。
- PAIR格式:
- 包含问题Id、问题、回复、label(正例或负例)。
- 数据文件:train_data, test_data, valid_data。
使用许可
- 本数据集使用翻译insuranceQA而生成,代码发布证书Chunsong Public License, version 1.0。
- 数据仅限于研究用途,使用时需注明引用和地址。
搜集汇总
数据集介绍

构建方式
该数据集的构建基于从保险行业网站[Insurance Library](http://www.insurancelibrary.com/)收集的真实用户问题及其由领域专家提供的答案。数据集分为两个主要部分:'问答语料'和'问答对语料'。'问答语料'直接翻译自原始英文数据,未经进一步处理;而'问答对语料'则在此基础上进行了分词、去标、去停用词及添加标签等预处理步骤,以便直接用于机器学习任务。这种双层结构设计使得用户可以根据需求选择不同处理级别的数据,从而灵活应用于各种研究场景。
特点
该数据集的显著特点在于其高质量和真实性。问题由实际用户提出,答案由具有深度领域知识的专业人士提供,确保了数据的真实价值。此外,数据集的结构设计考虑了不同应用场景的需求,提供了未经处理和预处理两种格式的数据,增加了其适用性和灵活性。数据集还特别标注了正例和负例,便于进行答复选择任务,同时也支持通过阅读理解和自主学习等方式进行更深层次的模型训练。
使用方法
使用该数据集时,用户首先需通过pip安装相关脚本包,并设置环境变量以获取数据访问权限。数据集提供两种格式:POOL格式和PAIR格式,其中PAIR格式更适合机器学习任务。用户可以通过加载函数直接访问训练、测试和验证数据集,并利用提供的词汇表进行进一步处理。数据集的详细使用方法包括加载数据、处理数据格式以及利用开源项目进行模型训练。通过这些步骤,用户可以有效地利用该数据集进行保险领域的问答系统开发和研究。
背景与挑战
背景概述
保险行业语料库(insuranceqa-corpus-zh)是由Chatopera Inc.于2017年创建的,旨在为保险领域的问答系统提供高质量的训练数据。该数据集源自现实世界中的用户问题,并由具有深度领域知识的专业人士提供高质量的答案,从而确保了语料库的真实性和价值。作为保险领域首个开放的问答语料库,它不仅支持答复选择任务,还为通过阅读理解和自主学习等方法提升问答系统的性能提供了可能。
当前挑战
构建insuranceqa-corpus-zh过程中面临的主要挑战包括:首先,确保从现实用户中收集的问题具有代表性和多样性,以覆盖保险领域的广泛知识需求;其次,高质量答案的获取需要专业人士的参与,这增加了数据收集的复杂性和成本。此外,数据集的翻译和处理过程中,如何保持语义的准确性和一致性也是一个重要挑战。最后,数据集的格式和分词处理需满足机器学习模型的需求,这要求在数据预处理阶段进行精细的操作和验证。
常用场景
经典使用场景
在保险领域的自然语言处理研究中,insuranceqa-corpus-zh数据集被广泛应用于问答系统的开发与优化。该数据集通过收集真实用户提出的保险相关问题及其专业答案,为构建高效、准确的保险问答系统提供了丰富的语料支持。研究者可以利用此数据集进行问答匹配模型的训练,从而提升系统对用户查询的理解和响应能力。
解决学术问题
insuranceqa-corpus-zh数据集解决了保险领域自然语言处理中的关键问题,即如何从海量数据中提取有效信息以支持智能问答系统。通过提供高质量的问答对,该数据集帮助研究者开发和验证各种问答匹配算法,推动了保险领域智能客服技术的发展。其意义在于,它不仅提升了问答系统的准确性和效率,还为相关领域的研究提供了宝贵的数据资源。
衍生相关工作
基于insuranceqa-corpus-zh数据集,研究者们开发了多种问答系统和相关技术。例如,有研究团队利用该数据集训练了深度学习模型,显著提升了问答匹配的准确率。此外,该数据集还被用于开发保险领域的知识图谱构建工具,以及用于评估和比较不同问答算法的基准测试平台。这些衍生工作不仅丰富了保险领域的技术应用,也为其他领域的问答系统研究提供了参考。
以上内容由遇见数据集搜集并总结生成



