insuranceqa-corpus-zh

github2019-10-14 更新2024-05-31 收录

下载链接：

https://github.com/jankim/insuranceqa-corpus-zh

下载链接

链接失效反馈

官方服务：

资源简介：

该语料库是保险领域首个开放的QA语料库，内容由现实世界的用户提出，高质量的答案由具有深度领域知识的专业人士提供。数据集分为两个部分：问答语料和问答对语料，后者经过分词和去标去停，添加label，可直接对接机器学习任务。

This corpus represents the first open QA (Question-Answer) corpus in the insurance domain, featuring questions posed by real-world users and high-quality answers provided by professionals with deep domain expertise. The dataset is divided into two parts: the QA corpus and the QA pair corpus. The latter has been tokenized, stripped of punctuation and stop words, and labeled, making it directly applicable to machine learning tasks.

创建时间：

2017-08-10

原始信息汇总

数据集概述

数据集名称

名称: insuranceqa-corpus-zh
描述: 保险行业语料库，包含从Insurance Library收集的问题和答案。

数据集内容

类型: 问答语料库
特点:
- 由现实世界的用户提出问题，高质量答案由专业人士提供。
- 分为“问答语料”和“问答对语料”两部分。
- “问答对语料”经过分词、去标、去停、添加label处理，可直接用于机器学习任务。

数据集结构

问答语料:
- 训练: 12,889问题, 21,325答案, 107,889词汇
- 验证: 2,000问题, 3,354答案, 16,931词汇
- 测试: 2,000问题, 3,308答案, 16,815词汇
- 每条数据包括中文问题、英文问题、答案正例（1-5条）和答案负例（200条）。
问答对语料:
- 基于“问答语料”处理，包括分词、去标、去停、添加label。
- 训练、验证、测试数据格式一致，包含问题Id、问题、回复和标签。
- 每个问题包含1个正例和10个负例。

数据集文件

问答语料:
- 训练: corpus/pool/train.json.gz
- 验证: corpus/pool/valid.json.gz
- 测试: corpus/pool/test.json.gz
- 答案: corpus/pool/answers.json
问答对:
- 训练、验证、测试: .txt.gz 格式，使用gzip压缩。

数据集使用

Python环境: 通过pip install --upgrade insuranceqa_data安装。
数据加载: 使用insuranceqa_data模块加载训练、验证、测试数据和答案数据。

数据集声明

本数据集基于insuranceQA翻译生成，仅供研究用途。
引用格式: InsuranceQA Corpus, Hai Liang Wang, https://github.com/Samurais/insuranceqa-corpus-zh, 07 27, 2017

搜集汇总

数据集介绍

构建方式

insuranceqa-corpus-zh数据集的构建基于Insurance Library网站上的问题和答案，经过专业人士的筛选和质量控制，确保了数据集的质量和实用性。该数据集包括问答语料和问答对语料两个部分，其中问答语料为原始英文数据翻译而来，而问答对语料则是在此基础上进一步处理，包括分词、去标点、去停用词和添加label标记，以适应机器学习模型的训练需求。

特点

该数据集在保险领域具有开创性，提供了真实世界中的用户问题和专业人士的高质量答案，为研究者和开发者提供了宝贵的资源。数据集的问答对语料经过预处理，可以直接用于机器学习任务，减少了数据预处理的工作量。此外，数据集的构建考虑了多种使用场景，如答复选择任务、阅读理解、观察学习等，具有广泛的应用潜力。

使用方法

使用该数据集时，用户可以通过Python的pip工具安装insuranceqa_data库，直接加载训练、验证和测试数据。数据集提供了中英文对照文件，方便研究者对照和理解。此外，数据集还提供了词汇表和相关统计信息，有助于用户更好地理解和处理数据。对于数据格式或分词效果有特殊需求的用户，可以直接对原始问答语料进行自定义处理。

背景与挑战

背景概述

insuranceqa-corpus-zh是一个专注于保险行业的中文问答语料库，收集自Insurance Library网站。该语料库的创建旨在为保险领域提供首个开放的QA语料库，其内容主要由现实世界用户提出的问题和专业人士提供的答案组成，具有真实的价值。自2017年起，该语料库由Hai Liang Wang等研究人员和Samurais团队共同维护，并在研究领域产生了积极影响，为保险行业的文本分析和自动问答系统的研究与开发提供了基础数据支持。

当前挑战

该数据集在构建过程中遇到的挑战主要包括：确保问题与答案的高质量匹配，处理翻译和语言差异导致的问题，以及数据预处理和格式化以适应不同的机器学习任务。此外，在研究领域，如何有效地利用该数据集解决保险行业的实际问题，如提升问答系统的准确性和响应速度，以及如何处理数据中的噪声和不确定性，都是当前面临的挑战。

常用场景

经典使用场景

在自然语言处理与机器学习领域，insuranceqa-corpus-zh语料库被广泛用于构建和训练问答系统，特别是在保险行业中的应用。该数据集包含现实世界用户提出的问题及专业人士提供的答案，其真实性为研究提供了可靠的基础。经典的使用场景包括构建能够处理保险相关咨询的自动问答机器人，以及进行问题回答的文本匹配任务。

衍生相关工作

insuranceqa-corpus-zh语料库衍生出了多项相关工作，包括但不限于在深度学习、信息检索和自然语言处理领域的研究。这些工作涉及到利用该数据集进行模型训练、性能评估以及算法创新，进一步推动了问答系统技术的发展，并促进了保险行业智能化服务的进步。

数据集最近研究