five

insuranceqa-corpus-zh|保险问答数据集|机器学习数据集

收藏
github2024-05-23 更新2024-05-31 收录
保险问答
机器学习
下载链接:
https://github.com/chatopera/insuranceqa-corpus-zh
下载链接
链接失效反馈
资源简介:
该语料库包含从网站[Insurance Library](http://www.insurancelibrary.com/) 收集的问题和答案,是保险领域首个开放的QA语料库。内容由现实世界的用户提出,高质量的答案由具有深度领域知识的专业人士提供。数据集分为两个部分‘问答语料’和‘问答对语料’,适合用于机器学习训练模型。

This corpus comprises questions and answers collected from the website [Insurance Library](http://www.insurancelibrary.com/), marking the first open QA corpus in the insurance domain. The content is derived from real-world user inquiries, with high-quality answers provided by professionals possessing in-depth domain knowledge. The dataset is divided into two sections: 'Question-Answer Corpus' and 'Question-Answer Pair Corpus', making it suitable for training machine learning models.
创建时间:
2017-07-27
原始信息汇总

保险行业语料库概述

数据集描述

  • 来源:该语料库包含从网站Insurance Library收集的问题和答案。
  • 特点
    • 由现实世界的用户提出,高质量答案由具有深度领域知识的专业人士提供。
    • 用于答复选择任务,也可用于阅读理解、观察学习等自主学习。
  • 结构:数据集分为两个部分:
    • 问答语料:原始英文数据翻译过来,未经其他处理。
    • 问答对语料:基于问答语料,进行了分词、去标去停、添加label,适合直接对接机器学习任务。

数据集内容

  • 问答语料
    • 训练集:问题12,889条,答案21,325条,词汇(英语)107,889个。
    • 验证集:问题2,000条,答案3,354条,词汇(英语)16,931个。
    • 测试集:问题2,000条,答案3,308条,词汇(英语)16,815个。
  • 问答对语料
    • 训练集:问题12,889条,数据141,779条,正例:负例 = 1:10。
    • 测试集:问题2,000条,数据22,000条,正例:负例 = 1:10。
    • 验证集:问题2,000条,数据22,000条,正例:负例 = 1:10。

数据格式

  • POOL格式
    • 包含问题的中文、英文、答案的正例和负例。
    • 数据文件:corpus/pool/train.json.gz, corpus/pool/valid.json.gz, corpus/pool/test.json.gz, corpus/pool/answers.json。
  • PAIR格式
    • 包含问题Id、问题、回复、label(正例或负例)。
    • 数据文件:train_data, test_data, valid_data。

使用许可

AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于从保险行业网站[Insurance Library](http://www.insurancelibrary.com/)收集的真实用户问题及其由领域专家提供的答案。数据集分为两个主要部分:'问答语料'和'问答对语料'。'问答语料'直接翻译自原始英文数据,未经进一步处理;而'问答对语料'则在此基础上进行了分词、去标、去停用词及添加标签等预处理步骤,以便直接用于机器学习任务。这种双层结构设计使得用户可以根据需求选择不同处理级别的数据,从而灵活应用于各种研究场景。
特点
该数据集的显著特点在于其高质量和真实性。问题由实际用户提出,答案由具有深度领域知识的专业人士提供,确保了数据的真实价值。此外,数据集的结构设计考虑了不同应用场景的需求,提供了未经处理和预处理两种格式的数据,增加了其适用性和灵活性。数据集还特别标注了正例和负例,便于进行答复选择任务,同时也支持通过阅读理解和自主学习等方式进行更深层次的模型训练。
使用方法
使用该数据集时,用户首先需通过pip安装相关脚本包,并设置环境变量以获取数据访问权限。数据集提供两种格式:POOL格式和PAIR格式,其中PAIR格式更适合机器学习任务。用户可以通过加载函数直接访问训练、测试和验证数据集,并利用提供的词汇表进行进一步处理。数据集的详细使用方法包括加载数据、处理数据格式以及利用开源项目进行模型训练。通过这些步骤,用户可以有效地利用该数据集进行保险领域的问答系统开发和研究。
背景与挑战
背景概述
保险行业语料库(insuranceqa-corpus-zh)是由Chatopera Inc.于2017年创建的,旨在为保险领域的问答系统提供高质量的训练数据。该数据集源自现实世界中的用户问题,并由具有深度领域知识的专业人士提供高质量的答案,从而确保了语料库的真实性和价值。作为保险领域首个开放的问答语料库,它不仅支持答复选择任务,还为通过阅读理解和自主学习等方法提升问答系统的性能提供了可能。
当前挑战
构建insuranceqa-corpus-zh过程中面临的主要挑战包括:首先,确保从现实用户中收集的问题具有代表性和多样性,以覆盖保险领域的广泛知识需求;其次,高质量答案的获取需要专业人士的参与,这增加了数据收集的复杂性和成本。此外,数据集的翻译和处理过程中,如何保持语义的准确性和一致性也是一个重要挑战。最后,数据集的格式和分词处理需满足机器学习模型的需求,这要求在数据预处理阶段进行精细的操作和验证。
常用场景
经典使用场景
在保险领域的自然语言处理研究中,insuranceqa-corpus-zh数据集被广泛应用于问答系统的开发与优化。该数据集通过收集真实用户提出的保险相关问题及其专业答案,为构建高效、准确的保险问答系统提供了丰富的语料支持。研究者可以利用此数据集进行问答匹配模型的训练,从而提升系统对用户查询的理解和响应能力。
解决学术问题
insuranceqa-corpus-zh数据集解决了保险领域自然语言处理中的关键问题,即如何从海量数据中提取有效信息以支持智能问答系统。通过提供高质量的问答对,该数据集帮助研究者开发和验证各种问答匹配算法,推动了保险领域智能客服技术的发展。其意义在于,它不仅提升了问答系统的准确性和效率,还为相关领域的研究提供了宝贵的数据资源。
衍生相关工作
基于insuranceqa-corpus-zh数据集,研究者们开发了多种问答系统和相关技术。例如,有研究团队利用该数据集训练了深度学习模型,显著提升了问答匹配的准确率。此外,该数据集还被用于开发保险领域的知识图谱构建工具,以及用于评估和比较不同问答算法的基准测试平台。这些衍生工作不仅丰富了保险领域的技术应用,也为其他领域的问答系统研究提供了参考。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

高质量多领域客服对话数据集

高质量多领域客服对话数据集,包含了电子商务、金融服务、电信支持等多个领域,包含丰富的问答对。旨在提供多样化的客户服务场景下的自然语言交互样本。高质量多领域客服对话数据集在大模型领域的应用能够解决以下几个关键问题: 1)聊天机器人训练:通过使用丰富的对话数据,可以训练出更加自然、流畅且能理解复杂用户意图的聊天机器人。 2)智能客服助手:能够提升客服系统的自动化水平,有效解答常见问题,减少人工客服的工作负担,提高服务效率和客户满意度。 3)多轮对话系统开发:支持构建能够进行连贯、上下文相关的多轮对话系统,使得机器能够在对话中保持话题一致性,提供更个性化的交互体验。 4)智能推荐系统:利用对话数据中的用户偏好和行为模式,改进推荐算法,实现更精准的内容和服务推荐。 5)知识库构建:有助于自动或半自动地构建和维护企业或特定领域的知识图谱,为用户提供准确的信息查询服务。 6)语言模型预训练:可以作为预训练数据,帮助语言模型学习多样化的语言结构和表达方式,增强模型的语言理解和生成能力。

北京市数据知识产权 收录

TruckV2X

TruckV2X数据集是首个以卡车为中心的多模态和多代理协作感知数据集,旨在解决卡车在自动驾驶中面临的独特感知挑战。该数据集利用LiDAR和摄像头进行多模态感知,并包括拖拉机、拖车、CAV和RSU等多代理协作。数据集提供了64个场景,包括88,396帧LiDAR点云、一百万张相机图像和1.18百万个3D边界框注释。该数据集为开发具有增强遮挡处理能力的协作感知系统奠定了基础,并加速了多代理自动驾驶卡车系统的部署。

arXiv 收录

Tropicos

Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

UniProt

UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。

www.uniprot.org 收录