insuranceqa-corpus-zh|保险问答数据集|机器学习数据集
收藏保险行业语料库概述
数据集描述
- 来源:该语料库包含从网站Insurance Library收集的问题和答案。
- 特点:
- 由现实世界的用户提出,高质量答案由具有深度领域知识的专业人士提供。
- 用于答复选择任务,也可用于阅读理解、观察学习等自主学习。
- 结构:数据集分为两个部分:
- 问答语料:原始英文数据翻译过来,未经其他处理。
- 问答对语料:基于问答语料,进行了分词、去标去停、添加label,适合直接对接机器学习任务。
数据集内容
- 问答语料:
- 训练集:问题12,889条,答案21,325条,词汇(英语)107,889个。
- 验证集:问题2,000条,答案3,354条,词汇(英语)16,931个。
- 测试集:问题2,000条,答案3,308条,词汇(英语)16,815个。
- 问答对语料:
- 训练集:问题12,889条,数据141,779条,正例:负例 = 1:10。
- 测试集:问题2,000条,数据22,000条,正例:负例 = 1:10。
- 验证集:问题2,000条,数据22,000条,正例:负例 = 1:10。
数据格式
- POOL格式:
- 包含问题的中文、英文、答案的正例和负例。
- 数据文件:corpus/pool/train.json.gz, corpus/pool/valid.json.gz, corpus/pool/test.json.gz, corpus/pool/answers.json。
- PAIR格式:
- 包含问题Id、问题、回复、label(正例或负例)。
- 数据文件:train_data, test_data, valid_data。
使用许可
- 本数据集使用翻译insuranceQA而生成,代码发布证书Chunsong Public License, version 1.0。
- 数据仅限于研究用途,使用时需注明引用和地址。

Subway Dataset
该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。
www.kaggle.com 收录
高质量多领域客服对话数据集
高质量多领域客服对话数据集,包含了电子商务、金融服务、电信支持等多个领域,包含丰富的问答对。旨在提供多样化的客户服务场景下的自然语言交互样本。高质量多领域客服对话数据集在大模型领域的应用能够解决以下几个关键问题: 1)聊天机器人训练:通过使用丰富的对话数据,可以训练出更加自然、流畅且能理解复杂用户意图的聊天机器人。 2)智能客服助手:能够提升客服系统的自动化水平,有效解答常见问题,减少人工客服的工作负担,提高服务效率和客户满意度。 3)多轮对话系统开发:支持构建能够进行连贯、上下文相关的多轮对话系统,使得机器能够在对话中保持话题一致性,提供更个性化的交互体验。 4)智能推荐系统:利用对话数据中的用户偏好和行为模式,改进推荐算法,实现更精准的内容和服务推荐。 5)知识库构建:有助于自动或半自动地构建和维护企业或特定领域的知识图谱,为用户提供准确的信息查询服务。 6)语言模型预训练:可以作为预训练数据,帮助语言模型学习多样化的语言结构和表达方式,增强模型的语言理解和生成能力。
北京市数据知识产权 收录
TruckV2X
TruckV2X数据集是首个以卡车为中心的多模态和多代理协作感知数据集,旨在解决卡车在自动驾驶中面临的独特感知挑战。该数据集利用LiDAR和摄像头进行多模态感知,并包括拖拉机、拖车、CAV和RSU等多代理协作。数据集提供了64个场景,包括88,396帧LiDAR点云、一百万张相机图像和1.18百万个3D边界框注释。该数据集为开发具有增强遮挡处理能力的协作感知系统奠定了基础,并加速了多代理自动驾驶卡车系统的部署。
arXiv 收录
Tropicos
Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。
www.tropicos.org 收录
UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录