five

qa-ptpt

收藏
Hugging Face2025-10-22 更新2025-10-23 收录
下载链接:
https://huggingface.co/datasets/marquesafonso/qa-ptpt
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从MQA数据集中筛选出的葡萄牙语(葡萄牙)的问题标题和答案文本。它旨在创建一个与葡萄牙语言更贴近的数据集,并包含了语义去重分割,分别对应0.7、0.8和0.9的阈值。数据集使用Creative Commons Zero v1.0 Universal版权。

This dataset consists of Portuguese (Portugal) question titles and answer texts filtered from the MQA dataset. It is designed to create a dataset more tailored to the Portuguese language, and includes semantic deduplication splits with thresholds set at 0.7, 0.8, and 0.9 respectively. This dataset is licensed under Creative Commons Zero v1.0 Universal.
创建时间:
2025-10-20
原始信息汇总

数据集概述

基本信息

  • 数据集名称: marquesafonso/qa-ptpt
  • 语言: 葡萄牙语(葡萄牙)
  • 许可证: Creative Commons Zero v1.0 Universal
  • 任务类别: 问答系统

数据来源

  • 上游数据集:
    • MQA数据集 (https://huggingface.co/datasets/clips/mqa)
    • ju-resplande/qa-pt (https://huggingface.co/datasets/ju-resplande/qa-pt)

数据集描述

该数据集是从MQA数据集经过预处理得到的葡萄牙语子集,仅包含".pt"域记录的question_title和answer_text列。创建目的是获得更符合葡萄牙(葡萄牙)语言特点的数据集。

数据特征

特征列

  • question_title: 字符串类型
  • answer_text: 字符串类型

数据分片

分片名称 样本数量 数据大小
full 1,232,296 556,210,684字节
semhashed_0.7 71,373 26,391,945字节
semhashed_0.8 181,242 65,733,853字节
semhashed_0.9 542,393 214,865,080字节

去重处理

包含基于语义去重的分片,使用sentence-transformers/static-similarity-mrl-multilingual-v1模型,阈值分别为0.7、0.8和0.9。

技术规格

  • 下载大小: 229,389,702字节
  • 数据集总大小: 863,201,562字节
搜集汇总
数据集介绍
main_image_url
构建方式
在问答系统研究领域,qa-ptpt数据集通过精心筛选机制构建而成。该数据集源自多语言问答数据集MQA,专门提取了葡萄牙语(葡萄牙变体)的问答对,仅保留问题标题与答案文本两个核心字段。构建过程中采用语义去重技术,基于sentence-transformers多语言模型计算文本相似度,并设置了0.7、0.8和0.9三个阈值划分数据子集,有效提升了数据质量与多样性。
特点
该数据集最显著的特征在于其严格的语言地域属性,所有内容均限定于葡萄牙本土语言表达。数据规模庞大,原始集合包含逾123万条问答记录,同时提供经过语义去重处理的三个子集版本,分别涵盖7万至54万不等的样本量。每个数据样本均以简洁的键值对形式呈现,问题标题与对应答案文本形成完整语义单元,为研究者提供了结构清晰的语料资源。
使用方法
研究者可通过HuggingFace平台直接加载该数据集的不同分割版本,包括完整数据集及三个语义去重子集。使用时应根据具体研究目标选择合适的数据分割,例如语义相似度研究可优先选用高阈值去重子集。数据加载后可直接应用于葡萄牙语问答系统训练、语言模型微调等自然语言处理任务,其标准化字段结构便于快速集成到现有机器学习流程中。
背景与挑战
背景概述
在自然语言处理领域,葡萄牙语问答数据资源的稀缺性长期制约着相关模型的发展。qa-ptpt数据集由研究者@marquesafonso基于多语言问答数据集MQA进行构建,通过筛选“.pt”域名下的葡萄牙语内容,形成包含123万条问答对的语料库。该数据集聚焦于欧洲葡萄牙语变体,采用语义去重技术生成不同相似度阈值的子集,为葡萄牙语问答系统、机器阅读理解等任务提供了关键数据支撑。
当前挑战
该数据集致力于解决葡萄牙语自动问答任务中面临的语言资源匮乏问题,其构建过程需应对多重挑战:原始数据中存在大量语义重复内容,需采用多语言句子嵌入模型进行精细化去重;葡萄牙语内部方言变体的差异性要求严格的地域语言特征对齐;同时,从海量多语言数据中精准提取目标域名的语料,需要设计高效的过滤机制以保证数据质量。
常用场景
经典使用场景
在葡萄牙语自然语言处理研究领域,qa-ptpt数据集作为专门针对葡萄牙(葡萄牙变体)语言的问答数据集,其最经典的使用场景是训练和评估机器阅读理解模型。该数据集通过语义去重处理,提供了不同相似度阈值的数据子集,使得研究人员能够构建更精准的问答系统,特别适用于处理葡萄牙语特有的语言结构和表达方式。
实际应用
在实际应用层面,qa-ptpt数据集能够支撑葡萄牙语智能客服系统的开发,为葡萄牙地区用户提供更准确的问题解答服务。同时,该数据集也可用于构建葡萄牙语教育辅助工具,帮助学习者通过问答形式掌握语言知识,并在信息检索系统中提升葡萄牙语内容的查询精度和用户体验。
衍生相关工作
基于该数据集的特性,已衍生出多项经典研究工作,包括葡萄牙语预训练语言模型的微调实验、跨语言问答系统的性能比较研究,以及语义相似度计算在低资源语言中的应用探索。这些工作不仅推动了葡萄牙语NLP技术的发展,也为其他低资源语言的模型优化提供了可借鉴的方法论。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作