cl-nagoya/auto-wiki-qa
收藏Hugging Face2024-09-13 更新2024-04-21 收录
下载链接:
https://hf-mirror.com/datasets/cl-nagoya/auto-wiki-qa
下载链接
链接失效反馈官方服务:
资源简介:
AutoWikiQA是一个基于日语Wikipedia文本生成的问答数据集,使用Swallow-MX模型生成问题和答案,并经过过滤处理。它是目前最大的日语免费QA数据集,具有多样化的问答形式。数据集适用于模型知识教学和检索增强生成(RAG)模型的开发。
AutoWikiQA is a question answering (QA) dataset generated from Japanese Wikipedia corpora. Questions and answers were synthesized using the Swallow-MX model, followed by strict filtering and post-processing. It currently stands as the largest freely accessible Japanese QA dataset, featuring diverse QA formats. This dataset is suitable for teaching knowledge to models and the development of retrieval-augmented generation (RAG) models.
提供机构:
cl-nagoya
原始信息汇总
AutoWikiQA 数据集概述
基本信息
- 语言: 日语
- 许可证: CC BY-SA 4.0
- 任务类别: 问答
数据集结构
特征
- passage_id: 文章ID,数据类型为int64
- query: 生成的问句,数据类型为string
- answer: 生成的回答,数据类型为string
- text: 生成源文本,数据类型为string
- title: 生成源文章的标题,数据类型为string
- url: 生成源文章的URL,数据类型为string
数据分割
- train: 训练集,包含2,377,503个样本,大小为1,759,315,039字节
数据大小
- 下载大小: 909,308,314字节
- 数据集大小: 1,759,315,039字节
数据集描述
- 来源: 基于hpprc/jawiki数据集
- 联系人: Hayato Tsukagoshi, Chihiro Yano
使用示例
python import datasets as ds
dataset: ds.Dataset = ds.load_dataset("cl-nagoya/auto-wiki-qa", split="train")
print(dataset)
Dataset({
features: [passage_id, query, answer, text, title, url],
num_rows: 2377503
})
print(dataset[0])
{
passage_id: 5,
query: 文字列の連結演算子として使用されるのは何?,
answer: &,
text: BASIC 系列の言語では文字列の連結演算子として使用される。"foo" & "bar" は "foobar" を返す。また、主にマイクロソフト系では整数の十六進表記に &h を用い、&h0F (十進で15)のように表現する。,
title: アンパサンド,
url: https://ja.wikipedia.org/wiki/%E3%82%A2%E3%83%B3%E3%83%91%E3%82%B5%E3%83%B3%E3%83%89
}
数据字段说明
- passage_id: Wikipedia文章ID,对应hpprc/jawiki数据集的
id列 - query: 生成的问句
- answer: 生成的回答
- text: 生成源文本,一个文章可能包含多个文本段落
- title: 生成源文章的标题
- url: 生成源文章的URL,主要用于事实核查
限制与注意事项
- 难度过高的案例: 部分问答可能难以通过单一文本确定答案,建议通过调整问句格式来降低难度
- 最新知识: 数据集基于2024年1月1日的Wikipedia数据,不包含此后更新的信息
许可证
- 许可证: CC BY-SA 4.0
- 使用限制: 无,适用于研究及商业用途
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,高质量的问答数据集对于模型训练至关重要。AutoWikiQA数据集的构建采用了先进的生成策略,依托东京工业大学发布的Swallow-MX模型,以日语维基百科文本为输入,自动生成问题与答案对。生成过程摒弃了模板或规则约束,确保了输出形式的多样性。通过vLLM推理库并配置特定采样参数,如使用束搜索和长度惩罚,以提升生成流畅性并抑制冗余内容。数据源经过精心筛选,排除了歧义页和列表页,并对生成结果进行了基于规则的过滤,剔除了过长、过短或格式错误的样本,从而保障了数据质量。
特点
作为当前规模最大的日语自由问答数据集,AutoWikiQA展现了显著的数据多样性。其问题与答案均通过大语言模型生成,未受预设模板限制,因而在表达和结构上呈现出丰富的变体,更贴近自然语言的实际运用。数据集每个样本均包含原始文本、生成的问题、答案以及对应的维基百科文章标题和URL,为后续的检索验证提供了便利。然而,需注意部分样本可能存在答案模糊或问题难度过高的情况,这反映了自动生成数据集的固有挑战,使用时应予以考量。
使用方法
该数据集主要面向知识注入型问答模型训练以及检索增强生成系统的开发。用户可通过Hugging Face的datasets库便捷加载,获取包含超过237万样本的训练集。每个样本提供了完整的上下文信息,便于直接用于监督学习或构建检索索引。在实践中,对于某些难度较高的样本,建议将文章标题与问题结合以明确回答范围。鉴于数据基于特定时间点的维基百科快照,若需纳入更新知识,则需自行处理最新语料并重新生成。
背景与挑战
背景概述
在自然语言处理领域,高质量的问答数据集对于推动机器理解与生成能力的发展至关重要。AutoWikiQA数据集由名古屋大学信息学研究科笹野研究室于2024年创建,核心研究人员包括Hayato Tsukagoshi和Chihiro Yano。该数据集旨在通过大规模语言模型Swallow-MX,从日语维基百科文本中自动生成多样化的问答对,以应对日语开源问答数据稀缺的现状。作为当前规模最大的日语自由问答数据集,它不仅为知识注入型模型训练提供了丰富资源,还支持检索增强生成技术的研发,显著提升了日语自然语言处理任务的基准水平。
当前挑战
AutoWikiQA数据集面临的挑战主要体现在两个方面:在领域问题层面,自动生成的问答对需确保答案的精确性与上下文相关性,避免因模型理解偏差而产生歧义或错误响应;同时,数据集需平衡问答的多样性与质量,防止生成过于简略或冗长的低效样本。在构建过程中,技术挑战包括利用大规模计算资源进行高效生成,并采用规则过滤机制剔除不良数据,但完全依赖自动化流程可能导致部分问答对存在语义模糊或知识过时的问题,需后续人工校验或模型迭代优化以提升可靠性。
常用场景
经典使用场景
在自然语言处理领域,日语问答系统的构建长期面临高质量数据稀缺的挑战。AutoWikiQA数据集通过大规模语言模型Swallow-MX自动生成,覆盖了日语维基百科的广泛知识主题,为研究者提供了海量、多样化的问答对资源。其经典应用场景在于作为基准数据集,用于训练和评估开放域问答模型,特别是在缺乏人工标注的日语环境下,该数据集能够有效支撑模型对复杂语义理解和知识检索能力的验证。
实际应用
在实际应用层面,AutoWikiQA数据集能够直接服务于智能助手、教育科技和内容管理系统的开发。例如,在构建日语智能客服或在线学习平台时,该数据集可用于训练模型快速准确地回答用户基于百科全书知识的查询。同时,它也为检索增强生成技术提供了优质的检索语料,帮助企业在知识库构建和自动化文档处理中提升效率与准确性,满足日语市场对智能化信息服务的需求。
衍生相关工作
围绕AutoWikiQA数据集,已衍生出多项经典研究工作,主要集中在日语语言模型的微调与评估领域。例如,研究者利用该数据集对Swallow-MX等模型进行指令调优,以提升其在特定知识任务上的表现。此外,该数据集也常被用于构建检索增强生成系统的基准测试,推动了日语检索模型和嵌入表示技术的发展,并为跨语言问答模型的迁移学习提供了重要的数据桥梁。
以上内容由遇见数据集搜集并总结生成



