five

lmqg/qag_ruquad

收藏
Hugging Face2022-12-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lmqg/qag_ruquad
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-sa-4.0 pretty_name: SQuAD for question generation language: ru multilinguality: monolingual size_categories: 1k<n<10K source_datasets: lmqg/qg_ruquad task_categories: - text-generation task_ids: - language-modeling tags: - question-generation --- # Dataset Card for "lmqg/qag_ruquad" ## Dataset Description - **Repository:** [https://github.com/asahi417/lm-question-generation](https://github.com/asahi417/lm-question-generation) - **Paper:** [https://arxiv.org/abs/2210.03992](https://arxiv.org/abs/2210.03992) - **Point of Contact:** [Asahi Ushio](http://asahiushio.com/) ### Dataset Summary This is the question & answer generation dataset based on the RUQuAD. ### Supported Tasks and Leaderboards * `question-answer-generation`: The dataset is assumed to be used to train a model for question & answer generation. Success on this task is typically measured by achieving a high BLEU4/METEOR/ROUGE-L/BERTScore/MoverScore (see our paper for more in detail). ### Languages Russian (ru) ## Dataset Structure An example of 'train' looks as follows. ``` { "paragraph": " Everybody , как и хотела Мадонна, выпускают синглом. При нулевом бюджете на раскрутку фото певицы решают не помещать на обложке, чтобы не отпугнуть цветную аудиторию якобы негритянской диско-соул-певицы . Everybody поднимается на 3-е место в чарте Hot Dance Club Songs, а потом на 107 место в основном, немного не дотянув до первой сотни Hot 100 журнала Billboard[91]. Менеджмент считает это отличным результатом, учитывая нулевые затраты на пиар, и хочет убедиться, что взлёт Everybody не случаен. По просьбе Мадонны вместо Каминса берут более опытного штатного аранжировщика Warner Bros. Records Регги Лукаса (англ.)русск.. Второй сингл Burning Up тоже достигает в чарте танцевальных хитов 3-го места, повторив успех Everybody . И только после этого Мадонне позволяют арендовать студию для записи первого альбома[91].", "questions": [ "При каком бюджете на раскрутку фото певицы решают не помещать на обложке ?", "Какой альбом Мадонны выпускают синглом?", "Имя более опытного штатного аранжировщика берут по просьбе Мадонны вместо Каминсаболее ?", "Почему при нулевом бджете фото певицы решают не помещать на обложке ?", "На каое место Everybody поднимается в чарте Hot Dance Club Songs?" ], "answers": [ "При нулевом", " Everybody ", "Warner Bros", "чтобы не отпугнуть цветную аудиторию якобы негритянской диско-соул-певицы ", "на 3-е место" ], "questions_answers": "question: При каком бюджете на раскрутку фото певицы решают не помещать на обложке ?, answer: При нулевом | question: Какой альбом Мадонны выпускают синглом?, answer: Everybody | question: Имя более опытного штатного аранжировщика берут по просьбе Мадонны вместо Каминсаболее ?, answer: Warner Bros | question: Почему при нулевом бджете фото певицы решают не помещать на обложке ?, answer: чтобы не отпугнуть цветную аудиторию якобы негритянской диско-соул-певицы | question: На каое место Everybody поднимается в чарте Hot Dance Club Songs?, answer: на 3-е место" } ``` The data fields are the same among all splits. - `questions`: a `list` of `string` features. - `answers`: a `list` of `string` features. - `paragraph`: a `string` feature. - `questions_answers`: a `string` feature. ## Data Splits |train|validation|test | |----:|---------:|----:| |10407| 4079 | 4017| ## Citation Information ``` @inproceedings{ushio-etal-2022-generative, title = "{G}enerative {L}anguage {M}odels for {P}aragraph-{L}evel {Q}uestion {G}eneration", author = "Ushio, Asahi and Alva-Manchego, Fernando and Camacho-Collados, Jose", booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing", month = dec, year = "2022", address = "Abu Dhabi, U.A.E.", publisher = "Association for Computational Linguistics", } ```

--- 许可证:CC BY-SA 4.0(知识共享署名-相同方式共享4.0协议) 展示名称:面向问题生成的SQuAD数据集 语言:俄语(ru) 多语言属性:单语 样本规模:1000 < 样本量 < 10000 源数据集:lmqg/qg_ruquad 任务类别: - 文本生成(text-generation) 任务子项: - 语言建模(language-modeling) 标签: - 问题生成(question-generation) --- # 「lmqg/qag_ruquad」数据集卡片 ## 数据集说明 - **仓库地址:** [https://github.com/asahi417/lm-question-generation](https://github.com/asahi417/lm-question-generation) - **相关论文:** [https://arxiv.org/abs/2210.03992](https://arxiv.org/abs/2210.03992) - **联系人:** [Asahi Ushio](http://asahiushio.com/) ### 数据集概述 本数据集是基于RUQuAD构建的问答生成数据集。 ### 支持任务与评测基准 * `问答生成(question-answer-generation)`:本数据集用于训练问答生成模型。该任务的性能通常通过BLEU4、METEOR、ROUGE-L、BERTScore、MoverScore等指标的高分表现来衡量,详细评测方式请参见相关论文。 ### 语言 俄语(ru) ## 数据集结构 训练集的单条样本示例如下: { "paragraph": " Everybody , как и хотела Мадонна, выпускают синглом. При нулевом бюджете на раскрутку фото певицы решают не помещать на обложке, чтобы не отпугнуть цветную аудиторию якобы негритянской диско-соул-певицы . Everybody поднимается на 3-е место в чарте Hot Dance Club Songs, а потом на 107 место в основном, немного не дотянув до первой сотни Hot 100 журнала Billboard[91]. Менеджмент считает это отличным результатом, учитывая нулевые затраты на пиар, и хочет убедиться, что взлёт Everybody не случаен. По просьбе Мадонны вместо Каминса берут более опытного штатного аранжировщика Warner Bros. Records Регги Лукаса (англ.)русск.. Второй сингл Burning Up тоже достигает в чарте танцевальных хитов 3-го места, повторив успех Everybody . И только после этого Мадонне позволяют арендовать студию для записи первого альбома[91].", "questions": [ "При каком бюджете на раскрутку фото певицы решают не помещать на обложке ?", "Какой альбом Мадонны выпускают синглом?", "Имя более опытного штатного аранжировщика берут по просьбе Мадонны вместо Каминсаболее ?", "Почему при нулевом бджете фото певицы решают не помещать на обложке ?", "На каое место Everybody поднимается в чарте Hot Dance Club Songs?" ], "answers": [ "При нулевом", " Everybody ", "Warner Bros", "чтобы не отпугнуть цветную аудиторию якобы негритянской диско-соул-певицы ", "на 3-е место" ], "questions_answers": "question: При каком бюджете на раскрутку фото певицы решают не помещать на обложке ?, answer: При нулевом | question: Какой альбом Мадонны выпускают синглом?, answer: Everybody | question: Имя более опытного штатного аранжировщика берут по просьбе Мадонны вместо Каминсаболее ?, answer: Warner Bros | question: Почему при нулевом бджете фото певицы решают не помещать на обложке ?, answer: чтобы не отпугнуть цветную аудиторию якобы негритянской диско-соул-певицы | question: На каое место Everybody поднимается в чарте Hot Dance Club Songs?, answer: на 3-е место" } 所有数据拆分的字段定义均保持一致。 - `questions`:字符串类型的列表特征,用于存储生成的问题集合 - `answers`:字符串类型的列表特征,用于存储对应问题的答案集合 - `paragraph`:字符串类型特征,用于存储源段落文本 - `questions_answers`:字符串类型特征,用于存储问题与答案的拼接文本 ## 数据拆分 | 训练集(train) | 验证集(validation) | 测试集(test) | |----------------:|-------------------:|-------------:| | 10407 | 4079 | 4017| ## 引用信息 @inproceedings{ushio-etal-2022-generative, title = "{G}enerative {L}anguage {M}odels for {P}aragraph-{L}evel {Q}uestion {G}eneration", author = "Ushio, Asahi and Alva-Manchego, Fernando and Camacho-Collados, Jose", booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing", month = dec, year = "2022", address = "Abu Dhabi, U.A.E.", publisher = "Association for Computational Linguistics", }
提供机构:
lmqg
原始信息汇总

数据集卡片 "lmqg/qag_ruquad"

数据集描述

  • 许可证: cc-by-sa-4.0
  • 数据集名称: SQuAD for question generation
  • 语言: 俄语 (ru)
  • 多语言性: 单语种
  • 数据集大小: 1k<n<10K
  • 源数据集: lmqg/qg_ruquad
  • 任务类别:
    • text-generation
  • 任务ID:
    • language-modeling
  • 标签:
    • question-generation

数据集摘要

这是一个基于RUQuAD的问答生成数据集。

支持的任务和排行榜

  • question-answer-generation: 该数据集用于训练问答生成模型。成功通常通过BLEU4/METEOR/ROUGE-L/BERTScore/MoverScore等指标来衡量。

语言

俄语 (ru)

数据集结构

数据集示例如下: json { "paragraph": " Everybody , как и хотела Мадонна, выпускают синглом. При нулевом бюджете на раскрутку фото певицы решают не помещать на обложке, чтобы не отпугнуть цветную аудиторию якобы негритянской диско-соул-певицы . Everybody поднимается на 3-е место в чарте Hot Dance Club Songs, а потом на 107 место в основном, немного не дотянув до первой сотни Hot 100 журнала Billboard[91]. Менеджмент считает это отличным результатом, учитывая нулевые затраты на пиар, и хочет убедиться, что взлёт Everybody не случаен. По просьбе Мадонны вместо Каминса берут более опытного штатного аранжировщика Warner Bros. Records Регги Лукаса (англ.)русск.. Второй сингл Burning Up тоже достигает в чарте танцевальных хитов 3-го места, повторив успех Everybody . И только после этого Мадонне позволяют арендовать студию для записи первого альбома[91].", "questions": [ "При каком бюджете на раскрутку фото певицы решают не помещать на обложке ?", "Какой альбом Мадонны выпускают синглом?", "Имя более опытного штатного аранжировщика берут по просьбе Мадонны вместо Каминсаболее ?", "Почему при нулевом бджете фото певицы решают не помещать на обложке ?", "На каое место Everybody поднимается в чарте Hot Dance Club Songs?" ], "answers": [ "При нулевом", " Everybody ", "Warner Bros", "чтобы не отпугнуть цветную аудиторию якобы негритянской диско-соул-певицы ", "на 3-е место" ], "questions_answers": "question: При каком бюджете на раскрутку фото певицы решают не помещать на обложке ?, answer: При нулевом | question: Какой альбом Мадонны выпускают синглом?, answer: Everybody | question: Имя более опытного штатного аранжировщика берут по просьбе Мадонны вместо Каминсаболее ?, answer: Warner Bros | question: Почему при нулевом бджете фото певицы решают не помещать на обложке ?, answer: чтобы не отпугнуть цветную аудиторию якобы негритянской диско-соул-певицы | question: На каое место Everybody поднимается в чарте Hot Dance Club Songs?, answer: на 3-е место" }

数据字段在所有拆分中相同:

  • questions: 字符串特征列表。
  • answers: 字符串特征列表。
  • paragraph: 字符串特征。
  • questions_answers: 字符串特征。

数据拆分

训练集 验证集 测试集
10407 4079 4017

引用信息

@inproceedings{ushio-etal-2022-generative, title = "{G}enerative {L}anguage {M}odels for {P}aragraph-{L}evel {Q}uestion {G}eneration", author = "Ushio, Asahi and Alva-Manchego, Fernando and Camacho-Collados, Jose", booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing", month = dec, year = "2022", address = "Abu Dhabi, U.A.E.", publisher = "Association for Computational Linguistics", }

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,针对俄语文本的问答生成任务,lmqg/qag_ruquad数据集应运而生。该数据集基于RUQuAD俄语阅读理解数据集构建,通过自动化与人工校验相结合的方式,从原始段落中提取并生成问题-答案对。构建过程涉及对文本语义的深度解析,确保每个问题均能准确对应段落中的具体信息,同时答案保持简洁且与问题逻辑一致。数据集的生成严格遵循学术规范,旨在为俄语语言模型提供高质量的监督学习样本。
特点
该数据集专为俄语问答生成任务设计,其核心特点在于每个样本均包含一个段落、多个问题及其对应答案,并以结构化列表和拼接字符串两种形式呈现。数据规模适中,涵盖训练、验证和测试集,确保了模型评估的可靠性。段落内容多选自真实文本,问题类型多样,能够全面考察模型对俄语语法和上下文的理解能力。这种设计使得数据集不仅适用于生成任务,还可用于问答系统的性能评测。
使用方法
使用该数据集时,研究人员可将其直接应用于训练生成式语言模型,以提升模型在俄语段落级问答生成任务上的表现。典型流程包括加载数据、预处理文本,并利用段落作为输入,训练模型生成对应的问题和答案。评估时,可采用BLEU4、METEOR、ROUGE-L等指标衡量生成质量。数据集的结构化字段便于集成到现有训练框架中,支持端到端的模型开发与优化。
背景与挑战
背景概述
在自然语言处理领域,段落级问题生成任务旨在推动机器对文本深层语义的理解与交互能力。lmqg/qag_ruquad数据集由Asahi Ushio等研究人员于2022年构建,基于俄语阅读理解数据集RUQuAD开发,专注于俄语环境下的问答对生成。该数据集依托生成式语言模型技术,核心研究问题在于如何从给定段落中自动生成高质量、多样化的问答对,以促进俄语智能问答系统、教育辅助工具及对话代理的发展。其发布为跨语言自然语言处理研究提供了重要资源,尤其丰富了非英语语种的语义生成基准,对推动多语言人工智能应用具有显著影响力。
当前挑战
该数据集致力于解决俄语段落级问答对生成这一领域问题,面临的主要挑战包括:生成的问题需在语法正确的同时保持与段落语义的高度相关性,且答案需精确对应问题并忠实于原文信息,这对模型的语义理解与生成一致性提出了严格要求。在构建过程中,挑战源于俄语丰富的形态变化和复杂句法结构,使得数据标注需克服语言特异性带来的歧义;同时,基于RUQuAD的转换需确保问答对的多样性与覆盖面,避免生成重复或琐碎内容,这对数据清洗与增强策略构成了技术难点。
常用场景
经典使用场景
在自然语言处理领域,俄语问答生成任务长期面临高质量标注数据稀缺的挑战。lmqg/qag_ruquad数据集基于RUQuAD构建,为研究者提供了段落级的俄语问题与答案对,其经典使用场景在于训练和评估生成式语言模型。通过输入给定的俄语文本段落,模型被要求生成语义连贯且与上下文紧密相关的问题及其对应答案,这有效推动了俄语自动问答系统在理解与生成能力上的协同发展。
衍生相关工作
围绕该数据集,已衍生出一系列聚焦于低资源语言生成任务的经典研究工作。其基础论文《Generative Language Models for Paragraph-Level Question Generation》系统提出了基于预训练模型的段落级问题生成框架。后续研究多在此基础上,探索多语言迁移学习、数据增强策略,或改进评估指标以更好地捕捉生成问题的多样性与事实准确性。这些工作共同丰富了生成式语言模型在跨语言场景下的方法论,并激励了针对其他非英语语言的类似数据资源建设。
数据集最近研究
最新研究方向
在俄语自然语言处理领域,基于RUQuAD构建的问答生成数据集正推动前沿研究向多语言生成模型的方向深化。该数据集专注于段落级问题生成任务,其最新研究热点集中于探索生成式语言模型在跨语言迁移学习中的表现,旨在提升模型对俄语复杂语法结构和文化语境的理解能力。随着多语言预训练模型的快速发展,该数据集被广泛应用于评估模型在低资源语言上的零样本或少样本生成性能,相关研究不仅促进了俄语信息抽取技术的进步,也为非英语社区的智能教育工具和自动化内容生成系统提供了关键数据支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作