five

cassandra-themis/QR-AN

收藏
Hugging Face2024-08-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cassandra-themis/QR-AN
下载链接
链接失效反馈
官方服务:
资源简介:
QR-AN数据集是一个用于主题/话题分类的法语数据集,包含来自法国议会问答的问题和答案。数据集包含188个不平衡的类别,80k个问答对,分为训练集(60k)、验证集(10k)和测试集(10k)。此外,数据集可以用于生成任务,并且与Transformers库中的`run_summarization.py`和`run_glue.py`脚本兼容。

The QR-AN dataset is a French-language dataset for topic classification, which comprises questions and answers from French parliamentary Q&A sessions. It contains 188 imbalanced classes and 80k question-answer pairs, which are split into a training set (60k), a validation set (10k), and a test set (10k). Additionally, the dataset can be used for generation tasks and is compatible with the `run_summarization.py` and `run_glue.py` scripts in the Transformers library.
提供机构:
cassandra-themis
原始信息汇总

QR-AN 数据集概述

基本信息

  • 语言: 法语 (fr)
  • 大小: 10K<n<100K
  • 任务类别:
    • 摘要生成
    • 文本分类
    • 文本生成
  • 任务ID:
    • 多类分类
    • 主题分类
  • 标签: 条件文本生成

数据集内容

  • 来源: 数据集由法国议会的问答组成,来源于 https://www2.assemblee-nationale.fr/recherche/resultats_questions。
  • 结构: 包含188个不平衡类别,总计80k个问答对,分为三个部分:训练集(60k)、验证集(10k)和测试集(10k)。

应用场景

  • 分类: 适用于主题/话题分类任务。
  • 生成: 可用于文本生成,具体为 qran_generation。

兼容性

  • 摘要生成: 兼容 Transformers 库中的 run_summarization.py 脚本,需在 summarization_name_mapping 变量中添加特定映射。
  • 文本分类: 兼容 Transformers 库中的 run_glue.py 脚本,配置示例包括模型名称、最大序列长度等参数设置。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作