cassandra-themis/QR-AN
收藏Hugging Face2024-08-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cassandra-themis/QR-AN
下载链接
链接失效反馈官方服务:
资源简介:
QR-AN数据集是一个用于主题/话题分类的法语数据集,包含来自法国议会问答的问题和答案。数据集包含188个不平衡的类别,80k个问答对,分为训练集(60k)、验证集(10k)和测试集(10k)。此外,数据集可以用于生成任务,并且与Transformers库中的`run_summarization.py`和`run_glue.py`脚本兼容。
The QR-AN dataset is a French-language dataset for topic classification, which comprises questions and answers from French parliamentary Q&A sessions. It contains 188 imbalanced classes and 80k question-answer pairs, which are split into a training set (60k), a validation set (10k), and a test set (10k). Additionally, the dataset can be used for generation tasks and is compatible with the `run_summarization.py` and `run_glue.py` scripts in the Transformers library.
提供机构:
cassandra-themis
原始信息汇总
QR-AN 数据集概述
基本信息
- 语言: 法语 (fr)
- 大小: 10K<n<100K
- 任务类别:
- 摘要生成
- 文本分类
- 文本生成
- 任务ID:
- 多类分类
- 主题分类
- 标签: 条件文本生成
数据集内容
- 来源: 数据集由法国议会的问答组成,来源于 https://www2.assemblee-nationale.fr/recherche/resultats_questions。
- 结构: 包含188个不平衡类别,总计80k个问答对,分为三个部分:训练集(60k)、验证集(10k)和测试集(10k)。
应用场景
- 分类: 适用于主题/话题分类任务。
- 生成: 可用于文本生成,具体为 qran_generation。
兼容性
- 摘要生成: 兼容 Transformers 库中的
run_summarization.py脚本,需在summarization_name_mapping变量中添加特定映射。 - 文本分类: 兼容 Transformers 库中的
run_glue.py脚本,配置示例包括模型名称、最大序列长度等参数设置。



