five

ctu-aic/qa2d-pl

收藏
Hugging Face2024-03-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ctu-aic/qa2d-pl
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: question dtype: string - name: answer dtype: string - name: turker_answer dtype: string - name: rule-based dtype: string - name: dataset dtype: string - name: example_uid dtype: string splits: - name: train num_bytes: 17513368 num_examples: 60710 - name: validation num_bytes: 3007517 num_examples: 10344 download_size: 15105952 dataset_size: 20520885 configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* license: mit task_categories: - text2text-generation language: - pl pretty_name: QA2D-pl size_categories: - 10K<n<100K --- Polish version of the Question to Declarative Sentence ([QA2D](https://huggingface.co/datasets/domenicrosati/QA2D)). Machine-translated using [DeepL](https://www.deepl.com]) service. For more information, see our [Pipeline and Dataset Generation for Automated Fact-checking in Almost Any Language](https://arxiv.org/abs/2312.10171) paper. Currently in review for [NCAA](https://link.springer.com/journal/521) journal. ```bibtex @article{drchal2023pipeline, title={Pipeline and Dataset Generation for Automated Fact-checking in Almost Any Language}, author={Drchal, Jan and Ullrich, Herbert and Mlyn{\'a}{\v{r}}, Tom{\'a}{\v{s}} and Moravec, V{\'a}clav}, journal={arXiv preprint arXiv:2312.10171}, year={2023} } ```
提供机构:
ctu-aic
原始信息汇总

数据集概述

特征信息

  • question: 字符串类型
  • answer: 字符串类型
  • turker_answer: 字符串类型
  • rule-based: 字符串类型
  • dataset: 字符串类型
  • example_uid: 字符串类型

数据分割

  • train:
    • 字节数: 17513368
    • 样本数: 60710
  • validation:
    • 字节数: 3007517
    • 样本数: 10344

数据大小

  • 下载大小: 15105952
  • 数据集大小: 20520885

配置

  • default:
    • 训练数据路径: data/train-*
    • 验证数据路径: data/validation-*

许可证

  • MIT

任务类别

  • 文本到文本生成

语言

  • 波兰语

数据集名称

  • QA2D-pl

数据集规模

  • 10K<n<100K
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作