five

dr-naed/wikievo_qa

收藏
Hugging Face2024-06-26 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/dr-naed/wikievo_qa
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个意大利语的问答数据集,基于一个关于如何使用Sicraweb软件的网页内容生成。问答对是使用gemini-1.5-flash模型生成的,模型被指示生成与给定段落相关的非平凡问题,并要求回答必须基于该段落。数据集的特征包括问题、答案、内容链接、参考段落标题、参考段落和参考页面。数据集分为训练集和验证集,分别包含1466和367个示例。

该数据集是一个意大利语的问答数据集,基于一个关于如何使用Sicraweb软件的网页内容生成。问答对是使用gemini-1.5-flash模型生成的,模型被指示生成与给定段落相关的非平凡问题,并要求回答必须基于该段落。数据集的特征包括问题、答案、内容链接、参考段落标题、参考段落和参考页面。数据集分为训练集和验证集,分别包含1466和367个示例。
提供机构:
dr-naed
原始信息汇总

数据集概述

基本信息

  • 许可证: CC BY 4.0
  • 语言: 意大利语
  • 标签: 法律
  • 任务类别: 问答

数据集结构

特征

  • question: 问题 (字符串)
  • answer: 答案 (字符串)
  • link_to_content: 内容链接 (字符串)
  • reference_paragraph_title: 参考段落标题 (字符串)
  • reference_paragraph: 参考段落 (字符串)
  • reference_page: 参考页面 (字符串)

数据分割

  • 训练集:
    • 字节数: 30527043
    • 样本数: 1466
  • 验证集:
    • 字节数: 7638295
    • 样本数: 367

数据文件

  • 配置名称: default
  • 数据文件路径:
    • 训练集: data/train-*
    • 验证集: data/validation-*

数据集大小

  • 下载大小: 988024 字节
  • 数据集总大小: 38165338 字节
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作