Vaishak11a/Suvach

Name: Vaishak11a/Suvach
Creator: Vaishak11a
Published: 2024-05-01 03:41:19
License: 暂无描述

Hugging Face2024-05-01 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/Vaishak11a/Suvach

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含超过10万个印地语问答对，每个问题平均有1200个标记。问题来源于维基百科页面（页面标题和文本块）。生成的数据部分包含秘密上下文、问题、选项、答案和描述。每个问题将伴随4个选项，其中只有一个正确答案。为了提高生成质量，生成问题之前添加了检索步骤以提取与问题相关的文本块（秘密上下文列）。为了提高一致性，响应中还要求包含描述（描述列）。

提供机构：

Vaishak11a

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 问答
语言: 印地语
数据集大小: 100K<n<1M

数据描述

内容: 包含超过100,000个印地语问答对，平均每个问题包含1200个tokens。
来源: 问题生成自维基百科页面（页面标题和内容块）。
数据结构: 包含秘密上下文、问题、选择、答案和描述。
问题格式: 每个问题伴随4个选项，其中只有一个正确答案。

数据生成流程

创建上下文提示:
- 使用维基百科的印地语数据，预处理成包含页面标题和内容的JSON文件。
- 提取的页面内容被分割成多个块，用于从同一页面创建多个问题。
- 不符合特定标准（如长度）的块被过滤。
- 创建包含上下文的一击提示。
使用LLM从提示创建数据集:
- 使用LLM生成响应。
- 通过以下问题验证生成的问答对：
  - 上下文相关性
  - 问题相关性
  - 答案准确性
  - 问题清晰度

数据集用途

用于问答系统的训练和评估，特别是在印地语环境中。

5,000+

优质数据集

54 个

任务类型

进入经典数据集