Vaishak11a/Suvach
收藏Hugging Face2024-05-01 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Vaishak11a/Suvach
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含超过10万个印地语问答对,每个问题平均有1200个标记。问题来源于维基百科页面(页面标题和文本块)。生成的数据部分包含秘密上下文、问题、选项、答案和描述。每个问题将伴随4个选项,其中只有一个正确答案。为了提高生成质量,生成问题之前添加了检索步骤以提取与问题相关的文本块(秘密上下文列)。为了提高一致性,响应中还要求包含描述(描述列)。
该数据集包含超过10万个印地语问答对,每个问题平均有1200个标记。问题来源于维基百科页面(页面标题和文本块)。生成的数据部分包含秘密上下文、问题、选项、答案和描述。每个问题将伴随4个选项,其中只有一个正确答案。为了提高生成质量,生成问题之前添加了检索步骤以提取与问题相关的文本块(秘密上下文列)。为了提高一致性,响应中还要求包含描述(描述列)。
提供机构:
Vaishak11a
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 问答
- 语言: 印地语
- 数据集大小: 100K<n<1M
数据描述
- 内容: 包含超过100,000个印地语问答对,平均每个问题包含1200个tokens。
- 来源: 问题生成自维基百科页面(页面标题和内容块)。
- 数据结构: 包含秘密上下文、问题、选择、答案和描述。
- 问题格式: 每个问题伴随4个选项,其中只有一个正确答案。
数据生成流程
-
创建上下文提示:
- 使用维基百科的印地语数据,预处理成包含页面标题和内容的JSON文件。
- 提取的页面内容被分割成多个块,用于从同一页面创建多个问题。
- 不符合特定标准(如长度)的块被过滤。
- 创建包含上下文的一击提示。
-
使用LLM从提示创建数据集:
- 使用LLM生成响应。
- 通过以下问题验证生成的问答对:
- 上下文相关性
- 问题相关性
- 答案准确性
- 问题清晰度
数据集用途
- 用于问答系统的训练和评估,特别是在印地语环境中。



