Buddhi_pragati
收藏Hugging Face2025-08-22 更新2025-08-23 收录
下载链接:
https://huggingface.co/datasets/selim-b-kh/Buddhi_pragati
下载链接
链接失效反馈官方服务:
资源简介:
Buddhi-Pragati十字谜数据集包含从多种印度语言来源提取的十字谜提示-答案对。对于印地语版本,数据集共有106条条目,其中新增63条。数据来源于Bhasha-Wiki、MILU、IndoWordNet和IndicWikiBio。每条条目都包括一个唯一标识符、谜语提示文本、单字答案(大写)、原始数据源、原始数据集ID、印度文化背景分数(0.0-1.0)和十字谜适用性分数(0.0-1.0)。
创建时间:
2025-08-21
原始信息汇总
Buddhi-Pragati 数据集概述
基本信息
- 许可证: Apache-2.0
- 数据集地址: https://huggingface.co/datasets/selim-b-kh/Buddhi_pragati
数据集配置
数据集包含五个印度语言配置:
古吉拉特语 (gujarati)
- 训练集样本数量: 200
- 训练集大小: 102,378 字节
- 下载大小: 32,171 字节
- 数据集大小: 102,378 字节
印地语 (hindi)
- 训练集样本数量: 200
- 训练集大小: 95,472 字节
- 下载大小: 27,473 字节
- 数据集大小: 95,472 字节
卡纳达语 (kannada)
- 训练集样本数量: 50
- 训练集大小: 23,683 字节
- 下载大小: 9,739 字节
- 数据集大小: 23,683 字节
旁遮普语 (punjabi)
- 训练集样本数量: 200
- 训练集大小: 57,984 字节
- 下载大小: 18,456 字节
- 数据集大小: 57,984 字节
泰米尔语 (tamil)
- 训练集样本数量: 50
- 训练集大小: 12,713 字节
- 下载大小: 8,310 字节
- 数据集大小: 12,713 字节
数据特征
所有语言配置共享相同的特征结构:
- id: 字符串类型,唯一标识符
- clue: 字符串类型,填字游戏线索文本
- answer: 字符串类型,单字答案(大写)
- source: 字符串类型,原始数据来源
- source_id: 字符串类型,源数据集中的原始ID
- context_score: 浮点型,印度文化背景得分(0.0-1.0)
- quality_score: 浮点型,填字游戏适用性得分(0.0-1.0)
数据来源
- MILU
- IndicWikiBio
- IndoWordNet
- Bhasha-Wiki
使用方式
python from datasets import load_dataset
dataset = load_dataset("selim-b-kh/Buddhi_pragati", "语言名称")
备注
该数据集由 Buddhi-Pragati 填字游戏基准系统生成,包含从多个印度语言来源提取的填字游戏线索-答案对。
搜集汇总
数据集介绍

构建方式
在印度多语言自然语言处理研究背景下,Buddhi_pragati数据集通过系统化采集与标注流程构建而成。该数据集从MILU、IndicWikiBio和IndoWordNet等权威来源提取 crossword 线索-答案对,每条数据均包含唯一标识符、文化语境评分和质量适宜性评分,采用标准化处理流程确保数据的一致性与可靠性。
特点
该数据集凸显对印度多元语言文化的深度覆盖,涵盖古吉拉特语、印地语、卡纳达语、旁遮普语和泰米尔语五种语言变体。每个语言配置均包含200条或50条训练样本,每条数据配备文化语境适配度评分和质量评分双重评估指标,为研究印度多语言 crossword 理解提供结构化基准。
使用方法
研究人员可通过Hugging Face datasets库便捷加载特定语言子集,使用load_dataset函数指定语言配置名称即可访问标准化数据字段。该数据集适用于多语言 crossword 解题系统开发、文化语境敏感性分析及低资源语言自然语言处理任务的模型训练与评估。
背景与挑战
背景概述
在自然语言处理领域,多语言文本资源的稀缺性长期制约着低资源语言模型的发展。Buddhi_pragati数据集由研究团队通过系统化采集构建,专注于印度五种地方语言(古吉拉特语、印地语、卡纳达语、旁遮普语和泰米尔语)的填字游戏线索-答案对。该数据集整合了MILU、IndicWikiBio和IndoWordNet等多个权威语料源,通过文化语境评分与质量评分双重度量,为跨语言语义理解模型提供了重要的评估基准,显著推动了南亚语言计算语言学的研究进程。
当前挑战
该数据集核心挑战在于解决低资源语言填字游戏自动解析的复杂性,包括方言词汇的多义性解析和文化特定概念的准确表征。构建过程中面临语料稀疏性与质量不均的难题,需从异构来源提取有效数据并保持语言纯度。人工标注中的主观偏差控制与自动化质量评估体系的建立同样构成重要挑战,特别是确保文化语境评分与语言学特征的精确对应关系。
常用场景
经典使用场景
在印度多语言自然语言处理研究中,Buddhi_pragati数据集为跨语言问答系统提供了标准化的评测基准。该数据集通过古吉拉特语、印地语、卡纳达语、旁遮普语和泰米尔语五种印度语言的填字游戏线索-答案对,为研究者构建多语言语义理解模型提供了丰富的训练素材。其独特的文化语境评分机制使得模型能够更好地理解印度本土文化背景下的语言表达。
实际应用
在实际应用层面,Buddhi_pragati数据集为开发多语言智能教育工具和文化敏感的对话系统提供了重要支撑。基于该数据集训练的模型能够应用于多语言在线教育平台,为印度不同语言使用者提供个性化的学习辅助。同时,这些模型也可集成到智能语音助手和搜索引擎中,提升对印度多语言用户的本地化服务体验。
衍生相关工作
该数据集催生了多项重要的衍生研究,包括基于多语言transformer的跨语言填字游戏求解系统、印度语言文化语境理解模型以及低资源语言语义表示学习方法。研究者利用该数据集开发了专门针对印度语言的预训练模型,这些工作显著提升了印度语言处理的技术水平,并为后续的多语言人工智能研究奠定了重要基础。
以上内容由遇见数据集搜集并总结生成



