buddhi-pragati
收藏Hugging Face2025-08-27 更新2025-08-28 收录
下载链接:
https://huggingface.co/datasets/selim-b-kh/buddhi-pragati
下载链接
链接失效反馈官方服务:
资源简介:
Buddhi-Pragati拼字游戏数据集包含从多个印度语言来源中提取的拼字游戏提示-答案对。该数据集包含19种语言的拼字游戏提示和答案,以及每个提示的质量和印度文化背景评分。
The Buddhi-Pragati Scrabble Dataset contains Scrabble-style prompt-answer pairs extracted from multiple Indian language sources. This dataset includes Scrabble prompts and answers across 19 languages, along with quality ratings and Indian cultural background ratings for each prompt.
创建时间:
2025-08-27
原始信息汇总
Buddhi-Pragati 数据集概述
数据集基本信息
- 许可证: Apache-2.0
- 配置数量: 19种语言配置
- 总条目数: 118,849
- 数据来源: Bhasha-Wiki、IndicWikiBio、IndoWordNet、MILU
语言配置详情
阿萨姆语 (Assamese)
- 条目数: 6,511
- 数据大小: 1.52 MB
- 下载大小: 415 KB
- 质量评分范围: 0.60-1.00
- 平均质量评分: 0.986
- 文化语境评分范围: 0.10-0.61
- 平均文化语境评分: 0.406
孟加拉语 (Bengali)
- 条目数: 6,775
- 数据大小: 2.36 MB
- 下载大小: 653 KB
- 质量评分范围: 0.56-1.00
- 平均质量评分: 0.969
- 文化语境评分范围: 0.02-0.64
- 平均文化语境评分: 0.325
博多语 (Bodo)
- 条目数: 4,460
- 数据大小: 1.07 MB
- 下载大小: 288 KB
- 质量评分范围: 0.60-1.00
- 平均质量评分: 0.987
- 文化语境评分范围: 0.00-0.68
- 平均文化语境评分: 0.408
英语 (English)
- 条目数: 5,506
- 数据大小: 1.12 MB
- 下载大小: 576 KB
- 质量评分范围: 0.60-1.00
- 平均质量评分: 0.944
- 文化语境评分范围: 0.00-0.47
- 平均文化语境评分: 0.166
古吉拉特语 (Gujarati)
- 条目数: 6,571
- 数据大小: 2.16 MB
- 下载大小: 631 KB
- 质量评分范围: 0.60-1.00
- 平均质量评分: 0.968
- 文化语境评分范围: 0.01-0.68
- 平均文化语境评分: 0.227
印地语 (Hindi)
- 条目数: 6,911
- 数据大小: 2.23 MB
- 下载大小: 600 KB
- 质量评分范围: 0.60-1.00
- 平均质量评分: 0.973
- 文化语境评分范围: 0.01-0.75
- 平均文化语境评分: 0.235
卡纳达语 (Kannada)
- 条目数: 6,318
- 数据大小: 2.04 MB
- 下载大小: 537 KB
- 质量评分范围: 0.60-1.00
- 平均质量评分: 0.971
- 文化语境评分范围: 0.05-0.66
- 平均文化语境评分: 0.320
克什米尔语 (Kashmiri)
- 条目数: 4,828
- 数据大小: 933 KB
- 下载大小: 387 KB
- 质量评分范围: 0.60-1.00
- 平均质量评分: 0.995
- 文化语境评分范围: 0.00-0.62
- 平均文化语境评分: 0.380
孔卡尼语 (Konkani)
- 条目数: 6,087
- 数据大小: 1.36 MB
- 下载大小: 395 KB
- 质量评分范围: 0.60-1.00
- 平均质量评分: 0.990
- 文化语境评分范围: 0.00-0.67
- 平均文化语境评分: 0.216
马拉雅拉姆语 (Malayalam)
- 条目数: 6,975
- 数据大小: 2.25 MB
- 下载大小: 558 KB
- 质量评分范围: 0.60-1.00
- 平均质量评分: 0.971
- 文化语境评分范围: 0.05-0.61
- 平均文化语境评分: 0.321
马拉地语 (Marathi)
- 条目数: 6,474
- 数据大小: 1.46 MB
- 下载大小: 425 KB
- 质量评分范围: 0.60-1.00
- 平均质量评分: 0.988
- 文化语境评分范围: 0.02-0.65
- 平均文化语境评分: 0.249
梅泰语 (Meitei)
- 条目数: 7,176
- 数据大小: 1.64 MB
- 下载大小: 445 KB
- 质量评分范围: 0.60-1.00
- 平均质量评分: 0.924
- 文化语境评分范围: 0.31-0.50
- 平均文化语境评分: 0.459
尼泊尔语 (Nepali)
- 条目数: 6,242
- 数据大小: 1.60 MB
- 下载大小: 411 KB
- 质量评分范围: 0.60-1.00
- 平均质量评分: 0.990
- 文化语境评分范围: 0.00-0.68
- 平均文化语境评分: 0.266
奥里亚语 (Odia)
- 条目数: 6,722
- 数据大小: 1.61 MB
- 下载大小: 448 KB
- 质量评分范围: 0.60-1.00
- 平均质量评分: 0.988
- 文化语境评分范围: 0.10-0.61
- 平均文化语境评分: 0.374
旁遮普语 (Punjabi)
- 条目数: 6,425
- 数据大小: 1.81 MB
- 下载大小: 482 KB
- 质量评分范围: 0.60-1.00
- 平均质量评分: 0.987
- 文化语境评分范围: 0.07-0.62
- 平均文化语境评分: 0.351
梵语 (Sanskrit)
- 条目数: 6,361
- 数据大小: 1.31 MB
- 下载大小: 369 KB
- 质量评分范围: 0.60-1.00
- 平均质量评分: 0.960
- 文化语境评分范围: 0.00-0.68
- 平均文化语境评分: 0.283
泰米尔语 (Tamil)
- 条目数: 6,123
- 数据大小: 2.21 MB
- 下载大小: 582 KB
- 质量评分范围: 0.56-1.00
- 平均质量评分: 0.940
- 文化语境评分范围: 0.07-0.69
- 平均文化语境评分: 0.332
泰卢固语 (Telugu)
- 条目数: 6,250
- 数据大小: 1.46 MB
- 下载大小: 390 KB
- 质量评分范围: 0.60-1.00
- 平均质量评分: 0.981
- 文化语境评分范围: 0.07-0.67
- 平均文化语境评分: 0.340
乌尔都语 (Urdu)
- 条目数: 6,134
- 数据大小: 2.14 MB
- 下载大小: 745 KB
- 质量评分范围: 0.60-1.00
- 平均质量评分: 0.930
- 文化语境评分范围: 0.00-0.68
- 平均文化语境评分: 0.191
数据结构特征
- 特征字段: id、clue、answer、source、source_id、context_score、quality_score
- 分割方式: 训练集
- 答案格式: 单字大写形式
数据用途
- 适用于多语言填字游戏生成
- 支持印度文化语境研究
- 可用于自然语言处理模型训练
搜集汇总
数据集介绍

构建方式
在印度多语言自然语言处理研究领域,该数据集通过系统化采集来自四大权威知识源(MILU、IndicWikiBio、IndoWordNet和Bhasha-Wiki)的原始语料,构建了涵盖19种印度语言的纵横字谜线索-答案对。构建过程采用标准化数据清洗流程,为每个条目赋予唯一标识符、原始来源追溯编码,并通过算法生成双重质量评估指标——文化语境相关度分数与字谜适用性分数,确保数据集的学术严谨性和实用性。
特点
该数据集最显著的特征在于其多语言平行架构,完整覆盖从阿萨姆语到乌尔都语的19种印度语言体系,每种语言均包含4000至7000个高质量字谜条目。每个数据点均配备精细的元数据标注,包括文化语境评分(0.0-1.0)和字谜质量评分(0.6-1.0),其中文化语境评分精准反映了答案词条与印度文化传统的关联强度,为跨文化语言学研究提供了量化依据。数据集采用Apache 2.0开源协议,保障了学术使用的合规性与可扩展性。
使用方法
研究人员可通过Hugging Face数据集库的标准化接口调用该资源,使用load_dataset函数并指定目标语言配置参数即可加载相应语种子集。该数据集主要应用于多语言 crossword 求解系统开发、印度语言形态学分析、跨文化语义表征研究等领域。典型应用场景包括:基于线索-答案对的神经机器翻译模型训练、多语言词汇语义相似度计算、以及文化特定词汇的嵌入表示学习。数据集的双评分体系还可作为自动评估指标,用于衡量生成模型的文化适应性与语言准确性。
背景与挑战
背景概述
在自然语言处理领域,多语言知识表示与推理一直是核心研究课题。Buddhi-Pragati数据集由印度研究机构于近年创建,专注于解决印度多语言文化背景下的智能问答系统构建问题。该数据集整合了来自IndicWikiBio、IndoWordNet等权威资源的跨语言知识,覆盖19种印度官方语言,为促进南亚语言人工智能技术发展提供了重要基础。其独特的文化语境评分机制为研究多语言语义理解与文化适应性提供了创新视角,对推动低资源语言处理技术具有显著影响力。
当前挑战
该数据集致力于解决多语言 crossword 问答系统中的文化语境适应性与语言资源不平衡问题。构建过程中面临多重挑战:首先需要协调不同语言书写系统的标准化处理,特别是梵文、乌尔都语等非拉丁文字的技术适配;其次需建立统一的质量评估体系以处理来自四个异构数据源的数万条语料;最后还须设计科学的文化语境评分算法来准确量化印度文化元素的表征程度,这对低资源语言如博多语、克什米尔语的标注工作提出了极高要求。
常用场景
经典使用场景
在多语言自然语言处理领域,Buddhi-Pragati数据集为跨语言问答系统提供了丰富的训练资源。该数据集包含19种印度语言的填字游戏线索-答案对,每条数据都经过质量评分和文化语境评分,使得研究者能够构建精准的语言理解模型。这些线索-答案对特别适合训练机器理解语言中的隐喻、双关和文化特定表达,为多语言NLP研究提供了独特而珍贵的语料。
解决学术问题
该数据集有效解决了低资源语言NLP研究中训练数据稀缺的核心问题。通过提供19种印度语言的标准化语料,包括阿萨姆语、博多语等极少研究的语言,为语言技术民主化奠定了基础。数据集中的文化语境评分机制帮助研究者量化文化因素对语言理解的影响,填补了多语言NLP研究中文化维度建模的空白,推动了语言技术向更具文化敏感性的方向发展。
衍生相关工作
基于该数据集衍生出了多项重要研究工作,包括多语言序列到序列模型的跨语言迁移学习框架。研究者开发了专门针对印度语言的文化语境感知神经网络,这些模型在低资源语言处理任务中表现出色。数据集还催生了新的评估基准,用于衡量NLP系统在处理文化特定内容时的性能,推动了多语言AI系统向更公平、更包容的方向发展。
以上内容由遇见数据集搜集并总结生成



