dhh2026-tqa-output
收藏Hugging Face2026-03-29 更新2026-03-30 收录
下载链接:
https://huggingface.co/datasets/maixuanvan/dhh2026-tqa-output
下载链接
链接失效反馈官方服务:
资源简介:
DHH2026 TQA Output 是一个越南语法律问答数据集,旨在支持越南法律问答系统、多选评估和布鲁姆认知水平分析的研究。数据集包含两个主要子集:'full' 和 'eval_ready'。'full' 子集包含完整的处理数据,共14,998条记录,其中37条为多模态记录。'eval_ready' 子集是一个适用于基准测试的子集,包含14,210条记录,经过语言和质量的严格筛选,并分为训练集(9,894条)、验证集(2,144条)和测试集(2,172条)。数据集字段包括问题ID、领域标签、布鲁姆认知水平、上下文内容、问题内容、候选答案、正确答案和法律依据等。多模态记录还包含图像文件引用。数据集适用于越南法律问答系统基准测试、法律多选问题评估以及布鲁姆认知水平差异研究。
创建时间:
2026-03-28
原始信息汇总
DHH2026 TQA Output 数据集概述
基本信息
- 语言:越南语
- 领域:法律教育与法学理论材料
- 许可证:其他
- 任务类别:问答、文本分类
- 任务ID:多项选择问答
- 规模类别:10K < n < 100K
- 标签:法律、越南语、教育、多项选择、布鲁姆分类法、多模态
配置
- eval_ready:默认配置。包含基准测试就绪的子集,具有标准化的4选项多项选择题、明确的黄金答案索引/字母、文档级别的训练/验证/测试集划分,以及保守的语言健全性过滤器以排除多语言生成异常值。
- full:包含完整处理的数据集发布版本。
数据集摘要
- 源文档数量:48
- 完整发布记录数:14,998
- 评估就绪记录数:14,210
- 完整发布中经审核后的多模态记录数:37
- 布鲁姆认知水平:记忆、理解、应用
流水线衍生统计摘要
- 原始问答对:16,704
- 公开清理前流水线保留的记录:16,158
- 因多语言/提示泄露问题而移除的记录:1,160
- 清理后的公开完整发布记录:14,998
- 过滤期间被拒绝的记录:546
- 过滤通过率:96.73%
- 平均问题长度:126.3字符
- 平均上下文长度:1,735.5字符
评估就绪子集统计
- 从公开完整发布中保留的比例:94.75%
- 训练/验证/测试记录数:9,894 / 2,144 / 2,172
- 黄金答案位置接近均匀分布:
A/B/C/D = 3,544 / 3,564 / 3,557 / 3,545 - 保守的语言健全性清理从公开基准子集中移除了487条多语言或受脚手架污染的记录
- 保守的多模态质量审核将21条伪影记录降级为纯文本,留下29条具有视觉基础的评估就绪记录
文件结构
processed/dataset.jsonl:经过保守清理后的公开完整发布版本。processed/full_hf/data/metadata.jsonl:full配置使用的面向Hub的元数据文件。processed/eval_ready/{train,dev,test}.jsonl:从processed/dataset_eval_ready.jsonl衍生的基准测试就绪文件。processed/eval_ready_hf/{train,validation,test}/metadata.jsonl:在data_dir: processed/eval_ready_hf下使用的面向Hub的文件。processed/eval_ready/images/:包含经公开多模态审核后仍被多模态记录引用的17个唯一图像文件。
数据划分
采用文档级别划分以减少文档泄露:
- 训练集:9,894项
- 验证集:2,144项
- 测试集:2,172项
评估就绪发布中剩余的多模态记录分布:
- 训练集:12
- 验证集:4
- 测试集:13
数据模式说明
- 两个Hugging Face配置具有不同的模式:
full暴露更广泛的处理发布版本,而eval_ready添加了仅用于基准测试的字段,如gold_index、gold_letter、doc_id、chunk_id和split。 - 公开JSONL发布中的多模态记录包含用于首个图像预览的
image_file_name和用于完整图像列表的image_file_names。 - 面向Hub的
full和eval_ready配置通过遵循imagefolder约定的data_dir目录提供服务,因此file_name可以被推断为图像特征而非纯字符串。 candidate_answers是答案选项列表。- 在评估就绪文件中,
ground_truth是标准化后的清理黄金答案文本。 gold_index和gold_letter提供确定性选项重新平衡后的黄金答案位置。bloom_level捕获项目的预期认知水平。domain_tag由流水线提供,对于某些主题可能较为粗略。
推荐用途
- 对越南语法律问答系统进行基准测试
- 在法律多项选择题上评估指令调优的大型语言模型
- 研究布鲁姆认知水平的性能差异
- 构建具有文档级别分离的训练/开发/测试实验
局限性
- 该数据集源自教学和法律学习材料;不应将其视为权威的法律建议。
domain_tag并非所有记录的黄金标准分类法。- 相对于完整的文本语料库,多模态覆盖范围有限。
- 评估就绪子集排除了黄金答案无法清晰解析的记录。
许可与访问
此卡片将数据集标记为license: other,因为存储库包含源自教育/法律原始材料的流水线输出。用户有责任验证其使用是否符合适用于原始源文档的权利和限制。
如果此存储库保持私有状态,访问需要具有存储库读取权限的Hugging Face令牌。
引用
若在研究中使用此数据集,请引用相关的TQA流水线项目和此数据集存储库: bibtex @dataset{dhh2026_tqa_output, title = {DHH2026 TQA Output}, author = {Mai Xuan Van}, year = {2026}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/maixuanvan/dhh2026-tqa-output} }
搜集汇总
数据集介绍

构建方式
在越南法律问答研究领域,DHH2026 TQA Output数据集通过一套严谨的自动化流程构建而成。该流程以48份法律教育及学说材料作为源文档,经过文本提取与视觉信息整合,生成了初始的问答对。随后,系统执行了多轮清洗与规范化操作,包括移除多语言混杂内容、剔除提示泄露痕迹,并对多选题选项进行标准化重平衡。最终,数据集被划分为包含全部处理记录的完整版,以及一个专为基准测试准备的评估就绪子集,后者进一步应用了保守的语言完整性过滤与文档级的数据划分策略,以确保评估的严谨性与公平性。
特点
本数据集的核心特征体现在其针对越南法律领域的深度覆盖与结构化设计。数据条目均标注有布鲁姆认知分类层级,涵盖记忆、理解与应用三个维度,为分析模型推理能力提供了细粒度标签。评估就绪子集经过精心处理,其标准答案选项分布近乎均匀,有效避免了评估偏差。尽管主体为文本数据,但数据集保留了有限的多模态记录,将相关图像与法律文本语境关联,拓展了研究场景。严格的文档级划分策略有效防止了数据泄露,确保了机器学习模型训练与评估结果的可靠性。
使用方法
为便于研究使用,数据集在Hugging Face平台以两种配置形式提供。研究者可通过`load_dataset`函数,指定`eval_ready`配置加载已划分训练、验证与测试集的基准数据,该配置遵循图像文件夹规范,能自动将多模态行的图像路径解析为图像特征。若需访问更广泛的处理记录,则可选用`full`配置。数据集主要服务于越南法律问答系统性能评测、针对法律多选题的指令微调语言模型评估,以及不同布鲁姆认知层级上的表现差异研究。使用时应遵循相关许可协议,并注意其源于教学材料,不构成权威法律意见的局限性。
背景与挑战
背景概述
DHH2026 TQA Output数据集由研究人员Mai Xuan Van于2026年构建并发布,专注于越南法律领域的问答研究。该数据集源自48份法律教育及学说材料,旨在为越南法律问答系统、多项选择题评估以及布鲁姆分类认知层次分析提供基准资源。其核心研究问题在于如何通过自动化流程生成高质量、多模态的法律问答对,以支持法律人工智能在理解、记忆及应用层面的推理能力评估。该数据集的发布显著推动了越南语自然语言处理在法律垂直领域的应用,为后续模型训练与评估提供了标准化、文档级分割的语料基础,对提升法律教育智能化水平具有重要影响力。
当前挑战
该数据集致力于解决越南法律问答与多项选择题评估的领域挑战,具体包括如何确保生成问题的法律准确性、覆盖布鲁姆分类的不同认知层次,以及处理多模态信息(如文本与图像)的融合表示。在构建过程中,研究团队面临多重挑战:首先,需从原始法律文档中提取并生成大量问答对,同时维护上下文的一致性与法律术语的规范性;其次,数据清洗阶段需剔除多语言混杂及提示泄露的异常样本,并实施保守的语言完整性过滤,以保障评估子集的纯净度;此外,多模态记录的审核与整合亦存在困难,例如需甄别低价值的视觉摘要或标识,并将其降级为纯文本处理,以确保数据质量与可用性。
常用场景
经典使用场景
在越南法律教育领域,DHH2026 TQA Output数据集为多选问答任务提供了标准化的评估基准。该数据集通过精心设计的文档级划分,有效避免了数据泄露问题,使得研究者能够基于其训练、验证和测试子集,系统性地评估模型在法律文本理解与推理方面的性能。其经典使用场景聚焦于构建和比较各类自然语言处理模型,特别是针对越南语法律多选题的自动解答系统,为模型在复杂法律语境下的准确性与鲁棒性提供了可靠的检验平台。
实际应用
在实际应用中,该数据集可直接服务于越南法律教育技术的开发,例如构建智能辅导系统或法律资格考试辅助工具。其标准化的评估子集能够用于检验商业或开源大语言模型在法律专业领域的适用性,为法律科技公司提供模型选型与优化的依据。此外,数据集所蕴含的法律原理与多选问题形式,也为开发面向公众的法律信息检索与问答服务提供了高质量的训练语料和测试标准。
衍生相关工作
围绕该数据集,已衍生出针对越南语法律文本的指令微调、多模态法律问答以及基于布鲁姆分类学的认知能力评估等一系列经典研究工作。这些工作通常利用其文档级划分和标准化标签,探索模型在特定法律领域(如民法、刑法)的泛化能力,或研究文本与有限视觉信息结合对法律推理的辅助作用。该数据集也成为比较不同预训练语言模型在低资源法律语料上适应性能的重要基准,催生了多项专注于领域自适应和少样本学习的技术改进。
以上内容由遇见数据集搜集并总结生成



