thliang01/tw-legal-synthetic-qa
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/thliang01/tw-legal-synthetic-qa
下载链接
链接失效反馈官方服务:
资源简介:
本合成对话数据集(下称本数据集)由THUDM/chatglm3-6b-32k和lianghsun/tw-processed-judgments生成,通过实验后的prompt生成繁体中文法律对话合成集。数据集可以用于SFT,让模型学会如何回答法律问题。数据集包含9,631笔数据,分为训练集(7,704笔)、评估集(963笔)和测试集(964笔)。数据集的生成过程中使用了正则表示法和人工审阅来纠正错误格式,但可能仍存在少量不符合要求的文本。数据集的语言为繁体中文,许可证为apache-2.0。
This synthetic dialogue dataset (hereinafter referred to as this dataset) is generated by THUDM/chatglm3-6b-32k and lianghsun/tw-processed-judgments, producing a traditional Chinese legal dialogue synthetic set through experimental prompts. The dataset can be used for SFT to train models on how to answer legal questions. It contains 9,631 data points, divided into training set (7,704), evaluation set (963), and test set (964). During the generation process, regular expressions and manual review were used to correct formatting errors, but there may still be a small number of texts that do not meet the requirements. The dataset is in traditional Chinese and licensed under apache-2.0.
提供机构:
thliang01
搜集汇总
数据集介绍

构建方式
本資料集名為tw-legal-synthetic-qa,為一繁體中文法律領域的合成問答對話集。其構建源於對台灣法律判決書的深度挖掘與語言模型生成技術的結合。具體而言,從lianghsun/tw-processed-judgments資料集中隨機取樣約10,000筆判決書作為情境素材,並以THUDM/chatglm3-6b-32k模型為生成核心,透過精心設計的提示詞引導模型產出使用者與助理間的問答對。原始生成結果經由正則表達式過濾與人工校驗,剔除夾雜簡體中文用語或格式錯誤的樣本,最終獲得9,631筆有效對話,確保資料集在繁體中文法律語境下的純粹性與實用性。
特点
此資料集的核心特色在於其高度專注於台灣繁體中文法律領域的合成對話品質。每一筆資料包含使用者提出的具體法律情境問題,以及助理提供的詳盡法律知識解答,涵蓋法條引用、罰則說明與案例分析等面向。採用ShareGPT格式組織數據,兼容於LLaMa-Factory等常見訓練框架,便於直接應用於監督式微調任務。此外,資料集已進行去識別化處理,故事場景與人物均為虛構,保障隱私安全,同時保留了台灣法律用語的在地化特徵,如《性別工作平等法》等本土法規的準確引用。
使用方法
本資料集專為法律領域的對話式AI模型微調而設計,主要用於監督式微調任務,助力模型習得回答台灣法律問題的能力。使用時可直接採用其ShareGPT格式,無需額外轉換,即可輕鬆整合至LLaMa-Factory等訓練流程。資料集已預先劃分為訓練集(7,704筆)、驗證集(963筆)與測試集(964筆),方便用戶按比例進行模型訓練與評估。建議在應用前再次審視數據,以修正可能遺留的少數格式瑕疵,從而確保模型在繁體中文法律情境下的輸出準確性與流暢度。
背景与挑战
背景概述
在法律人工智能領域,高品質的領域對話數據集對於提升模型法律推理與問答能力至關重要。2024年5月,由研究人員基於THUDM/chatglm3-6b-32k與lianghsun/tw-processed-judgments判決書資料,通過合成方式構建了tw-legal-synthetic-qa數據集。該數據集專注於繁體中文法律情境下的問答任務,包含9,631筆高品質的合成對話,涵蓋台灣法律實務中的性別工作平等、勞動法規等核心爭點,旨在解決繁體中文法律領域標註數據稀缺的問題,為後續大型語言模型在台灣法律場景中的監督微調(SFT)提供了關鍵資源,推動了區域性法律智能化進程。
当前挑战
該數據集面臨的挑戰主要體現在三個層面。首先,在領域問題上,法律問答需兼顧法條準確性與情境合理性,而合成數據天生存在簡體中文用語混雜、法條名稱或法院名稱不正確等「非正確文本」問題,影響模型輸出在法律專業場景下的可信度。其次,在構建過程中,繁體中文模型(如TAIDE、Breeze)難以遵循 prompt 生成符合要求的問答對,研究人員轉而依賴簡體中文模型(ChatGLM3)生成,隨後透過正則表達式與人工審閱進行後處理,但數據中仍可能殘留少量語境或格式偏差。此外,由於未對應原始判決書來源,難以追溯驗證每個問答的法律依據,增加了數據使用時對其真實性與一致性的潛在風險。
常用场景
经典使用场景
在繁體中文法律智能領域中,tw-legal-synthetic-qa 数据集专为监督式微调(SFT)场景精心打造。其核心价值在于为法律对话系统提供高质量的训练素材,使模型能够通过多轮问答交互,精准理解台灣法律文本中的权利与义务关系。研究者可利用该数据集赋予大语言模型解读《性別工作平等法》等法规的能力,并引导模型生成兼具法条依据与案例逻辑的回应,从而有效提升模型在法律咨询场景下的专业性与可靠性。
解决学术问题
该数据集巧妙解决了低資源語言環境下,法律领域高質量问答语料匮乏的学术痛点。通过从近万份台灣裁判文书抽样并借助基于提示的合成方法,它系统性地填补了繁体中文法律对话资源的空白。研究工作可借此探讨生成式模型在法律推理中准确性与逻辑性的提升机制,同时为评估模型在特定司法管辖区分辨能力提供重要基准,推动了跨语言迁移学习在法律智能领域的前沿探索。
衍生相关工作
该数据集衍生了一系列富有启发性的工作方向,包括开发针对台灣法律体系的专用评估基准,用于横向测试不同模型的法律问答性能。此外,研究者以其为基础,探索了基于对抗样本的数据净化方法,以进一步提升合成数据的真实性。同时,利用该数据集微调的模型已被集成至开放法律服务平台,验证了其在现实法律咨询中的健壮性与适用性,间接推动了繁体中文法律知识图谱的构建与完善。
以上内容由遇见数据集搜集并总结生成



