岭南文化粤语思维链问答高质量数据集
收藏广东省数据知识产权存证登记平台2025-12-24 更新2026-04-17 收录
下载链接:
https://data.gpic.gd.cn/dataStorage/credentialInfo.jhtml?no=20251244000024663
下载链接
链接失效反馈官方服务:
资源简介:
本数据集是以粤语为载体、以岭南文化为核心构建的高质量问答文本数据集,旨在系统呈现与传承岭南地域文化,并支撑相关大模型的训练与优化。 数据集围绕“表层文化—中层文化—深层文化”三层框架,系统涵盖工艺器物、建筑景观、节庆习俗、饮食文化、语言与价值观等多领域,并通过贴近日常的粤语问答场景展开。每条数据均包含用户问题、思维链推理说明及最终答案,其中思维链清晰呈现知识梳理与表达组织的逻辑路径,有效引导模型进行链式思考与在地化输出。 数据处理严格遵循专业标注流程与质控机制,由具备文化背景与粤语能力的人员完成构造、撰写与多轮复核,确保内容事实准确、表达自然得体、逻辑严谨可追溯,不含个人信息与不当内容。 本数据集主要面向文旅、文博、传媒及公共文化服务等领域,可用于开发粤语智能导览、文化知识问答、互动科普及内容生成等应用。通过近1.1万条高质量样本,能显著提升算法在粤语理解生成、文化知识表达与复杂推理方面的能力,并为算法备案后的评估与迭代提供重要基础资源。
提供机构:
广东岭创数字科技有限公司
创建时间:
2025-12-24
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个专注于岭南文化的高质量粤语问答数据集,围绕表层、中层、深层文化框架系统涵盖建筑、饮食、节庆等多个领域,每条数据包含粤语问题、思维链推理和答案,旨在提升模型在粤语理解、文化知识表达和复杂推理方面的能力。数据集由专业人员构建和复核,包含近1.1万条样本,适用于文旅导览、知识问答等应用场景,为算法训练和评估提供基础资源。
以上内容由遇见数据集搜集并总结生成



