five

文风转换数据集

收藏
国家数据集管理服务平台2026-03-27 更新2026-04-29 收录
下载链接:
https://www.ndsms.cn/dataRetrieval/datasetDetail/?id=3d158256e029f2306d916fa54377538f
下载链接
链接失效反馈
官方服务:
资源简介:
“文风转换数据集”是由福建大数据一级开发有限公司构建的高质量政务平行语料数据集 。数据集总规模为4.43MB,共包含9526条数据 。该数据集以福建省及各级政府部门门户网站“主动公开”的真实公文为目标语料,采用“权威归集+逆向重构”的模式,将标准公文逆向改写为口语化表达,从而构建了高质量的“非正式口语(白话)-标准公文”对照文本 。

The Official Document Style Transfer Dataset is a high-quality government parallel corpus dataset constructed by Fujian Big Data First-level Development Co., Ltd. It has a total size of 4.43 MB and contains 9526 entries in total. Taking real official documents "actively disclosed" on the official websites of Fujian Province and government departments at all levels as the target corpus, this dataset adopts the "authoritative collection + reverse reconstruction" approach, reversely rewriting standard official documents into colloquial expressions and thus constructing high-quality aligned text pairs of "informal spoken (vernacular) - standard official document".
提供机构:
福建大数据一级开发有限公司
创建时间:
2026-03-26
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集由福建大数据一级开发有限公司构建,包含9526条、4.43MB规模的政务平行语料。它基于福建省政府部门主动公开的公文,通过逆向重构生成“非正式口语-标准公文”对照文本,主要用于政务大模型微调及智能辅助办公,实现口语化描述向规范公文的自动转换,且使用限于指定平台内按可用不可见方式调用。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务