wangtianxin/MNBVC-QA-with-reporters-from-the-Ministry-of-Foreign-Affairs
收藏Hugging Face2023-06-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/wangtianxin/MNBVC-QA-with-reporters-from-the-Ministry-of-Foreign-Affairs
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
---
# github 清洗脚本
https://github.com/UnstoppableCurry/MNBVC-QA-with-reporters-from-the-Ministry-of-Foreign-Affair
# shtml数据清洗
1700个文件,清洗12877条 条外交部记者问数据
## 清洗前
"<P style="FONT-FAMILY: arial; FONT-SIZE: 14px" 答:当前东亚区域合作总体势头良好,为地区国家抗击疫情和经济复苏提供了积极助力。同时,全球疫情反弹波动,地区热点问题此起彼伏,东亚合作面临更多复杂因素。 /P>"
"<P style="FONT-FAMILY: arial; FONT-SIZE: 14px" 中方始终视东盟为维护地区和平稳定、促进区域一体化的重要力量,支持东盟共同体建设,支持东盟在东亚合作中的中心地位,支持东盟在国际地区事务中发挥更大作用。中方愿以中国—东盟建立对话关系30周年为契机,推动地区国家继续聚焦合作、共谋发展、共迎挑战,共同维护地区和平稳定与发展繁荣。 /P>"
## 清洗后
{
"id":0,
"问":"能否介绍李克强总理访问柬埔寨有关安排?你如何看待当前中柬关系?",
"答":"中柬是友好邻邦和铁杆朋友。近年来,中柬关系持续高位运行,中柬命运共同体建设取得丰硕成果,给两国人民带来了切实利益。当前,疫情延宕反复,世界经济复苏乏力,不稳定性和不确定性增加。中国将坚持维护世界和平、促进共同发展的外交政策宗旨,致力于推动构建人类命运共同体,坚持亲诚惠容和与邻为善、以邻为伴的周边外交方针,继续深化同柬埔寨等周边国家的友好互信和利益融合。此访期间,李克强总理将会见西哈莫尼国王,同洪森首相举行会谈。我们期待以此访为契机,同柬方加强治国理政经验交流,深化在农业、制造业、绿色经济、人文交流等领域合作,携手走好具有各自特色的现代化道路,共同丰富发展中国家走向现代化的路径,更好地惠及两国人民。",
}
# 中英对照数据格式
5份文件 , 一共38条问答数据
## 清洗前
问:据报道,中国军舰已抵也门撤侨,请证实并介绍有关情况。
Q: According to media reports, Chinese naval vessels have arrived in Yemen to evacuate Chinese nationals there. Please confirm this and tell us more details.
答:3月26日以来,也门安全形势严重恶化。中国政府高度重视在也门中国公民和机构的安危,立即组织中国公民有序撤离。根据统一部署,中国在亚丁湾、索马里海域执行护航任务的海军舰艇编队赶赴也门,执行撤离中方在也人员任务。在外交部、国防部等部门和中国驻也门、吉布提使馆以及驻亚丁总领馆紧急协调下,目前122名中国公民已从也门安全撤至吉布提,中国驻吉布提使馆正积极协助他们尽快返回祖国。
## 清洗后
{
"en":{
"input":"",
"instruction":" Today is the deadline for countries to apply for the prospective founding membership of the Asian Infrastructure Investment Bank (AIIB). How many prospective founding members does the AIIB have up to now? What is China’s comment on countries’ joining in the AIIB? ",
"output":[
"Up till March 31, 30 countries have passed the multilateral review procedures and become prospective founding members of the AIIB. Opinions are being solicited through multilateral procedures on other countries that have filed applications over recent days. We will have the exact number of prospective founding members by April 15.",
"The AIIB initiative is a constructive action taken by China to assume more international obligations and complement the current international economic order. It is a useful supplement to the existing multilateral development banks and a move that will benefit all Asian countries and the whole world. The AIIB is an open and inclusive multilateral development institution. We welcome the participation of all interested countries. The Chinese side is ready to work in concert with all parties to make the AIIB a professional and efficient vehicle for infrastructure investment and financing that brings benefit to all parties."
],
"date":"2015-3-31",
"title":"Foreign Ministry Spokesperson Hua Chunying’s Regular Press Conference on March 31, 2015 "
},
"zh":{
"input":"",
"instruction":"今天是亚投行意向创始成员国申请的截止日期,目前共有多少意向创始成员国?中方对近期多国纷纷申请加入亚投行有何评论? ",
"output":[
"截至3月31日,已经通过多边审核程序成为亚投行意向创始成员国的国家有30个。连日来,又有不少国家提出申请加入,这些提交申请的国家正在通过多边程序征求意见。具体意向创始成员国数量待4月15日才能确定。",
"倡议筹建亚投行是中国承担更多国际责任、补充现有国际经济秩序的建设性举动,是对现有多边开发银行的有益补充,对全球和亚洲各国来说都是互利共赢的。亚投行是一个开放、包容的多边开发机构,欢迎所有有兴趣的国家加入。中方愿与各方一道共同努力,将亚投行打造成一个实现各方互利共赢和专业、高效的基础设施投融资平台。"
],
"date":"2015-3-31",
"title":"外交部发言人华春莹例行记者会"
}
}
提供机构:
wangtianxin
原始信息汇总
数据集概述
数据集内容
-
shtml数据清洗
- 包含1700个文件,清洗了12877条外交部记者问数据。
- 清洗前的数据格式为HTML标签包裹的文本。
- 清洗后的数据格式为JSON,包含问题和答案。
-
中英对照数据格式
- 包含5份文件,共38条问答数据。
- 清洗前的数据为中英文对照的问答文本。
- 清洗后的数据格式为JSON,包含中英文的输入、指令、输出、日期和标题。
数据集特点
- 数据集主要用于外交部记者问答数据的清洗和格式化。
- 清洗后的数据便于分析和进一步处理。
数据集使用许可
- 数据集遵循MIT许可证。
搜集汇总
数据集介绍

构建方式
该数据集源自中国外交部记者会问答记录,经过精细化的清洗与结构化处理而构建。原始数据以1700个SHTML文件形式存在,包含12877条非结构化的问答内容,文本混杂了HTML标签与冗余样式信息。通过专门的清洗脚本,去除了诸如字体、段落样式等无关标记,保留了核心的问答对。针对中英双语场景,数据集进一步将5份文件中的38条问答数据转化为标准JSON格式,每条记录包含中英文独立的指令(instruction)与输出(output)字段,并附加日期与标题元信息,确保了数据的整齐与可用性。
使用方法
该数据集主要适用于对话系统、机器翻译及文本生成等自然语言处理任务。使用时,可直接加载JSON文件,通过键值对索引访问。对于单语任务,可利用中文或英文子集的instruction字段作为输入,output字段作为目标输出,构建问答对。对于翻译任务,可对齐中英文子集,将中文instruction作为源语言,英文instruction作为目标语言进行训练。开发者还可根据date字段进行时间分段,或依据title字段识别特定发言人风格,以进行更精细的模型微调。数据格式简洁,易于集成到常见的深度学习框架中。
背景与挑战
背景概述
在外交话语体系与人工智能交叉研究领域,高质量的中外双语问答数据集是推动机器理解复杂政治文本、提升跨语言信息检索与对话系统性能的关键资源。MNBVC-QA-with-reporters-from-the-Ministry-of-Foreign-Affairs数据集由研究者wangtianxin于近期构建,依托外交部例行记者会官方发布的原始HTML文件,通过自主开发的清洗脚本,从1700个文件中提取并精炼出超过12877条中英对照问答对。该数据集旨在系统性地解决外交领域结构化问答数据的稀缺问题,为自然语言处理中的细粒度语义匹配、多轮对话生成及跨语言知识迁移提供基准语料。其发布不仅填补了中文外交公开问答数据的空白,也为国际关系分析与智能外交辅助工具的开发奠定了数据基础,在学术界与政策研究领域均展现出显著的潜在影响力。
当前挑战
该数据集面临的挑战首先体现在所解决的领域问题上:外交部记者会问答涉及高度政治化的语境、隐晦的措辞与复杂的逻辑关系,模型需精准捕捉提问中的预设立场与回答中的外交辞令,这对细粒度情感分析、意图识别及立场检测提出了极高要求。其次,构建过程中遭遇多重技术困难,包括原始HTML文件中大量非结构化样式标签的干扰、中英对照数据在术语与句式上的不对称性、以及多轮对话中跨句子指代消解与上下文一致性的维护。此外,问答对的时间序列属性与话题聚类难题,使得数据在时序建模与事件关联推理方面仍存在显著瓶颈,亟需更先进的清洗策略与标注规范来提升数据质量与任务适配性。
常用场景
经典使用场景
在自然语言处理与知识图谱构建的交叉领域中,MNBVC-QA-with-reporters-from-the-Ministry-of-Foreign-Affairs数据集以其独特的外交记者会问答结构,为研究者提供了高质量的平行语料。该数据集收录了来自中国外交部例行记者会的近一万三千条问答对,涵盖国际关系、地区安全、经济合作等多维度议题。经典使用场景聚焦于构建外交领域智能问答系统,通过指令微调大语言模型,使其能够精准理解外交辞令中的政策立场与微妙语义,同时支持中英双语对照的跨语言信息检索与生成任务。
解决学术问题
该数据集有效解决了外交领域专业语料稀缺与问答对结构不规范的学术难题。传统开放域问答数据集难以捕捉外交话语中隐含的立场表述、政策红线与修辞策略,而本数据集中经过清洗的问答对,为研究外交文本的语义对齐、意图识别与多轮对话推理提供了基准。其意义在于推动大语言模型在政治敏感场景下的可控生成研究,促进国际关系文本的自动化分析,并为外交话语的量化研究开辟新路径。
实际应用
在实际应用层面,该数据集支撑了外交政策智能助理系统的开发,可辅助新闻工作者快速检索历史立场声明,或为国际谈判模拟提供背景知识库。中英对照格式使其成为跨语言舆情监测工具的核心训练资源,能够实时比对中外媒体报道的立场差异。此外,基于该数据集的模型可嵌入政务服务平台,为公众提供权威的外交政策解读,减少信息传播中的误读风险。
数据集最近研究
最新研究方向
该数据集聚焦于中国外交部例行记者会的问答数据,涵盖中文及中英对照格式,为国际关系与外交话语分析提供结构化语料。当前前沿研究方向包括基于大规模语言模型的外交政策立场自动提取、跨语言立场一致性检测,以及对话历史中的语义演化追踪。结合近期全球地缘政治热点,如亚太安全合作、区域经济一体化及多边机构参与,该数据集为理解中国外交话语的叙事策略与传播效果提供了关键支撑。其价值在于推动外交领域自然语言处理的实证研究,助力政策分析与舆情模拟的智能化发展。
以上内容由遇见数据集搜集并总结生成



