five

CMDAG

收藏
arXiv2024-02-21 更新2024-06-21 收录
下载链接:
https://github.com/JasonShao55/Chinese_Metaphor_Explanation
下载链接
链接失效反馈
资源简介:
CMDAG是一个由香港科技大学等机构合作创建的大型中文隐喻数据集,包含约28,000条从多种中文文学来源(如诗歌、散文、歌词等)提取的句子。该数据集特别之处在于每条隐喻句子都附带有其对应的‘喻意’(GROUNDS)。创建过程中,研究团队利用了专业的标注者进行精细标注,确保了数据的质量和一致性。CMDAG数据集主要用于支持中文隐喻生成的研究,特别是在机器学习和自然语言处理领域,旨在提高模型生成隐喻句子的创造性和流畅性。

CMDAG is a large-scale Chinese metaphor dataset co-created by The Hong Kong University of Science and Technology and other institutions. It contains approximately 28,000 sentences extracted from diverse Chinese literary sources such as poetry, prose, lyrics and more. Notably, each metaphorical sentence in this dataset is paired with its corresponding figurative meaning (GROUNDS). During the dataset's construction, the research team employed professional annotators to perform fine-grained annotation, ensuring the quality and consistency of the dataset. The CMDAG dataset is primarily designed to support research on Chinese metaphor generation, particularly in the fields of machine learning and natural language processing, with the goal of enhancing the creativity and fluency of metaphorical sentence generation by computational models.
提供机构:
香港科技大学
创建时间:
2024-02-21
AI搜集汇总
数据集介绍
main_image_url
构建方式
CMDAG数据集的构建过程始于从广泛的汉语文学资源中收集约153,000条可能包含隐喻的句子,涵盖散文、诗歌、歌词等多种文体。通过应用一系列启发式规则,如检测句子中是否包含特定的比喻词汇或通过依赖解析识别主语和宾语之间的低相关性,筛选出潜在的隐喻句子。随后,数据集经过两轮标注:初步标注由20名中国大学生完成,识别出真正的隐喻并标注出潜在的本体和喻体;精细标注则由具有汉语文学背景的母语者完成,进一步精确定位隐喻的喻意。为确保标注的一致性和准确性,每个数据样本至少由三名标注者评估。
特点
CMDAG数据集的一个显著特点是其包含了约28,000条来自汉语文学的隐喻句子,每条句子都详细标注了本体、喻体和喻意。这种三元组标注方式不仅增强了数据集的实用性,还为隐喻生成任务提供了丰富的上下文信息。此外,CMDAG特别强调了喻意(GROUND)的作用,将其作为隐喻生成的核心要素,突破了传统隐喻生成仅依赖本体和喻体的局限。这种设计使得CMDAG在推动汉语隐喻研究方面具有独特的价值,尤其是在提升隐喻生成的流畅性和创造性方面。
使用方法
CMDAG数据集的使用方法主要围绕隐喻生成任务展开,特别是在结合Chain-of-Thought(CoT)提示技术的应用中。用户可以通过两种主要任务来利用该数据集:一是给定本体和喻体,生成相应的喻意;二是给定本体和喻意,生成合适的喻体。通过多提示提示技术,用户可以利用数据集中的标注示例进行少样本学习,进而生成符合语境的隐喻句子。此外,CMDAG还支持对生成隐喻的评估,用户可以通过专家级的人工评估来衡量生成隐喻的清晰度、创造性和表达的真实性。
背景与挑战
背景概述
CMDAG(Chinese Metaphor Dataset with Annotated Grounds as CoT)是一个专注于中文隐喻生成的大规模高质量标注语料库,由来自香港科技大学、加州大学圣地亚哥分校、麻省理工学院等多家知名机构的研究人员共同开发。该数据集于2024年发布,收录了约28,000条来自诗歌、散文、歌词等多种中文文学形式的隐喻句子。CMDAG的核心创新在于引入了“喻意”(GROUND)作为隐喻生成的关键要素,突破了传统隐喻研究中仅关注“本体”(TENOR)和“喻体”(VEHICLE)的局限。通过将“喻意”作为链式思维(Chain of Thought, CoT)的输入,CMDAG显著提升了隐喻生成的流畅性和创造性,为中文隐喻研究提供了重要的数据支持。
当前挑战
CMDAG在构建和应用过程中面临多重挑战。首先,隐喻作为一种复杂的语言现象,其生成和理解依赖于深层次的概念映射,这对模型的语义理解和推理能力提出了极高要求。其次,数据标注的复杂性也是一个重要挑战,CMDAG要求对每个隐喻句子进行精确的“本体”、“喻体”和“喻意”三元组标注,这需要标注者具备深厚的语言学知识和文学素养。此外,隐喻生成的多样性和创造性难以通过传统的自动评估指标衡量,CMDAG依赖于专家级的人工评估,这增加了评估的成本和复杂性。最后,尽管CMDAG在隐喻生成任务中展现了潜力,但如何进一步提升模型在生成新颖且符合语境的隐喻方面的表现,仍是一个亟待解决的问题。
常用场景
经典使用场景
CMDAG数据集在自然语言处理领域中被广泛用于中文隐喻生成任务。通过提供丰富的隐喻句子及其对应的本体、喻体和喻意,该数据集为研究人员提供了一个高质量的资源,用于训练和评估生成模型。特别是在生成具有创造性和流畅性的隐喻句子时,CMDAG通过引入喻意作为Chain-of-Thought(CoT)输入,显著提升了生成模型的表达能力。
实际应用
CMDAG数据集在实际应用中具有广泛的前景,尤其是在智能写作助手、聊天机器人等自然语言生成系统中。通过利用CMDAG中的隐喻数据,这些系统能够生成更加生动、富有表现力的文本,从而提升用户体验。例如,在文学创作、广告文案撰写等领域,CMDAG可以帮助生成更具感染力的隐喻表达,增强文本的吸引力和说服力。此外,该数据集还可用于教育领域,帮助学生更好地理解和运用隐喻这一修辞手法。
衍生相关工作
CMDAG数据集的发布催生了一系列相关研究工作,特别是在中文隐喻生成和隐喻理解领域。基于CMDAG,研究人员开发了多种生成模型,如Belle、Baichuan和Chinese-alpaca-33B,这些模型在生成隐喻句子时表现出色。此外,CMDAG还推动了Chain-of-Thought(CoT)技术在隐喻生成中的应用,相关研究进一步探索了如何通过喻意引导模型生成更具创造性和流畅性的隐喻表达。这些工作不仅丰富了中文隐喻研究的理论框架,还为实际应用提供了新的技术手段。
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作