five

CMDAG|中文隐喻数据集|自然语言处理数据集

收藏
arXiv2024-02-21 更新2024-06-21 收录
中文隐喻
自然语言处理
下载链接:
https://github.com/JasonShao55/Chinese_Metaphor_Explanation
下载链接
链接失效反馈
资源简介:
CMDAG是一个由香港科技大学等机构合作创建的大型中文隐喻数据集,包含约28,000条从多种中文文学来源(如诗歌、散文、歌词等)提取的句子。该数据集特别之处在于每条隐喻句子都附带有其对应的‘喻意’(GROUNDS)。创建过程中,研究团队利用了专业的标注者进行精细标注,确保了数据的质量和一致性。CMDAG数据集主要用于支持中文隐喻生成的研究,特别是在机器学习和自然语言处理领域,旨在提高模型生成隐喻句子的创造性和流畅性。
提供机构:
香港科技大学
创建时间:
2024-02-21
AI搜集汇总
数据集介绍
main_image_url
构建方式
CMDAG数据集的构建过程始于从广泛的汉语文学资源中收集约153,000条可能包含隐喻的句子,涵盖散文、诗歌、歌词等多种文体。通过应用一系列启发式规则,如检测句子中是否包含特定的比喻词汇或通过依赖解析识别主语和宾语之间的低相关性,筛选出潜在的隐喻句子。随后,数据集经过两轮标注:初步标注由20名中国大学生完成,识别出真正的隐喻并标注出潜在的本体和喻体;精细标注则由具有汉语文学背景的母语者完成,进一步精确定位隐喻的喻意。为确保标注的一致性和准确性,每个数据样本至少由三名标注者评估。
特点
CMDAG数据集的一个显著特点是其包含了约28,000条来自汉语文学的隐喻句子,每条句子都详细标注了本体、喻体和喻意。这种三元组标注方式不仅增强了数据集的实用性,还为隐喻生成任务提供了丰富的上下文信息。此外,CMDAG特别强调了喻意(GROUND)的作用,将其作为隐喻生成的核心要素,突破了传统隐喻生成仅依赖本体和喻体的局限。这种设计使得CMDAG在推动汉语隐喻研究方面具有独特的价值,尤其是在提升隐喻生成的流畅性和创造性方面。
使用方法
CMDAG数据集的使用方法主要围绕隐喻生成任务展开,特别是在结合Chain-of-Thought(CoT)提示技术的应用中。用户可以通过两种主要任务来利用该数据集:一是给定本体和喻体,生成相应的喻意;二是给定本体和喻意,生成合适的喻体。通过多提示提示技术,用户可以利用数据集中的标注示例进行少样本学习,进而生成符合语境的隐喻句子。此外,CMDAG还支持对生成隐喻的评估,用户可以通过专家级的人工评估来衡量生成隐喻的清晰度、创造性和表达的真实性。
背景与挑战
背景概述
CMDAG(Chinese Metaphor Dataset with Annotated Grounds as CoT)是一个专注于中文隐喻生成的大规模高质量标注语料库,由来自香港科技大学、加州大学圣地亚哥分校、麻省理工学院等多家知名机构的研究人员共同开发。该数据集于2024年发布,收录了约28,000条来自诗歌、散文、歌词等多种中文文学形式的隐喻句子。CMDAG的核心创新在于引入了“喻意”(GROUND)作为隐喻生成的关键要素,突破了传统隐喻研究中仅关注“本体”(TENOR)和“喻体”(VEHICLE)的局限。通过将“喻意”作为链式思维(Chain of Thought, CoT)的输入,CMDAG显著提升了隐喻生成的流畅性和创造性,为中文隐喻研究提供了重要的数据支持。
当前挑战
CMDAG在构建和应用过程中面临多重挑战。首先,隐喻作为一种复杂的语言现象,其生成和理解依赖于深层次的概念映射,这对模型的语义理解和推理能力提出了极高要求。其次,数据标注的复杂性也是一个重要挑战,CMDAG要求对每个隐喻句子进行精确的“本体”、“喻体”和“喻意”三元组标注,这需要标注者具备深厚的语言学知识和文学素养。此外,隐喻生成的多样性和创造性难以通过传统的自动评估指标衡量,CMDAG依赖于专家级的人工评估,这增加了评估的成本和复杂性。最后,尽管CMDAG在隐喻生成任务中展现了潜力,但如何进一步提升模型在生成新颖且符合语境的隐喻方面的表现,仍是一个亟待解决的问题。
常用场景
经典使用场景
CMDAG数据集在自然语言处理领域中被广泛用于中文隐喻生成任务。通过提供丰富的隐喻句子及其对应的本体、喻体和喻意,该数据集为研究人员提供了一个高质量的资源,用于训练和评估生成模型。特别是在生成具有创造性和流畅性的隐喻句子时,CMDAG通过引入喻意作为Chain-of-Thought(CoT)输入,显著提升了生成模型的表达能力。
实际应用
CMDAG数据集在实际应用中具有广泛的前景,尤其是在智能写作助手、聊天机器人等自然语言生成系统中。通过利用CMDAG中的隐喻数据,这些系统能够生成更加生动、富有表现力的文本,从而提升用户体验。例如,在文学创作、广告文案撰写等领域,CMDAG可以帮助生成更具感染力的隐喻表达,增强文本的吸引力和说服力。此外,该数据集还可用于教育领域,帮助学生更好地理解和运用隐喻这一修辞手法。
衍生相关工作
CMDAG数据集的发布催生了一系列相关研究工作,特别是在中文隐喻生成和隐喻理解领域。基于CMDAG,研究人员开发了多种生成模型,如Belle、Baichuan和Chinese-alpaca-33B,这些模型在生成隐喻句子时表现出色。此外,CMDAG还推动了Chain-of-Thought(CoT)技术在隐喻生成中的应用,相关研究进一步探索了如何通过喻意引导模型生成更具创造性和流畅性的隐喻表达。这些工作不仅丰富了中文隐喻研究的理论框架,还为实际应用提供了新的技术手段。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

CACD

跨年龄名人数据集是用于跨年龄人脸识别和检索的数据集。它包含 2,000 位名人的 163,446 张图像。该数据集于 2014 年由马里兰大学计算机科学系发表,论文名为 cross-age Reference Coding for Age-invariant Face Recognition and Retrieval。

OpenDataLab 收录

中国省级灾害统计空间分布数据集(1999-2020年)

该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。

国家地球系统科学数据中心 收录

LOL (LOw-Light dataset)

LOL 数据集由 500 个低光和正常光图像对组成,分为 485 个训练对和 15 个测试对。低光图像包含照片捕获过程中产生的噪声。大多数图像是室内场景。所有图像的分辨率均为 400×600。

OpenDataLab 收录