Chinese AMR Corpus|自然语言处理数据集|语义分析数据集

github2024-05-06 更新2024-05-31 收录

自然语言处理

语义分析

下载链接：

https://github.com/GoThereGit/Chinese-AMR

下载链接

链接失效反馈

资源简介：

中文抽象语义表示（AMR）语料库，用于评测和研究中文句子的语义结构。该语料库包含了中文特有的概念与关系对齐信息，适用于古汉语句子的AMR图结构自动解析。

The Chinese Abstract Meaning Representation (AMR) corpus is designed for evaluating and researching the semantic structures of Chinese sentences. This corpus includes alignment information specific to Chinese concepts and relationships, making it suitable for the automatic parsing of AMR graph structures in classical Chinese sentences.

创建时间：

2022-05-14

原始信息汇总

数据集概述

数据集名称

第四届中文抽象语义表示解析评测任务（Chinese Abstract Meaning Representation Parsing 2024）

数据集内容

本次评测任务的重点在于自动解析出古汉语句子的AMR图结构，新增了2000句古代汉语语料，以增强解析系统迁移学习和古汉语自动分析能力。

数据集结构

训练集（现汉）：16576句，386234词例
验证集A（现汉）：1789句，41822词例
验证集B（古汉）：约500句，约5000词例
测试集A（现汉）：1713句，39228词例
测试集B（现汉）：1999句，36940词例
测试集C（古汉）：约2000句，约2万词例

数据集特点

新增概念对齐和关系对齐信息，针对中文特点增加了一些语义标签。
古汉语AMR在CAMR体系上新增了“make”和“consider”两个表示使用与意动用法的概念。

评测指标

主要使用Align-smatch评测指标，该指标在Smatch基础上加入了概念对齐指标和关系对齐指标。

评测任务日程

3月1日：评测任务报名开始
3月31日：评测任务报名截止
5月1日：测试集发布
5月8日：参赛队提交自动标注的数据
5月14日：发布测试集黄金标准答案
5月21日：参赛队提交技术报告
5月25日：提交技术报告最终版
7月1日：评测论文录用通知
7月25-28日：CCL 2024评测研讨会

数据集使用

参赛队伍需向LDC申请CAMRP 2024评测语料使用权，并签署保密协议。

AI搜集汇总

数据集介绍

构建方式

中文抽象语义表示语料库（Chinese AMR Corpus）由南京师范大学与美国布兰迪斯大学合作，自2015年起开始构建。该语料库基于宾州中文树库（CTB 8.0），经过精心筛选与标注，形成了包含约2万句子的训练集、验证集和测试集。本次评测任务新增了2000句古代汉语语料，选自《左传》并参考杨伯峻版《春秋左传注》，进一步丰富了语料库的多样性，旨在提升古汉语语义解析的准确性。

特点

该数据集的显著特点在于其融合了现代汉语与古代汉语的语义表示，特别是新增的古汉语语料，增强了语料库的领域覆盖性。此外，数据集引入了概念对齐和关系对齐信息，弥补了传统AMR语料在语义解析中的不足，使得语义表示更加精准。通过Align-smatch评测指标，能够更全面地评估解析系统的性能，尤其是在处理复杂语义结构时的表现。

使用方法

使用该数据集时，用户需遵循评测任务的格式要求，提交自动标注的CAMR多元组表示结果。评测任务提供训练集、验证集和测试集，用户可根据需求选择开放或封闭测试模态。开放测试允许使用外部资源，而封闭测试则限制使用指定的预训练模型和语料。最终提交的结果需包含概念对齐和关系对齐信息，并使用Align-smatch评测指标进行评估。

背景与挑战

背景概述

中文抽象语义表示（Chinese Abstract Meaning Representation，CAMR）语料库是由南京师范大学与美国布兰迪斯大学合作，于2015年开始构建的。该语料库旨在通过抽象语义表示（AMR）方法，为中文句子提供一种与领域无关的语义表示形式。CAMR语料库的核心研究问题是如何有效地将中文句子的语义结构抽象为单根有向无环图，并在此基础上进行语义解析。该语料库的构建不仅填补了中文语义表示的空白，还在国际比赛如CoNLL 2020中取得了显著成绩，推动了中文语义解析技术的发展。

当前挑战

中文抽象语义表示语料库在构建过程中面临诸多挑战。首先，中文语言的复杂性，尤其是古汉语的特殊语法结构，增加了语义解析的难度。其次，AMR的自动解析需要处理概念对齐和关系对齐信息，这在英文AMR中并不常见，因此需要开发新的评测指标如Align-smatch。此外，古汉语语料的引入进一步增加了数据处理的复杂性，要求解析系统具备迁移学习和古汉语自动分析的能力。最后，如何在保持与英文AMR格式兼容的同时，充分利用中文特有的语义标签和结构，也是该数据集面临的一大挑战。

常用场景

经典使用场景

Chinese AMR Corpus的经典使用场景主要集中在自然语言处理领域中的语义解析任务。该数据集通过提供中文句子的抽象语义表示（AMR），帮助研究者构建和评估语义解析模型。特别是在处理复杂句子的语义结构时，AMR能够将句子抽象为单根有向无环图，节点表示概念，弧表示语义关系，从而为机器问答、文本摘要等下游任务提供强大的语义支持。

解决学术问题

Chinese AMR Corpus解决了中文语义表示的学术难题，特别是在整句语义形式化表示和句子语义标注的领域相关性问题上。通过引入抽象语义表示（AMR），该数据集提供了一种与领域无关的通用语义表示方法，弥补了传统语义分析方法的不足。此外，新增的古汉语语料进一步增强了语义解析系统的迁移学习和古汉语自动分析能力，推动了古籍处理自动化的研究。

衍生相关工作

Chinese AMR Corpus的发布催生了一系列相关研究工作，特别是在语义解析和自然语言处理领域。例如，基于该数据集的研究者开发了新的评测指标Align-smatch，用于评估中文AMR解析的准确性。此外，该数据集还推动了跨语言语义表示解析的研究，如在CoNLL 2020评测中，Hitachi和ÚFAL团队在中文AMR解析任务中取得了优异成绩，进一步验证了中文AMR语料的质量和实用性。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集，包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素，标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

GME Data

关于2021年GameStop股票活动的数据，包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

中国裁判文书网

中国裁判文书网是中国最高人民法院设立的官方网站，旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书，如判决书、裁定书、调解书等，涵盖了民事、刑事、行政、知识产权等多个法律领域。

wenshu.court.gov.cn 收录

YOLO-dataset

该数据集用于训练YOLO模型，包括分类、检测和姿态识别模型。目前支持v8版本，未来计划支持更多版本。

github 收录