Chinese AMR Corpus|自然语言处理数据集|语义分析数据集
收藏数据集概述
数据集名称
第四届中文抽象语义表示解析评测任务(Chinese Abstract Meaning Representation Parsing 2024)
数据集内容
本次评测任务的重点在于自动解析出古汉语句子的AMR图结构,新增了2000句古代汉语语料,以增强解析系统迁移学习和古汉语自动分析能力。
数据集结构
- 训练集(现汉):16576句,386234词例
- 验证集A(现汉):1789句,41822词例
- 验证集B(古汉):约500句,约5000词例
- 测试集A(现汉):1713句,39228词例
- 测试集B(现汉):1999句,36940词例
- 测试集C(古汉):约2000句,约2万词例
数据集特点
- 新增概念对齐和关系对齐信息,针对中文特点增加了一些语义标签。
- 古汉语AMR在CAMR体系上新增了“make”和“consider”两个表示使用与意动用法的概念。
评测指标
主要使用Align-smatch评测指标,该指标在Smatch基础上加入了概念对齐指标和关系对齐指标。
评测任务日程
- 3月1日:评测任务报名开始
- 3月31日:评测任务报名截止
- 5月1日:测试集发布
- 5月8日:参赛队提交自动标注的数据
- 5月14日:发布测试集黄金标准答案
- 5月21日:参赛队提交技术报告
- 5月25日:提交技术报告最终版
- 7月1日:评测论文录用通知
- 7月25-28日:CCL 2024评测研讨会
数据集使用
参赛队伍需向LDC申请CAMRP 2024评测语料使用权,并签署保密协议。

学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
中国裁判文书网
中国裁判文书网是中国最高人民法院设立的官方网站,旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书,如判决书、裁定书、调解书等,涵盖了民事、刑事、行政、知识产权等多个法律领域。
wenshu.court.gov.cn 收录
YOLO-dataset
该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。
github 收录