Metaphor Dataset|语言学数据集|隐喻分析数据集
收藏数据集概述
数据集版本
-
小型版本:
- en_small.xml (英语): 包含16265个源/目标对,17336个隐喻性标注,7941个概念映射标注,以及3932个情感标注。
- es_small.xml (西班牙语): 包含14524个源/目标对,15743个隐喻性标注,7365个概念映射标注,以及3569个情感标注。
-
大型版本:
- en_large.xml (英语): 包含167479个源/目标对,86860个隐喻性标注,51324个概念映射标注,以及25277个情感标注。
- es_large.xml (西班牙语): 包含115799个源/目标对,70071个隐喻性标注,46063个概念映射标注,以及21889个情感标注。
- ru_large.xml (俄语): 包含64019个源/目标对,48497个隐喻性标注,24465个概念映射标注,以及13389个情感标注。
- fa_large.xml (波斯语): 包含80167个源/目标对,63750个隐喻性标注,39529个概念映射标注,以及16953个情感标注。
数据集属性
- annotatorID: 唯一标识一个标注者。
- chain: 表示源到目标的关系,通过预处理的MALT PARSER关系(*表示源/目标的共同概括者)。
- creationTime: 标注实例的时间戳(毫秒)。
- docid: 唯一标识一个文档。
- id: 唯一标识一个特定类型的标注。
- intensity: 强度(0, 1, 2, 3)。
- polarity: 极性(NEGATIVE, NEUTRAL, POSITIVE)。
- protagonist: 主角(GENERAL, GOVERNMENT_OVERSIGHT, INDIVIDUAL_OVERSIGHT)。
- score: 分数(-1, 0, 1, 2, 3),其中-1表示源/目标之间的无效句法关系。
- sourceConcept: 源概念。
- targetConcept: 目标概念。
- type: 类型(ANNOTATOR_EXAMPLES, RECALL_VALIDATIONS, SYSTEM_VALIDATIONS, UNVALIDATED)。
许可证
- 本数据集遵循CreativeCommons-Attribution-NonCommercial-ShareAlike v4.0许可证。

URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录
Coffee_Shop_Sales
该数据集包含了咖啡店的详细交易信息,包括交易ID、日期、时间、店铺编号、位置、产品类别、类型、名称、价格、月份、日期、星期和小时等属性。数据集用于分析咖啡店的销售情况,如收入和交易量的变化趋势。
github 收录
CliMedBench
CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。
arXiv 收录