CISA-testset

Hugging Face2025-08-01 更新2025-08-02 收录

下载链接：

https://huggingface.co/datasets/dbbiyte/CISA-testset

下载链接

链接失效反馈

官方服务：

资源简介：

CISA-testset是一个用于评估跨个体情感分析模型在历史土耳其文本上性能的测试数据集，包含了从İbrahim Temo的回忆录中提取的200个句子。数据集专注于历史人物和个性的情感分析，并包含负面、中性、正面情感的分布以及直接和间接关系的分布。

CISA-testset is a test dataset designed to evaluate the performance of cross-individual sentiment analysis models on historical Turkish texts. It contains 200 sentences extracted from the memoirs of İbrahim Temo. This dataset focuses on sentiment analysis targeting historical figures and their personalities, and includes the distribution of negative, neutral, and positive sentiments as well as the distribution of direct and indirect relationships.

创建时间：

2025-07-31

原始信息汇总

数据集概述：CISA-testset from İbrahim Temos Memoir

基本信息

许可证: Apache-2.0
来源: İbrahim Temo的回忆录《İttihad ve Terakki Cemiyetinin Teşekkülü ve Hidematı Vataniye ve İnkılâbı Milliye Dair Hatıratım》(1939年出版)的前66页
语言: 历史土耳其语(20世纪初)
句子总数: 202
注释类型: 跨个体情感分析(CISA)
实体焦点: 历史人物和个性

数据集描述

用途:
- 独立测试：评估CISA模型在未见过的历史数据上的性能
- 真实世界验证：测试模型在真实历史土耳其文本上的能力
- 基准创建：为CISA研究提供标准化测试集
重要说明: 这不是用于CISA-BERTurk-sentiment模型的主要训练数据集的一部分，而是用于评估模型在真实历史文本上表现的独立测试集

数据统计

情感分布

负面: 17例(8.4%)
中性: 154例(76.2%)
正面: 31例(15.4%)

关系类型分布

直接: 174例(86.1%)
间接: 28例(13.9%)

模型性能

使用CISA-BERTurk-sentiment模型测试时的表现：

准确率: 88.12%
精确率: 87.72%
召回率: 88.12%
F1分数: 87.75%

数据集创建

创建者: İbrahim Berci
特点:
- 保持历史真实性
- 确保多样化的实体-情感关系
- 保留原始奥斯曼土耳其语的语言特征
- 提供全面的元数据以确保研究可重复性

资金来源

土耳其科学技术研究委员会(TÜBİTAK)支持，项目编号323K372

引用格式

bibtex @dataset{berci2025cisa_testset, authors = {İbrahim Berci and Sezen Karabulut and Mustafa İlter}, title = {CISA-testset from İbrahim Temos Memoir: Cross-Individual Sentiment Analysis Test Dataset for Historical Turkish}, url = {https://huggingface.co/datasets/dbbiyte/CISA-testset}, year = {2025}, note = {Test dataset for evaluating CISA performance on İbrahim Temos historical memoirs} }

搜集汇总

数据集介绍

构建方式

在历史语言学与情感计算交叉领域，CISA-testset的构建体现了严谨的文献处理方法。数据集从İbrahim Temo 1939年出版的66页回忆录中系统抽取202个句子，完整保留奥斯曼土耳其语向现代土耳其语过渡期的语言特征。构建过程采用三重质量控制：由专业团队人工筛选具有情感表达多样性的连续文本段落，标注时严格区分直接与间接情感关系，并通过历史学者复核确保政治人物评价的语境准确性。原始文本的拼写变体均按文献学规范进行标准化处理，同时保留反映时代特征的语言现象。

使用方法

作为跨个体情感分析（CISA）的基准测试集，该数据集推荐用于历史文本情感计算模型的验证阶段。使用时应加载原始土耳其语文本及配套的BIO格式标注文件，通过对比模型在直接/间接情感关系子集的表现差异评估语境理解能力。典型工作流包括：预处理阶段采用兼容奥斯曼土耳其语的BERTurk分词器，微调时注意中性样本的过采样处理，最终指标应综合考察在政治实体指称与情感极性联合任务上的F1值。为保持历史语义完整性，严禁对原始文本进行现代土耳其语的正规化转换。

背景与挑战

背景概述

CISA-testset数据集由土耳其科学技术研究委员会（TÜBİTAK）资助，İbrahim Berci等研究人员于2025年创建，专注于历史土耳其语文本的跨个体情感分析（CISA）任务。该数据集源自1939年出版的İbrahim Temo回忆录，收录了202句历史文本，旨在为早期20世纪土耳其政治文献的情感分析提供基准测试平台。作为奥斯曼土耳其语向现代土耳其语过渡时期的珍贵语料，它不仅填补了历史文本情感分析的数据空白，更为研究青年土耳其党运动时期的政治话语特征提供了量化分析工具。数据集在CISA-BERTurk-sentiment模型测试中展现出88.12%的准确率，验证了其对连续历史文本分析的适用性。

当前挑战

该数据集面临双重挑战：在领域问题层面，历史土耳其语的词汇变迁和句法特殊性导致传统情感分析模型难以准确捕捉语义特征，早期现代土耳其语中混杂的奥斯曼语借词更增加了标注一致性难度；在构建过程中，原始文献的印刷模糊和正字法变异对文本数字化构成障碍，需通过语言学专家介入确保转写准确性。同时，历史文本特有的间接表达方式和隐喻修辞，要求标注者具备政治史背景知识以区分表面情感与真实立场，这种细粒度标注的复杂性使得数据集的构建成本显著高于现代语料。

常用场景

经典使用场景

在历史语言学与情感计算交叉领域，CISA-testset数据集为研究者提供了珍贵的早期20世纪土耳其语情感分析基准。其经典应用场景体现在对跨个体情感分析模型的评估上，特别是针对历史文本中政治人物情感倾向的识别任务。数据集收录的伊布拉希姆·特莫回忆录原文，完整保留了奥斯曼土耳其语向现代土耳其语过渡期的语言特征，成为检验模型处理历史文献能力的试金石。

解决学术问题

该数据集有效解决了历史文本情感分析中的三大核心问题：跨时代语言差异导致的语义漂移、历史人物关系网络的隐含情感推断，以及非标准化古代拼写体系的处理。通过提供经过专业标注的1939年原始政治回忆录文本，填补了土耳其语历史文献计算分析领域的空白，为量化研究青年土耳其党运动时期的社会情感结构提供了方法论范式。

实际应用

在实际应用层面，该数据集支撑了数字人文领域的多项实践，包括历史人物关系图谱的情感维度重构、政治回忆录的自动内容分析系统开发，以及博物馆智能导览中的情感化叙事生成。土耳其国家档案馆利用该数据集训练的模型，成功实现了对20世纪初政治文献的情感倾向可视化，辅助历史学家发现传统文本分析中难以捕捉的情绪传播模式。

数据集最近研究