MiMe-MeMo/MeMo-Dataset-SA
收藏历史丹麦和挪威文学文本的情感分类
描述
本项目描述了对19世纪斯堪的纳维亚女性作家小说进行情感分类的文学分析研究。我们创建了一个数据集,训练和评估情感分类方法,并使用预训练的语言模型来确认和反驳一个文学假设,即该时期女性作家的写作具有负面情感特征。该数据集和训练模型预计将对未来分析历史丹麦和挪威文学文本具有价值。
数据集
数据集上传到dataset目录,结构如下:
train_set.txt: 包含用于情感分析的带注释训练文本的TXT文件。dev_set.txt: 包含用于情感分析的带注释开发文本的TXT文件。test_set.txt: 包含用于情感分析的带注释测试文本的TXT文件。
每个文件包含两列(制表符分隔),第一列是句子,第二列是情感注释(1=正面,0=中性,2=负面)。
使用方法
要使用数据集和代码,请按照以下步骤操作:
- 克隆或下载此GitHub仓库。
- 访问
dataset目录中的数据集文件和Python代码文件。 - 使用数据集文件进行情感分析模型的训练、开发和测试。
- 使用您喜欢的IDE或Python环境运行Python代码文件,了解如何加载、预处理和分析历史文本数据。
许可证
本仓库中的数据集和代码在Creative Commons Attribution 4.0 International license下发布。
引用
有关情感注释和分类的更多详细信息,请参阅以下论文:
@inproceedings{allaith2023sentiment, title={Sentiment Classification of Historical Literary in {D}anish and {N}orwegian Texts}, author={Ali Al-Laith and Kirstine Nielsen Degn and Alexander Conroy and Bolette S. Pedersen and Jens Bjerring-Hansen and Daniel Hershcovich}, booktitle={The 24rd Nordic Conference on Computational Linguistics}, year={2023}, url={https://openreview.net/forum?id=dszKbb2GH3} }



