rasoultilburg/ssc
收藏社会科学因果与非因果声明数据集
数据集概述
本数据集旨在理解社会科学文献中因果语言的使用,基于The Cooperation Databank,该数据库收集了所有致力于社会科学中博弈论应用的论文(Spadaro et al. 2022)。数据集包含2,590篇文章,通过Grobid库在Python中转换为原始文本,并进一步按句子级别分割(Lopez 2009)。
数据处理
数据转换后,通过后处理阶段纠正了PDF到文本翻译过程中常见的错误,如字符“0”和“O”、“b”和“6”的混淆,以及字母的错误连接或分割。使用Doccano网络标注工具(Nakayama et al. 2018),由一位作者(RN)对句子进行标注,分为因果、非因果或模糊三类。
数据标注与验证
模糊实例(117/1058句子,占11.05%)由所有作者复审。使用Fleiss’ Kappa指数(Fleiss 1971)评估评分者间一致性,得到Kappa值为0.76,表明“实质性”一致。通过多数投票方法最终确定标签。
数据集结构
最终,数据集包含529个因果句子和529个非因果句子,保持平衡。数据集被分为70%用于训练,10%用于验证,20%用于测试。
引用信息
@article{Norouzi2024, author = {Norouzi, R. and Kleinberg, B. and Vermunt, J. and Van Lissa, C. J.}, title = {Capturing Causal Claims: A Fine-Tuned Text Mining Model for Extracting Causal Sentences from Social Science Papers}, year = {2024}, doi = {10.31234/osf.io/kwtpm} }



