five

rasoultilburg/ssc

收藏
Hugging Face2024-04-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/rasoultilburg/ssc
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集旨在理解社会科学文献中因果语言的使用。基于The Cooperation Databank,包含了2,590篇关于博弈论在社会科学中应用的文章。这些文章被转换为原始文本,并在句子级别进行分割。通过后处理阶段纠正了PDF到文本转换中的常见错误。数据集中的句子被标记为因果、非因果或模糊,并由作者进行审查和标注。最终,数据集包含529个因果句子和529个非因果句子,并分为训练、验证和测试集。

该数据集旨在理解社会科学文献中因果语言的使用。基于The Cooperation Databank,包含了2,590篇关于博弈论在社会科学中应用的文章。这些文章被转换为原始文本,并在句子级别进行分割。通过后处理阶段纠正了PDF到文本转换中的常见错误。数据集中的句子被标记为因果、非因果或模糊,并由作者进行审查和标注。最终,数据集包含529个因果句子和529个非因果句子,并分为训练、验证和测试集。
提供机构:
rasoultilburg
原始信息汇总

社会科学因果与非因果声明数据集

数据集概述

本数据集旨在理解社会科学文献中因果语言的使用,基于The Cooperation Databank,该数据库收集了所有致力于社会科学中博弈论应用的论文(Spadaro et al. 2022)。数据集包含2,590篇文章,通过Grobid库在Python中转换为原始文本,并进一步按句子级别分割(Lopez 2009)。

数据处理

数据转换后,通过后处理阶段纠正了PDF到文本翻译过程中常见的错误,如字符“0”和“O”、“b”和“6”的混淆,以及字母的错误连接或分割。使用Doccano网络标注工具(Nakayama et al. 2018),由一位作者(RN)对句子进行标注,分为因果、非因果或模糊三类。

数据标注与验证

模糊实例(117/1058句子,占11.05%)由所有作者复审。使用Fleiss’ Kappa指数(Fleiss 1971)评估评分者间一致性,得到Kappa值为0.76,表明“实质性”一致。通过多数投票方法最终确定标签。

数据集结构

最终,数据集包含529个因果句子和529个非因果句子,保持平衡。数据集被分为70%用于训练,10%用于验证,20%用于测试。

引用信息

@article{Norouzi2024, author = {Norouzi, R. and Kleinberg, B. and Vermunt, J. and Van Lissa, C. J.}, title = {Capturing Causal Claims: A Fine-Tuned Text Mining Model for Extracting Causal Sentences from Social Science Papers}, year = {2024}, doi = {10.31234/osf.io/kwtpm} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作