rasoultilburg/ssc

Name: rasoultilburg/ssc
Creator: rasoultilburg
Published: 2024-04-16 12:05:02
License: 暂无描述

Hugging Face2024-04-16 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/rasoultilburg/ssc

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在理解社会科学文献中因果语言的使用。基于The Cooperation Databank，包含了2,590篇关于博弈论在社会科学中应用的文章。这些文章被转换为原始文本，并在句子级别进行分割。通过后处理阶段纠正了PDF到文本转换中的常见错误。数据集中的句子被标记为因果、非因果或模糊，并由作者进行审查和标注。最终，数据集包含529个因果句子和529个非因果句子，并分为训练、验证和测试集。

提供机构：

rasoultilburg

原始信息汇总

社会科学因果与非因果声明数据集

数据集概述

本数据集旨在理解社会科学文献中因果语言的使用，基于The Cooperation Databank，该数据库收集了所有致力于社会科学中博弈论应用的论文（Spadaro et al. 2022）。数据集包含2,590篇文章，通过Grobid库在Python中转换为原始文本，并进一步按句子级别分割（Lopez 2009）。

数据处理

数据转换后，通过后处理阶段纠正了PDF到文本翻译过程中常见的错误，如字符“0”和“O”、“b”和“6”的混淆，以及字母的错误连接或分割。使用Doccano网络标注工具（Nakayama et al. 2018），由一位作者（RN）对句子进行标注，分为因果、非因果或模糊三类。

数据标注与验证

模糊实例（117/1058句子，占11.05%）由所有作者复审。使用Fleiss’ Kappa指数（Fleiss 1971）评估评分者间一致性，得到Kappa值为0.76，表明“实质性”一致。通过多数投票方法最终确定标签。

数据集结构

最终，数据集包含529个因果句子和529个非因果句子，保持平衡。数据集被分为70%用于训练，10%用于验证，20%用于测试。

引用信息

@article{Norouzi2024, author = {Norouzi, R. and Kleinberg, B. and Vermunt, J. and Van Lissa, C. J.}, title = {Capturing Causal Claims: A Fine-Tuned Text Mining Model for Extracting Causal Sentences from Social Science Papers}, year = {2024}, doi = {10.31234/osf.io/kwtpm} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集