osyvokon/pavlick-formality-scores
收藏Hugging Face2023-11-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/osyvokon/pavlick-formality-scores
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含用于2016年TACL论文《在线交流中正式性的实证分析》(Pavlick和Tetreault,2016)的句子级正式性标注。数据集包括来自四种类型(新闻、博客、电子邮件和问答论坛)的句子,所有句子均由亚马逊Mechanical Turk上的人类标注者进行标注。新闻和博客数据由Shibamouli Lahiri收集,电子邮件和问答数据则由作者自行收集,并使用了类似的标注设置。在原始数据集中,`answers`和`email`已被分词,而在本版本中,Oleksiy Syvokon使用`moses-detokenizer`和一些额外的正则表达式对其进行了解码处理。
提供机构:
osyvokon
原始信息汇总
数据集概述
基本信息
- 名称: Sentence-level formality annotations for news, blogs, email and QA forums
- 语言: 英语 (en)
- 许可证: CC-BY-3.0
- 多语言性: 单语种
- 大小: 10K<n<100K
- 来源: 原始数据
- 任务类别: 文本分类
- 任务ID: 文本评分
数据集内容
- 来源: 数据集包含来自新闻、博客、电子邮件和问答论坛的句子级正式性标注。
- 收集方式: 通过Amazon Mechanical Turk进行人工标注。
- 具体内容:
- 答案: 4977条,来自Yahoo! Answers论坛的随机样本。
- 博客: 1821条,来自2009年10月31日Technorati网站上排名前100的博客。
- 电子邮件: 1701条,来自Jeb Bush电子邮件档案的随机样本。
- 新闻: 2775条,来自20个新闻网站的“突发”、“最近”和“本地”新闻部分。
数据格式
- 记录结构:
avg_score: 平均正式性评分,范围从-3到3,分数越低表示句子越不正式。sentence: 句子内容。
引用信息
- 参考文献:
- Pavlick, E., & Tetreault, J. (2016). An Empirical Analysis of Formality in Online Communication. Transactions of the Association for Computational Linguistics.
- Lahiri, S. (2015). SQUINKY! A Corpus of Sentence-level Formality, Informativeness, and Implicature. arXiv preprint arXiv:1506.02306.



