five

osyvokon/pavlick-formality-scores

收藏
Hugging Face2023-11-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/osyvokon/pavlick-formality-scores
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含用于2016年TACL论文《在线交流中正式性的实证分析》(Pavlick和Tetreault,2016)的句子级正式性标注。数据集包括来自四种类型(新闻、博客、电子邮件和问答论坛)的句子,所有句子均由亚马逊Mechanical Turk上的人类标注者进行标注。新闻和博客数据由Shibamouli Lahiri收集,电子邮件和问答数据则由作者自行收集,并使用了类似的标注设置。在原始数据集中,`answers`和`email`已被分词,而在本版本中,Oleksiy Syvokon使用`moses-detokenizer`和一些额外的正则表达式对其进行了解码处理。
提供机构:
osyvokon
原始信息汇总

数据集概述

基本信息

  • 名称: Sentence-level formality annotations for news, blogs, email and QA forums
  • 语言: 英语 (en)
  • 许可证: CC-BY-3.0
  • 多语言性: 单语种
  • 大小: 10K<n<100K
  • 来源: 原始数据
  • 任务类别: 文本分类
  • 任务ID: 文本评分

数据集内容

  • 来源: 数据集包含来自新闻、博客、电子邮件和问答论坛的句子级正式性标注。
  • 收集方式: 通过Amazon Mechanical Turk进行人工标注。
  • 具体内容:
    • 答案: 4977条,来自Yahoo! Answers论坛的随机样本。
    • 博客: 1821条,来自2009年10月31日Technorati网站上排名前100的博客。
    • 电子邮件: 1701条,来自Jeb Bush电子邮件档案的随机样本。
    • 新闻: 2775条,来自20个新闻网站的“突发”、“最近”和“本地”新闻部分。

数据格式

  • 记录结构:
    1. avg_score: 平均正式性评分,范围从-3到3,分数越低表示句子越不正式。
    2. sentence: 句子内容。

引用信息

  • 参考文献:
    • Pavlick, E., & Tetreault, J. (2016). An Empirical Analysis of Formality in Online Communication. Transactions of the Association for Computational Linguistics.
    • Lahiri, S. (2015). SQUINKY! A Corpus of Sentence-level Formality, Informativeness, and Implicature. arXiv preprint arXiv:1506.02306.
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作