five

strombergnlp/twitter_pos_vcb

收藏
Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/strombergnlp/twitter_pos_vcb
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集主要用于词性标注任务,包含约150万条2012年和2013年的英文推文。这些推文使用了GATE分词器进行分词,并使用了CMU ARK标注器和Ritter的T-POS标注器进行联合标注。只有当两个标注器的输出在整个推文中完全一致时,该推文才会被添加到数据集中。数据集推荐仅用于训练,不用于评估。
提供机构:
strombergnlp
原始信息汇总

数据集概述

数据集名称

  • 名称: Twitter PoS VCB
  • 别名: twitter-pos-vcb

数据集基本信息

  • 语言: 英语 (bcp47:en)
  • 许可证: Creative Commons Attribution 4.0 (CC-BY)
  • 多语言性: 单语种
  • 大小: 1M<n<10M
  • 源数据: 原始数据
  • 任务类别: 词性标注
  • 任务ID: part-of-speech

数据集内容

  • 概述: 包含约150万条英语推文,用于词性标注。数据集通过CMU ARK标记器和Ritter的T-POS标记器联合标记,仅当两个标记器的输出完全一致时,推文才会被添加到数据集中。
  • 用途: 推荐仅作为训练数据使用,不作为评估数据。

数据集结构

  • 数据实例: 未提供具体示例。
  • 数据字段:
    • id: 字符串类型
    • tokens: 字符串列表类型
    • pos_tags: 分类标签列表(整数类型)
  • 数据分割:
    • 总计1,543,126个tokens,159,492个句子

数据集创建

  • 注释: 机器生成
  • 语言创建者: 发现
  • 数据收集和规范化: 未提供详细信息
  • 注释过程: 未提供详细信息
  • 个人和敏感信息: 未提供详细信息

使用数据集的考虑

  • 社会影响: 未提供详细信息
  • 偏见讨论: 未提供详细信息
  • 其他已知限制: 未提供详细信息

附加信息

  • 数据集维护者: 未提供详细信息
  • 贡献者: Leon Derczynski (@leondz)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作