strombergnlp/twitter_pos_vcb
收藏Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/strombergnlp/twitter_pos_vcb
下载链接
链接失效反馈官方服务:
资源简介:
该数据集主要用于词性标注任务,包含约150万条2012年和2013年的英文推文。这些推文使用了GATE分词器进行分词,并使用了CMU ARK标注器和Ritter的T-POS标注器进行联合标注。只有当两个标注器的输出在整个推文中完全一致时,该推文才会被添加到数据集中。数据集推荐仅用于训练,不用于评估。
提供机构:
strombergnlp
原始信息汇总
数据集概述
数据集名称
- 名称: Twitter PoS VCB
- 别名: twitter-pos-vcb
数据集基本信息
- 语言: 英语 (
bcp47:en) - 许可证: Creative Commons Attribution 4.0 (CC-BY)
- 多语言性: 单语种
- 大小: 1M<n<10M
- 源数据: 原始数据
- 任务类别: 词性标注
- 任务ID: part-of-speech
数据集内容
- 概述: 包含约150万条英语推文,用于词性标注。数据集通过CMU ARK标记器和Ritter的T-POS标记器联合标记,仅当两个标记器的输出完全一致时,推文才会被添加到数据集中。
- 用途: 推荐仅作为训练数据使用,不作为评估数据。
数据集结构
- 数据实例: 未提供具体示例。
- 数据字段:
id: 字符串类型tokens: 字符串列表类型pos_tags: 分类标签列表(整数类型)
- 数据分割:
- 总计1,543,126个tokens,159,492个句子
数据集创建
- 注释: 机器生成
- 语言创建者: 发现
- 数据收集和规范化: 未提供详细信息
- 注释过程: 未提供详细信息
- 个人和敏感信息: 未提供详细信息
使用数据集的考虑
- 社会影响: 未提供详细信息
- 偏见讨论: 未提供详细信息
- 其他已知限制: 未提供详细信息
附加信息
- 数据集维护者: 未提供详细信息
- 贡献者: Leon Derczynski (@leondz)



