strombergnlp/twitter_pos_vcb

Name: strombergnlp/twitter_pos_vcb
Creator: strombergnlp
Published: 2022-10-25 21:42:56
License: 暂无描述

Hugging Face2022-10-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/strombergnlp/twitter_pos_vcb

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集主要用于词性标注任务，包含约150万条2012年和2013年的英文推文。这些推文使用了GATE分词器进行分词，并使用了CMU ARK标注器和Ritter的T-POS标注器进行联合标注。只有当两个标注器的输出在整个推文中完全一致时，该推文才会被添加到数据集中。数据集推荐仅用于训练，不用于评估。

提供机构：

strombergnlp

原始信息汇总

数据集概述

数据集名称

名称: Twitter PoS VCB
别名: twitter-pos-vcb

数据集基本信息

语言: 英语 (bcp47:en)
许可证: Creative Commons Attribution 4.0 (CC-BY)
多语言性: 单语种
大小: 1M<n<10M
源数据: 原始数据
任务类别: 词性标注
任务ID: part-of-speech

数据集内容

概述: 包含约150万条英语推文，用于词性标注。数据集通过CMU ARK标记器和Ritter的T-POS标记器联合标记，仅当两个标记器的输出完全一致时，推文才会被添加到数据集中。
用途: 推荐仅作为训练数据使用，不作为评估数据。

数据集结构

数据实例: 未提供具体示例。
数据字段:
- id: 字符串类型
- tokens: 字符串列表类型
- pos_tags: 分类标签列表（整数类型）
数据分割:
- 总计1,543,126个tokens，159,492个句子

数据集创建

注释: 机器生成
语言创建者: 发现
数据收集和规范化: 未提供详细信息
注释过程: 未提供详细信息
个人和敏感信息: 未提供详细信息

使用数据集的考虑

社会影响: 未提供详细信息
偏见讨论: 未提供详细信息
其他已知限制: 未提供详细信息

附加信息

数据集维护者: 未提供详细信息
贡献者: Leon Derczynski (@leondz)

5,000+

优质数据集

54 个

任务类型

进入经典数据集