ruanchaves/stan_small

Name: ruanchaves/stan_small
Creator: ruanchaves
Published: 2022-10-20 19:13:12
License: 暂无描述

Hugging Face2022-10-20 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ruanchaves/stan_small

下载链接

链接失效反馈

官方服务：

资源简介：

STAN Small数据集是一个专注于英语单词分割（特别是标签）的数据集，用于结构预测和条件文本生成等任务。该数据集由专家生成的注释组成，结构包括索引、标签、分割和替代方案等字段，详细描述了原始标签及其分割形式。在数据集的创建过程中，对标签进行了细致的注释和分割，特别注意字符大小写和空格。该数据集旨在用于标签分割及相关自然语言处理任务的研究和开发。

提供机构：

ruanchaves

原始信息汇总

数据集概述

数据集基本信息

名称: STAN Small
语言: 英语
许可证: 未知
多语言性: 单语
数据集大小: 未知
数据来源: 原始
任务类别:
- 结构预测
- 条件文本生成
标签: 词分割

数据集结构

数据实例示例

json { "index": 300, "hashtag": "microsoftfail", "segmentation": "microsoft fail", "alternatives": { "segmentation": [ "Microsoft fail" ] } }

数据字段

index: 数值索引。
hashtag: 原始标签。
segmentation: 标签的金标准分割。
alternatives: 其他也被接受为金标准分割的分割方式。

数据集创建

所有标签分割和标识符分割数据集具有相同的基字段：hashtag 和 segmentation 或 identifier 和 segmentation。
hashtag 和 segmentation 或 identifier 和 segmentation 之间的唯一区别是空白字符。拼写检查、扩展缩写或更正字符到大写进入其他字段。
在任何字母数字字符和任何特殊字符序列（如 _ , : , ~ ）之间总是有空白。

附加信息

引用信息

bibtex @misc{bansal2015deep, title={Towards Deep Semantic Analysis Of Hashtags}, author={Piyush Bansal and Romil Bansal and Vasudeva Varma}, year={2015}, eprint={1501.03210}, archivePrefix={arXiv}, primaryClass={cs.IR} }

贡献者

数据集由 @ruanchaves 添加，用于开发 hashformers 库。

5,000+

优质数据集

54 个

任务类型

进入经典数据集