ruanchaves/nru_hse
收藏Hugging Face2022-10-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ruanchaves/nru_hse
下载链接
链接失效反馈官方服务:
资源简介:
NRU-HSE数据集包含从俄罗斯社交网络vk.com上收集的真实标签,并进行了手动分割。数据集的语言为俄语,任务类别为结构预测,具体任务为词分割。数据集的创建过程包括标签的分割和标识符的分割,且所有数据集都包含基本字段:`hashtag`和`segmentation`。
提供机构:
ruanchaves
原始信息汇总
数据集概述
数据集基本信息
- 名称: NRU-HSE
- 语言: 俄语
- 许可证: 未知
- 多语言性: 单语
- 数据来源: 原始数据
- 任务类别: 结构预测
- 标签: 词分割
数据集描述
数据集摘要
- 数据集包含从俄罗斯社交网络vk.com上关于公共服务页面的真实标签,这些标签已手动分割。
语言
- 数据集语言为俄语。
数据集结构
数据实例
- 每个数据实例包含以下字段:
index: 数值索引。hashtag: 原始标签。segmentation: 标签的黄金分割。
数据字段
index: 数值索引。hashtag: 原始标签。segmentation: 标签的黄金分割。
数据集创建
- 数据集中的所有标签分割和标识符分割具有相同的基字段:
hashtag和segmentation或identifier和segmentation。 - 字段
hashtag和segmentation或identifier和segmentation之间的唯一区别是空格字符。 - 在字母数字字符和任何特殊字符序列(如
_,:,~)之间总是有空格。 - 如果存在命名实体识别和其他标记分类任务的注释,它们将在
spans字段中给出。



