five

cw1521/nl-st

收藏
Hugging Face2023-07-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cw1521/nl-st
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集可用于翻译或标记分类任务。它有两个版本:nl-st包含超过120万条记录,nl-st-lg包含超过980万条记录。每条记录包含6个特征:自然语言句子(描述状态的英语句子)、状态信息(由感知值对组成的字符串)、NER标签(句子中每个标记的NER标签列表)、NER句子(由NER标签连接而成的字符串)、NER ID(与NER标签对应的ID)和分词(句子分词后的标记列表)。此外,数据集还提供了NER ID到NER标签的映射以及NER标签到NER ID的映射。

该数据集可用于翻译或标记分类任务。它有两个版本:nl-st包含超过120万条记录,nl-st-lg包含超过980万条记录。每条记录包含6个特征:自然语言句子(描述状态的英语句子)、状态信息(由感知值对组成的字符串)、NER标签(句子中每个标记的NER标签列表)、NER句子(由NER标签连接而成的字符串)、NER ID(与NER标签对应的ID)和分词(句子分词后的标记列表)。此外,数据集还提供了NER ID到NER标签的映射以及NER标签到NER ID的映射。
提供机构:
cw1521
原始信息汇总

Natural Language to State Translation Dataset 概述

数据集版本与大小

  • 版本1 (nl-st): 包含超过1.2百万条记录。
  • 版本2 (nl-st-lg): 包含超过9.8百万条记录。

记录特征

每条记录包含以下6个特征:

  • sentence (字符串) - 描述状态的自然语言(英语)句子。
  • state (字符串) - 包含感知值对的状态信息,存储为字符串形式。
  • ner_tags (字符串列表) - 句子中每个词的命名实体识别标签,存储为列表。
  • ner_sentence (字符串) - 连接在一起的命名实体识别标签,代表整个句子。
  • ner_ids (浮点数列表) - 对应于ner_tags的ID。
  • tokens (字符串列表) - 句子分割成的每个词,对应于ner_ids和ner_tags。

命名实体识别映射

NER ID 到 NER Tag 映射

ner_id_map = { 0: "O", 1: "L-DEMO", 2: "L-BA", 3: "V-BA", 4: "L-GROUND", 5: "L-BALL", 6: "L-SPEED", 7: "V-SPEED", 8: "L-DIR", 9: "V-DIR", 10: "L-BRAKE", 11: "L-STEER", 12: "V-STEER", 13: "L-THROTTLE", 14: "V-THROTTLE", 15: "L-BOOST", 16: "L-POS" }

NER Tag 到 NER ID 映射

ner_tag_map = { "O": 0, "L-DEMO": 1, "L-BA": 2, "V-BA": 3, "L-GROUND": 4, "L-BALL": 5, "L-SPEED": 6, "V-SPEED": 7, "L-DIR": 8, "V-DIR": 9, "L-BRAKE": 10, "L-STEER": 11, "V-STEER": 12, "L-THROTTLE": 13, "V-THROTTLE": 14, "L-BOOST": 15, "L-POS": 16 }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作