cw1521/nl-st
收藏Hugging Face2023-07-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cw1521/nl-st
下载链接
链接失效反馈官方服务:
资源简介:
该数据集可用于翻译或标记分类任务。它有两个版本:nl-st包含超过120万条记录,nl-st-lg包含超过980万条记录。每条记录包含6个特征:自然语言句子(描述状态的英语句子)、状态信息(由感知值对组成的字符串)、NER标签(句子中每个标记的NER标签列表)、NER句子(由NER标签连接而成的字符串)、NER ID(与NER标签对应的ID)和分词(句子分词后的标记列表)。此外,数据集还提供了NER ID到NER标签的映射以及NER标签到NER ID的映射。
该数据集可用于翻译或标记分类任务。它有两个版本:nl-st包含超过120万条记录,nl-st-lg包含超过980万条记录。每条记录包含6个特征:自然语言句子(描述状态的英语句子)、状态信息(由感知值对组成的字符串)、NER标签(句子中每个标记的NER标签列表)、NER句子(由NER标签连接而成的字符串)、NER ID(与NER标签对应的ID)和分词(句子分词后的标记列表)。此外,数据集还提供了NER ID到NER标签的映射以及NER标签到NER ID的映射。
提供机构:
cw1521
原始信息汇总
Natural Language to State Translation Dataset 概述
数据集版本与大小
- 版本1 (nl-st): 包含超过1.2百万条记录。
- 版本2 (nl-st-lg): 包含超过9.8百万条记录。
记录特征
每条记录包含以下6个特征:
- sentence (字符串) - 描述状态的自然语言(英语)句子。
- state (字符串) - 包含感知值对的状态信息,存储为字符串形式。
- ner_tags (字符串列表) - 句子中每个词的命名实体识别标签,存储为列表。
- ner_sentence (字符串) - 连接在一起的命名实体识别标签,代表整个句子。
- ner_ids (浮点数列表) - 对应于ner_tags的ID。
- tokens (字符串列表) - 句子分割成的每个词,对应于ner_ids和ner_tags。
命名实体识别映射
NER ID 到 NER Tag 映射
ner_id_map = { 0: "O", 1: "L-DEMO", 2: "L-BA", 3: "V-BA", 4: "L-GROUND", 5: "L-BALL", 6: "L-SPEED", 7: "V-SPEED", 8: "L-DIR", 9: "V-DIR", 10: "L-BRAKE", 11: "L-STEER", 12: "V-STEER", 13: "L-THROTTLE", 14: "V-THROTTLE", 15: "L-BOOST", 16: "L-POS" }
NER Tag 到 NER ID 映射
ner_tag_map = { "O": 0, "L-DEMO": 1, "L-BA": 2, "V-BA": 3, "L-GROUND": 4, "L-BALL": 5, "L-SPEED": 6, "V-SPEED": 7, "L-DIR": 8, "V-DIR": 9, "L-BRAKE": 10, "L-STEER": 11, "V-STEER": 12, "L-THROTTLE": 13, "V-THROTTLE": 14, "L-BOOST": 15, "L-POS": 16 }



