GEM/conversational_weather

Hugging Face2022-10-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/GEM/conversational_weather

下载链接

链接失效反馈

官方服务：

资源简介：

GEM/conversational_weather数据集旨在评估模型在低数据环境下学习模板结构的能力，特别是生成与天气查询相关的响应。数据集包含丰富的树结构意义表示，这些表示通过多个数据参数和话语行为指定，输入的自然语言查询和响应的注释。数据集的语言为英语，许可证为cc-by-nc-4.0。数据集的结构包括标准的数据分割（训练/验证/测试）和一个更具挑战性的子集Disc_Test。数据集的创建者包括Facebook Conversational AI的成员，数据集被添加到GEM中以便更好地评估生成模型。

提供机构：

GEM

原始信息汇总

数据集概述

数据集基本信息

数据集名称: conversational_weather
数据集ID: GEM/conversational_weather
语言: 英语 (en)
许可证: Creative Commons Attribution Non Commercial 4.0 International (cc-by-nc-4.0)
多语言性: 否
数据集大小: 未知
源数据集: 原始数据
任务类别: 表到文本 (table-to-text)
任务ID: 无
数据集标签: 数据到文本 (data-to-text)

数据集描述

目的: 评估模型在极低数据设置下学习模板类结构的能力。
任务: 生成对天气相关查询的响应，通过数据属性和话语结构进一步指定回复。
输出内容: 包含词汇化文本和属性的话语标记（例如，_ARG_TEMP_ 34）。

数据集结构

数据字段:
- gem_id: GEM格式的行ID
- id: 原始数据中的行ID
- user_query: 人类提出的自然语言天气查询
- tree_str_mr: 以树结构MR形式添加的合成用户上下文（日期时间和位置）
- response: 响应的树结构注释
示例实例: json { "gem_id": "weather-train-11", "id": "1108963", "user_query": "Show weather forecast for Oakland, CA.", "tree_str_mr": "[DG_INFORM Its [ARG_DATE_TIME [ARG_COLLOQUIAL currently ] ] [ARG_CLOUD_COVERAGE partly cloudy ] and [ARG_TEMP ARG_TEMP ] [ARG_TEMP_UNIT ARG_TEMP_UNIT ] [ARG_LOCATION in [ARG_CITY ARG_CITY ] , [ARG_REGION ARG_REGION ] , [ARG_COUNTRY ARG_COUNTRY ] ] . ] [DG_INFORM [ARG_DATE_TIME_RANGE [ARG_COLLOQUIAL This afternoon ] ] , itll be [ARG_CLOUD_COVERAGE mostly sunny ] ] [DG_INFORM with temperatures in the [ARG_TEMP_SUMMARY mid <number> ] ]", "response": "A tree-structured annotation of the response." }
数据分割:
- 标准分割: 训练/验证/测试
- 附加分割: Disc_Test（包含话语关系的更具挑战性的测试集子集）

数据集使用

预期用途: 帮助开发能够展示人类类似属性（如匹配响应与查询的框架或对比相关数据属性）的对话代理。
主要任务: 数据到文本
通信目标: 根据输入意义表示中指定的话语结构和数据属性，生成对天气查询的响应文本。

数据集创建和维护

创建者: Anusha Balakrishnan, Jinfeng Rao, Kartikeya Upasani, Michael White, Rajen Subba (Facebook Conversational AI)
资金: Facebook
维护计划: 无

数据集评估

评估指标:
- 树准确性: 测量预测中的树结构是否与输入MR的树结构完全匹配。
- BLEU-4: 常用的词重叠度量，用于评估NLG系统。
人类评估: 通过要求注释者评估不同模型产生的响应质量进行。注释者提供关于语法性和正确性的二元评级。

5,000+

优质数据集

54 个

任务类型

进入经典数据集