fathyshalab/massive_takeaway-de-DE
收藏Hugging Face2023-03-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/fathyshalab/massive_takeaway-de-DE
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: string
- name: locale
dtype: string
- name: partition
dtype: string
- name: scenario
dtype:
class_label:
names:
'0': social
'1': transport
'2': calendar
'3': play
'4': news
'5': datetime
'6': recommendation
'7': email
'8': iot
'9': general
'10': audio
'11': lists
'12': qa
'13': cooking
'14': takeaway
'15': music
'16': alarm
'17': weather
- name: intent
dtype:
class_label:
names:
'0': datetime_query
'1': iot_hue_lightchange
'2': transport_ticket
'3': takeaway_query
'4': qa_stock
'5': general_greet
'6': recommendation_events
'7': music_dislikeness
'8': iot_wemo_off
'9': cooking_recipe
'10': qa_currency
'11': transport_traffic
'12': general_quirky
'13': weather_query
'14': audio_volume_up
'15': email_addcontact
'16': takeaway_order
'17': email_querycontact
'18': iot_hue_lightup
'19': recommendation_locations
'20': play_audiobook
'21': lists_createoradd
'22': news_query
'23': alarm_query
'24': iot_wemo_on
'25': general_joke
'26': qa_definition
'27': social_query
'28': music_settings
'29': audio_volume_other
'30': calendar_remove
'31': iot_hue_lightdim
'32': calendar_query
'33': email_sendemail
'34': iot_cleaning
'35': audio_volume_down
'36': play_radio
'37': cooking_query
'38': datetime_convert
'39': qa_maths
'40': iot_hue_lightoff
'41': iot_hue_lighton
'42': transport_query
'43': music_likeness
'44': email_query
'45': play_music
'46': audio_volume_mute
'47': social_post
'48': alarm_set
'49': qa_factoid
'50': calendar_set
'51': play_game
'52': alarm_remove
'53': lists_remove
'54': transport_taxi
'55': recommendation_movies
'56': iot_coffee
'57': music_query
'58': play_podcasts
'59': lists_query
- name: text
dtype: string
- name: annot_utt
dtype: string
- name: worker_id
dtype: string
- name: slot_method
sequence:
- name: slot
dtype: string
- name: method
dtype: string
- name: judgments
sequence:
- name: worker_id
dtype: string
- name: intent_score
dtype: int8
- name: slots_score
dtype: int8
- name: grammar_score
dtype: int8
- name: spelling_score
dtype: int8
- name: language_identification
dtype: string
- name: label_name
dtype: string
- name: label
dtype: int64
splits:
- name: train
num_bytes: 85401
num_examples: 257
- name: validation
num_bytes: 13974
num_examples: 44
- name: test
num_bytes: 18174
num_examples: 57
download_size: 51358
dataset_size: 117549
---
# Dataset Card for "massive_takeaway-de-DE"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
---
数据集信息:
特征项:
- 名称:id,数据类型:字符串类型(string)
- 名称:locale,数据类型:字符串类型
- 名称:partition,数据类型:字符串类型
- 名称:scenario,数据类型:类别标签(class_label),其标签映射如下:
'0': 社交(social)
'1': 交通(transport)
'2': 日历(calendar)
'3': 游玩(play)
'4': 新闻(news)
'5': 日期时间(datetime)
'6': 推荐(recommendation)
'7': 邮件(email)
'8': 物联网(IoT, Internet of Things)
'9': 通用(general)
'10': 音频(audio)
'11': 列表管理(lists)
'12': 问答(QA, Question Answering)
'13': 烹饪(cooking)
'14': 外卖(takeaway)
'15': 音乐(music)
'16': 闹钟(alarm)
'17': 天气(weather)
- 名称:intent,数据类型:类别标签(class_label),其标签映射如下:
'0': 日期时间查询(datetime_query)
'1': 物联网飞利浦Hue灯光调节(iot_hue_lightchange)
'2': 交通票务(transport_ticket)
'3': 外卖咨询(takeaway_query)
'4': 问答-股票查询(qa_stock)
'5': 通用问候(general_greet)
'6': 活动推荐(recommendation_events)
'7': 音乐不喜欢反馈(music_dislikeness)
'8': 物联网WeMo设备关闭(iot_wemo_off)
'9': 烹饪菜谱查询(cooking_recipe)
'10': 问答-货币查询(qa_currency)
'11': 交通路况查询(transport_traffic)
'12': 通用趣味交互(general_quirky)
'13': 天气查询(weather_query)
'14': 音频音量上调(audio_volume_up)
'15': 邮件添加联系人(email_addcontact)
'16': 外卖下单(takeaway_order)
'17': 邮件查询联系人(email_querycontact)
'18': 物联网飞利浦Hue灯光点亮(iot_hue_lightup)
'19': 地点推荐(recommendation_locations)
'20': 播放有声书(play_audiobook)
'21': 列表创建/添加(lists_createoradd)
'22': 新闻查询(news_query)
'23': 闹钟查询(alarm_query)
'24': 物联网WeMo设备开启(iot_wemo_on)
'25': 通用讲笑话(general_joke)
'26': 问答-定义查询(qa_definition)
'27': 社交咨询(social_query)
'28': 音乐设置调整(music_settings)
'29': 音频其他音量操作(audio_volume_other)
'30': 日历事项删除(calendar_remove)
'31': 物联网飞利浦Hue灯光调暗(iot_hue_lightdim)
'32': 日历事项查询(calendar_query)
'33': 邮件发送(email_sendemail)
'34': 物联网清洁设备控制(iot_cleaning)
'35': 音频音量下调(audio_volume_down)
'36': 播放广播(play_radio)
'37': 烹饪咨询(cooking_query)
'38': 日期时间转换(datetime_convert)
'39': 问答-数学计算(qa_maths)
'40': 物联网飞利浦Hue灯光关闭(iot_hue_lightoff)
'41': 物联网飞利浦Hue灯光开启(iot_hue_lighton)
'42': 交通信息查询(transport_query)
'43': 音乐喜欢反馈(music_likeness)
'44': 邮件查询(email_query)
'45': 播放音乐(play_music)
'46': 音频静音(audio_volume_mute)
'47': 社交发帖(social_post)
'48': 闹钟设置(alarm_set)
'49': 问答-事实类查询(qa_factoid)
'50': 日历事项设置(calendar_set)
'51': 游玩游戏(play_game)
'52': 闹钟删除(alarm_remove)
'53': 列表事项删除(lists_remove)
'54': 出租车叫车(transport_taxi)
'55': 电影推荐(recommendation_movies)
'56': 物联网咖啡机控制(iot_coffee)
'57': 音乐查询(music_query)
'58': 播放播客(play_podcasts)
'59': 列表查询(lists_query)
- 名称:text,数据类型:字符串类型
- 名称:annot_utt,数据类型:字符串类型
- 名称:worker_id,数据类型:字符串类型
- 名称:slot_method,序列类型字段,包含子字段:
- slot:槽位名称,数据类型:字符串类型
- method:提取方法,数据类型:字符串类型
- 名称:judgments,序列类型字段,包含子字段:
- worker_id:标注人员ID,数据类型:字符串类型
- intent_score:意图标注得分,数据类型:8位整数类型(int8)
- slots_score:槽位标注得分,数据类型:8位整数类型(int8)
- grammar_score:语法评分,数据类型:8位整数类型(int8)
- spelling_score:拼写评分,数据类型:8位整数类型(int8)
- language_identification:语言识别结果,数据类型:字符串类型
- 名称:label_name,数据类型:字符串类型
- 名称:label,数据类型:64位整数类型(int64)
数据集拆分:
- 拆分标识:train(训练集),字节占用大小:85401,样本总数:257
- 拆分标识:validation(验证集),字节占用大小:13974,样本总数:44
- 拆分标识:test(测试集),字节占用大小:18174,样本总数:57
下载总大小:51358,数据集总占用大小:117549
---
# 「massive_takeaway-de-DE」数据集卡片
[如需获取更多信息,请访问](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
fathyshalab
原始信息汇总
数据集概述
数据集名称
"massive_takeaway-de-DE"
数据集特征
- id: 字符串类型
- locale: 字符串类型
- partition: 字符串类型
- scenario: 分类标签,包括 social, transport, calendar 等18种场景
- intent: 分类标签,包括 datetime_query, iot_hue_lightchange 等50种意图
- text: 字符串类型
- annot_utt: 字符串类型
- worker_id: 字符串类型
- slot_method: 序列类型,包含 slot 和 method 两个子特征,均为字符串类型
- judgments: 序列类型,包含 worker_id, intent_score, slots_score, grammar_score, spelling_score 和 language_identification,其中 intent_score, slots_score, grammar_score, spelling_score 为 int8 类型,language_identification 为字符串类型
- label_name: 字符串类型
- label: int64 类型
数据集分割
- train: 257个样本,占用85401字节
- validation: 44个样本,占用13974字节
- test: 57个样本,占用18174字节
数据集大小
- 下载大小: 51358字节
- 数据集总大小: 117549字节
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,德语任务型对话数据集的构建对于提升智能助手的多语言理解能力至关重要。该数据集基于大规模多语言对话语料库MASSIVE,通过精心筛选与标注流程构建而成。具体而言,构建者从原始数据中提取了与“外卖”场景相关的德语子集,涵盖了从查询到订购的完整意图序列。每个样本均包含原始文本、标准化表述及详细的标注信息,如场景分类、意图标签和槽位填充方法。数据划分遵循标准机器学习实践,分为训练集、验证集和测试集,确保了模型评估的可靠性与可复现性。
特点
该数据集在德语任务型对话研究中展现出鲜明的特征。其核心在于专注于“外卖”这一特定垂直领域,涵盖了查询与订购两类主要意图,并细分为多样化的子场景,如食物选择、配送安排等。数据集中每个样本均附有丰富的元数据,包括多维度的人工评估分数,如意图准确性、槽位填充质量、语法正确性及拼写检查,为模型性能提供了细致的评估基准。此外,数据集严格遵循德语语言规范,确保了语言的地道性与实用性,适用于构建高精度的德语对话系统。
使用方法
在应用层面,该数据集为德语任务型对话系统的开发与评估提供了坚实基础。研究者可直接通过HuggingFace平台加载数据集,利用其标准化的训练、验证和测试划分进行模型训练与调优。典型应用包括意图识别与槽位填充联合建模,可基于提供的文本、意图标签及槽位方法字段构建端到端的对话理解模型。数据集中的人工评估分数可作为额外的监督信号,用于模型优化或误差分析。此外,该数据集也可用于跨语言迁移学习研究,通过与其他语言版本的MASSIVE子集结合,探索多语言对话理解的通用表征。
背景与挑战
背景概述
在自然语言处理领域,多语言任务导向对话系统的研究日益受到关注,旨在提升智能助手在跨语言环境下的理解与交互能力。数据集fathyshalab/massive_takeaway-de-DE作为MASSIVE数据集的一个德语子集,专注于外卖订餐场景,由相关研究机构于近年构建,以支持意图识别与槽位填充等核心任务。该数据集通过标注丰富的意图类别和场景信息,为德语语境下的对话系统开发提供了关键资源,推动了多语言人机交互技术的进步,尤其在提升商业应用中的本地化服务体验方面具有显著影响力。
当前挑战
该数据集旨在解决德语外卖订餐场景中的意图识别与槽位填充挑战,这要求模型精准理解用户查询的语义细微差别,并处理德语特有的语法结构和词汇变体。在构建过程中,挑战包括确保标注的一致性与准确性,尤其是在多意图和复杂槽位组合的情况下;同时,数据收集需覆盖德语方言和口语化表达,以增强模型的泛化能力,避免因语言多样性导致的性能下降。
常用场景
经典使用场景
在德语自然语言处理领域,fathyshalab/massive_takeaway-de-DE数据集为意图识别与槽位填充任务提供了精准的语料支持。该数据集聚焦于外卖订餐场景,涵盖了从查询菜单到下单订购的完整对话流程,通过标注清晰的意图类别和实体槽位,为模型训练与评估奠定了坚实基础。研究者可借助其丰富的标注信息,构建能够理解用户订餐需求的智能对话系统,推动德语语境下任务型对话技术的演进。
衍生相关工作
围绕该数据集,学术界衍生出一系列经典研究工作,包括基于预训练语言模型的德语意图识别框架、跨场景槽位填充迁移学习算法,以及多任务对话理解联合优化方法。这些工作不仅拓展了数据集的学术价值,还催生了如Massive多语言对话基准等更广泛的评估体系,为德语乃至多语言对话系统的标准化发展注入了持续动力。
数据集最近研究
最新研究方向
在自然语言处理领域,德语外卖场景数据集massive_takeaway-de-DE为多语言对话系统研究提供了关键资源。该数据集聚焦于外卖查询与订单等具体意图,结合物联网、社交等多样化场景,推动了跨领域意图识别与槽位填充技术的融合探索。当前前沿研究侧重于利用该数据集提升低资源语言下的语义理解精度,通过迁移学习与多任务框架优化模型泛化能力,以应对智能助理在真实环境中的复杂交互需求。相关热点事件如欧洲数字语言资源计划的推进,进一步凸显了此类数据集在促进语言技术公平性与可及性方面的重要意义,为构建包容性人工智能生态系统奠定了数据基础。
以上内容由遇见数据集搜集并总结生成



