five

R5dwMg/foodiereview_yue

收藏
Hugging Face2024-05-01 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/R5dwMg/foodiereview_yue
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自openrice网站的粤语(Yue)食品评论,这些评论由用户生成,涵盖了餐厅体验、食品质量、氛围、服务等相关主题。特别关注的是以口语风格撰写的评论,捕捉了粤语的对话和口语特点。数据格式为JSON Lines (JSONL)。

该数据集包含来自openrice网站的粤语(Yue)食品评论,这些评论由用户生成,涵盖了餐厅体验、食品质量、氛围、服务等相关主题。特别关注的是以口语风格撰写的评论,捕捉了粤语的对话和口语特点。数据格式为JSON Lines (JSONL)。
提供机构:
R5dwMg
原始信息汇总

数据集概述

基本信息

  • 大小范围: 1K<n<10K
  • 许可证: cc

数据集描述

  • 语言: Yue (Cantonese)
  • 来源: openrice
  • 类型: 用户生成的食品评论
  • 格式: JSON Lines (JSONL)

内容特点

  • 专注于粤语(Cantonese)口语风格的食品评论。
  • 评论内容包括餐厅体验、食品质量、氛围、服务及其他相关话题。

选择标准

  • 评论选择侧重于口语化和非正式表达。
  • 每条评论都经过手动审查,以确保其具有随意、口语化的语调,使用俚语或非正式表达。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自知名餐饮评价平台OpenRice,专注于收录粤语(Cantonese)用户生成的美食评论。构建过程中,研究者通过人工审查的方式,精心筛选出以口语化风格撰写的评论文本,重点捕捉其中蕴含的俚语、非正式表达及对话式语言特征,从而确保数据集真实反映粤语在日常餐饮场景中的自然使用面貌。
特点
数据集规模介于1千至1万条之间,以JSON Lines格式存储,便于高效处理。其核心特色在于聚焦粤语口语体评论,区别于书面语或正式文本,能够忠实呈现用户对餐厅体验、食物品质、环境氛围及服务等方面的鲜活评价。这种对口语化自然语言的侧重,使其在方言自然语言处理与情感分析研究中具有独特价值。
使用方法
用户可通过HuggingFace平台直接加载该数据集,利用标准数据工具进行解析与预处理。适用于训练粤语语言模型、开展方言情感分析、构建对话系统或进行社会语言学实证研究。建议在使用时注意口语文本中的非规范表达与地域文化背景,以提升模型在真实粤语场景中的适应能力。
背景与挑战
背景概述
在自然语言处理领域,方言与口语化文本的语料资源长期稀缺,尤其是粤语(Cantonese)等非标准汉语变体,其独特的语法结构和词汇体系对语言模型提出了特殊挑战。R5dwMg/foodiereview_yue数据集由研究人员于近期创建,源自香港知名餐饮点评平台OpenRice,专注于收集粤语口语风格的用户生成评论。该数据集的核心研究问题在于捕捉餐饮场景下粤语口语的鲜活表达,涵盖食物质量、用餐氛围、服务态度等多元维度,为方言情感分析、口语化文本生成及跨方言迁移学习提供了关键基准。其影响力体现在填补了粤语非正式文本资源的空白,推动低资源语言处理技术向真实生活场景延伸。
当前挑战
该数据集面临的核心挑战包括:1)在领域问题层面,粤语口语评论中存在大量俚语、语气词及语码混合现象(如中英夹杂),传统情感分类模型难以准确捕捉其语义极性,且现有预训练语言模型对粤语口语的泛化能力有限;2)在构建过程中,数据筛选需依赖人工逐条审阅评论的写作风格以确定口语化程度,这一过程耗时且易受标注者主观判断影响,导致样本分布存在潜在偏差。此外,OpenRice平台评论的匿名性使得用户背景信息缺失,难以控制地域口音或个体表达习惯的多样性,进一步增加了模型鲁棒性验证的难度。
常用场景
经典使用场景
在粤语自然语言处理与计算语言学领域,foodiereview_yue数据集为研究口语化粤语文本提供了稀缺的语料资源。其经典使用场景聚焦于方言情感分析、口语化文本的命名实体识别以及低资源语言的序列标注任务。研究者可借助该数据集训练专用于粤语的预训练语言模型,或探索口语与书面语混合场景下的语义理解方法。
实际应用
在实际应用中,该数据集可赋能餐饮行业的智能客服系统,支持粤语用户评论的自动情感分类与关键信息抽取。商家能借此分析食客对菜品、服务与环境的真实反馈,优化运营策略。同时,它可用于开发粤语语音助手的文本理解模块,或构建面向香港、澳门及海外粤语社群的社会舆情监测工具。
衍生相关工作
该数据集衍生了一系列开创性工作,包括粤语口语情感分析基准模型的建立、基于对比学习的方言文本表示方法,以及融合粤语拼音与汉字的混合编码器。部分研究将其作为跨方言情感迁移学习的源域数据,还有工作利用该数据集探索口语化文本中的讽刺检测与细粒度属性级情感分析,拓展了低资源方言的研究边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作