Persuasive Online Articles on Sustainable Diets (POASD)

github2023-06-26 更新2024-05-31 收录

可持续饮食

植物性饮食

数据链接：

https://github.com/lukas-mi/sam-crowd 数据链接链接失效反馈

官方服务：

资源简介：

该数据集包含20篇来自3个出版商的意见文章，主题围绕可持续饮食，涵盖向更可持续或植物性食品选项转变的相关内容。常见的子主题包括食品工业创新、肉类替代品、烹饪教育以及鼓励植物性饮食的社会和文化挑战。

This dataset comprises 20 opinion articles from three publishers, focusing on the theme of sustainable diets. It covers topics related to the transition towards more sustainable or plant-based food options. Common subtopics include innovations in the food industry, meat alternatives, culinary education, and the social and cultural challenges of encouraging plant-based diets.

创建时间：

2023-02-21

原始信息汇总

数据集概述

数据集名称

Structured Argument Annotation via Crowdsourcing

数据集内容

The Corpus: Persuasive Online Articles on Sustainable Diets (POASD)
- 包含20篇观点文章，来自3个出版商：
  - Plant Based News (PBN)：5篇
  - The Guardian：5篇
  - Altinget：10篇（原文及英文翻译）
- 主题为可持续饮食，涵盖以下常见子主题：
  - 食品行业的创新
  - 肉类替代品
  - 烹饪教育
  - 鼓励植物性饮食的社会和文化挑战
- 文章标题和链接可在articles.md中找到，提取的文章内容位于articles目录下，而3名众包工人的注释位于annotations目录下。

数据集服务

The Backend
- 基于psiturk框架的Web应用程序，集成Amazon Mechanical Turk (MTurk)平台。
- HITs创建通过create_hit_wrapper.py进行，与特定文章内容关联。
The Frontend
- 使用recogito-js修改版本来捕捉结构化论证挖掘任务。
- 支持四种组件类型：MajorClaim, ClaimFor, ClaimAgainst和Premise，根据Stab and Gurevych提出的框架。

其他资源

包含用于解析HITs、转换格式、预测评分等的scripts。
提供通用注释指南Annotation guidelines和项目特定交互版本。
参与者筛选/培训使用的参考注释和解释位于prep。

搜集汇总

数据集介绍

Persuasive Online Articles on Sustainable Diets (POASD) 数据集图片

构建方式

POASD数据集通过众包方式构建，精选了来自Plant Based News、The Guardian和Altinget三个出版商的20篇观点文章，涵盖可持续饮食的主题。数据收集过程中，利用psiturk框架与Amazon Mechanical Turk平台集成，通过自定义的HIT创建脚本实现文章内容与任务的关联。每篇文章由三名众包工作者进行标注，标注内容包括MajorClaim、ClaimFor、ClaimAgainst和Premise四类组件，遵循Stab和Gurevych提出的框架。

特点

POASD数据集的显著特点在于其结构化的论点标注，涵盖了可持续饮食领域的多个子话题，如食品行业创新、肉类替代品、烹饪教育及社会文化挑战等。数据集不仅提供了文章的原始内容，还包含了详细的标注信息，便于进行论点挖掘和分析。此外，数据集的多样性体现在文章来源和语言的多样性上，部分文章还提供了翻译版本，增强了数据集的广泛适用性。

使用方法

POASD数据集适用于论点挖掘和自然语言处理领域的研究，尤其适合用于训练和评估结构化论点分析模型。用户可以通过提供的标注信息，进行论点识别、分类和关系分析等任务。数据集的标注接口基于recogito-js框架，用户可以参考其交互式标注指南进行自定义标注。此外，数据集中还提供了多种脚本工具，用于数据解析、格式转换和模型评估，便于用户进行深入研究和实验。

背景与挑战

背景概述

Persuasive Online Articles on Sustainable Diets (POASD)数据集是由哥本哈根大学计算机科学硕士项目的学生创建的，旨在支持结构化论证挖掘的研究。该数据集包含了来自三个主要出版物的20篇观点文章，涵盖了可持续饮食这一广泛主题，具体涉及食品工业创新、肉类替代品、烹饪教育以及推广植物性饮食的社会和文化挑战等子主题。通过众包方式进行标注，POASD数据集不仅为研究者提供了丰富的文本资源，还展示了如何利用现代机器学习模型进行论证结构分析，从而推动了可持续饮食相关领域的研究进展。

当前挑战

POASD数据集在构建过程中面临多项挑战。首先，如何从不同来源的文章中提取并统一标注结构化论证信息，确保数据的一致性和可靠性，是一个复杂的问题。其次，众包标注过程中，如何有效管理和激励标注者，确保标注质量，也是一个重要的挑战。此外，数据集的多样性和复杂性要求研究者开发和应用先进的机器学习模型，以准确解析和理解文章中的论证结构，这进一步增加了研究的难度。

常用场景

经典使用场景

POASD数据集的经典使用场景主要集中在结构化论证挖掘领域，特别是在可持续饮食相关的在线文章中。研究者可以利用该数据集进行论证结构的自动识别和分类，分析文章中的主要论点（MajorClaim）、支持论点（ClaimFor）、反对论点（ClaimAgainst）以及前提（Premise）。这种分析有助于理解不同媒体在倡导可持续饮食方面的论证策略和说服技巧，为后续的文本分析和机器学习模型提供丰富的训练数据。

实际应用

POASD数据集在实际应用中具有广泛的前景，特别是在媒体分析、公共政策制定和消费者行为研究等领域。例如，政策制定者可以利用该数据集分析不同媒体在倡导可持续饮食方面的论证策略，从而制定更有针对性的公共政策。此外，食品行业的企业可以通过分析这些文章中的创新点和挑战，优化产品开发和市场推广策略。消费者则可以通过阅读这些经过结构化分析的文章，更清晰地理解可持续饮食的益处和实施难点。

衍生相关工作

POASD数据集的发布催生了一系列相关的经典工作，特别是在论证挖掘和文本分析领域。例如，研究者基于该数据集开发了多种论证结构识别模型，提升了自动标注的准确性和效率。此外，该数据集还被用于探索跨文化论证分析的方法，揭示了不同文化背景下论证策略的差异。这些衍生工作不仅丰富了论证挖掘的理论体系，还为实际应用提供了有力的技术支持。

以上内容由遇见数据集搜集并总结生成