Dataset di dichiarazioni ambientali vaghe da report di sostenibilità
收藏NIAID Data Ecosystem2026-05-02 收录
下载链接:
https://zenodo.org/record/13894920
下载链接
链接失效反馈官方服务:
资源简介:
Descrizione del dataset
Questo dataset consiste in un campione di 100 frasi estratte come concordanze da un corpus di report di sostenibilità di aziende italiane, utilizzando lo strumento Sketch Engine. Le frasi sono state selezionate sulla base di parole chiave scelte per individuare potenziali dichiarazioni ambientali vaghe (greenwashing) all'interno del corpus. L'obiettivo dell'annotazione di queste frasi è verificare tale ipotesi e fornire un dataset iniziale per l'addestramento di modelli in grado di riconoscere automaticamente possibili casi di greenwashing. Inoltre, per arricchire l'annotazione, sono state identificate, ove possibile, alcune caratteristiche linguistiche legate all'uso della vaghezza, suddivise in cinque categorie semantiche: degree, quantity, category, time, e softening stance-taking.
Il dataset è fornito in formato CSV (separato da ";") e include le seguenti colonne:
n: un identificativo numerico per ogni frase.
enunciato: la frase estratta oggetto di annotazione.
documento: il riferimento al documento da cui è stata estratta la frase, ottenuto combinando il nome dell'azienda e l'anno di pubblicazione del report.
azienda: il nome dell'azienda che ha redatto il report.
anno: l'anno di pubblicazione del report.
ricerca: la parola chiave cercata che ha permesso di individuare la frase.
Le seguenti colonne indicano l'annotazione, con valori 1 o 0, per segnalare se la frase rientra o meno nelle rispettive categorie:
ambientale: la frase collega l'azienda a pratiche che suggeriscono un impatto positivo sull'ambiente.
vaghezza: la frase presenta elementi non espressi chiaramente, dovuti a indeterminatezza lessicale (espressioni vaghe, approssimazioni) o a omissioni sintattiche.
quantity: utilizzo di aggettivi o avverbi ambigui, o termini il cui significato dipende fortemente dal contesto e richiederebbe ulteriori spiegazioni.
degree: espressioni che indicano approssimazioni o quantità non specificate.
time: espressioni temporali generiche che mancano di precisione, omettendo la durata o la frequenza esatta delle azioni descritte.
category: espressioni che rimandano a una categoria generica di entità piuttosto che a oggetti specifici.
stance: espressioni che attenuano la presa di posizione, rendendo l'affermazione meno diretta e più negoziabile.
Nota
L'annotazione delle frasi è stata eseguita da un solo annotatore e rappresenta un lavoro preliminare nell'ambito di un progetto di dottorato. Pertanto, il dataset deve essere considerato come una base iniziale per ulteriori studi e sviluppi nel campo dell'analisi automatica delle dichiarazioni vaghe nei report di sostenibilità aziendale.
创建时间:
2025-01-21



