DiatopIt

github2023-09-01 更新2024-05-31 收录

下载链接：

https://github.com/dhfbk/diatopit

下载链接

链接失效反馈

官方服务：

资源简介：

DiatopIt是一个用于研究意大利地域语言变异的社交媒体帖子数据集。该数据集包含推文ID，用于重新获取推文内容，并分析地理位置信息。

DiatopIt is a dataset of social media posts designed for the study of regional linguistic variations in Italy. It includes tweet IDs for retrieving tweet content and analyzing geographical information.

创建时间：

2023-03-22

原始信息汇总

数据集概述

数据集名称

DiatopIt: A Corpus of Social Media Posts for the Study of Diatopic Language Variation in Italy

数据集内容

文件类型: Tweet IDs
文件位置: data/ 文件夹
文件详情:
- train.txt: 训练集，包含13,669条帖子
- dev.txt: 开发集，包含552条帖子
- test.txt: 测试集，包含818条帖子

数据集使用

数据集用于研究意大利的地理语言变异。
数据集已用于GeoLingIt shared task at EVALITA 2023.

数据集引用

引用格式:

@inproceedings{ramponi-casula-2023-diatopit, title = "{D}iatop{I}t: A Corpus of Social Media Posts for the Study of Diatopic Language Variation in {I}taly", author = "Ramponi, Alan and Casula, Camilla", booktitle = "Tenth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2023)", month = may, year = "2023", address = "Dubrovnik, Croatia", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.vardial-1.19", pages = "187--199", }

搜集汇总

数据集介绍

构建方式

DiatopIt数据集的构建基于社交媒体平台Twitter的推文数据，旨在研究意大利的地域性语言变异。数据集以推文ID的形式发布，用户需通过Twitter API进行数据水合，获取推文的具体内容。数据集包含训练集、开发集和测试集，分别包含13,669、552和818条推文。每条推文的地理位置信息通过Twitter的Place对象获取，并利用自定义函数`from_bbox_to_point()`从边界框中计算经纬度坐标。

特点

DiatopIt数据集的特点在于其专注于意大利地域性语言变异的研究，提供了丰富的社交媒体文本数据。数据集不仅包含推文文本，还附带了详细的地理位置信息，如地区名称、纬度和经度，为语言变异的地理分布研究提供了重要支持。此外，数据集的构建严格遵守Twitter的开发者政策，确保了数据的合法性和合规性。

使用方法

使用DiatopIt数据集时，用户需通过Twitter API对推文ID进行水合，获取推文的具体文本内容。地理位置信息则通过解析Twitter的Place对象获取，并使用`from_bbox_to_point()`函数计算经纬度坐标。数据集适用于自然语言处理任务，特别是地域性语言变异的研究。用户可以通过迭代推文和地点对象，提取所需信息，并结合机器学习或深度学习模型进行进一步分析。

背景与挑战

背景概述

DiatopIt数据集由Alan Ramponi和Camilla Casula于2023年创建，旨在研究意大利地理语言变体（diatopic language variation）的社会媒体文本。该数据集收录了来自Twitter的社交媒体帖子，涵盖了意大利不同地区的语言使用差异。作为VarDial 2023研讨会的一部分，DiatopIt为语言学家和计算语言学家提供了一个重要的资源，用于探索地理因素对语言变体的影响。该数据集在EVALITA 2023的GeoLingIt共享任务中得到了应用，进一步推动了意大利语言变体研究的发展。

当前挑战

DiatopIt数据集面临的主要挑战包括两个方面。首先，地理语言变体的研究需要对大量社交媒体文本进行精确的地理标注，而Twitter数据的动态性和多样性增加了标注的复杂性。其次，数据集的构建依赖于Twitter API的响应，数据的获取和重新水合（rehydration）过程可能受到API限制和数据可用性的影响。此外，如何从Twitter的边界框（bounding box）中准确提取地理位置信息，并确保其与语言变体的关联性，也是数据集构建中的一大技术挑战。

常用场景

经典使用场景

DiatopIt数据集在语言变异研究中扮演了重要角色，特别是在意大利地理方言变异的分析中。该数据集通过社交媒体帖子（如Twitter）的形式，捕捉了不同地区的语言使用差异，为研究者提供了一个丰富的语料库。通过分析这些帖子，研究者能够深入探讨地理因素如何影响语言的使用和演变。

解决学术问题

DiatopIt数据集解决了语言变异研究中的一个关键问题，即如何在大规模社交媒体数据中识别和分析地理方言变异。通过提供带有地理位置标签的社交媒体帖子，该数据集使得研究者能够精确地关联语言使用与地理分布，从而揭示出语言变异的空间模式及其背后的社会文化因素。

衍生相关工作

DiatopIt数据集衍生了一系列相关研究，特别是在自然语言处理（NLP）领域。例如，基于该数据集的研究工作开发了新的算法和模型，用于地理方言分类和语言变异检测。这些工作不仅推动了语言变异研究的发展，还为社交媒体数据分析提供了新的视角和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集