DiatopIt
收藏github2023-09-01 更新2024-05-31 收录
下载链接:
https://github.com/dhfbk/diatopit
下载链接
链接失效反馈官方服务:
资源简介:
DiatopIt是一个用于研究意大利地域语言变异的社交媒体帖子数据集。该数据集包含推文ID,用于重新获取推文内容,并分析地理位置信息。
DiatopIt is a dataset of social media posts designed for the study of regional linguistic variations in Italy. It includes tweet IDs for retrieving tweet content and analyzing geographical information.
创建时间:
2023-03-22
原始信息汇总
数据集概述
数据集名称
DiatopIt: A Corpus of Social Media Posts for the Study of Diatopic Language Variation in Italy
数据集内容
- 文件类型: Tweet IDs
- 文件位置:
data/文件夹 - 文件详情:
train.txt: 训练集,包含13,669条帖子dev.txt: 开发集,包含552条帖子test.txt: 测试集,包含818条帖子
数据集使用
- 数据集用于研究意大利的地理语言变异。
- 数据集已用于GeoLingIt shared task at EVALITA 2023.
数据集引用
-
引用格式:
@inproceedings{ramponi-casula-2023-diatopit, title = "{D}iatop{I}t: A Corpus of Social Media Posts for the Study of Diatopic Language Variation in {I}taly", author = "Ramponi, Alan and Casula, Camilla", booktitle = "Tenth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2023)", month = may, year = "2023", address = "Dubrovnik, Croatia", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.vardial-1.19", pages = "187--199", }
搜集汇总
数据集介绍

构建方式
DiatopIt数据集的构建基于社交媒体平台Twitter的推文数据,旨在研究意大利的地域性语言变异。数据集以推文ID的形式发布,用户需通过Twitter API进行数据水合,获取推文的具体内容。数据集包含训练集、开发集和测试集,分别包含13,669、552和818条推文。每条推文的地理位置信息通过Twitter的Place对象获取,并利用自定义函数`from_bbox_to_point()`从边界框中计算经纬度坐标。
特点
DiatopIt数据集的特点在于其专注于意大利地域性语言变异的研究,提供了丰富的社交媒体文本数据。数据集不仅包含推文文本,还附带了详细的地理位置信息,如地区名称、纬度和经度,为语言变异的地理分布研究提供了重要支持。此外,数据集的构建严格遵守Twitter的开发者政策,确保了数据的合法性和合规性。
使用方法
使用DiatopIt数据集时,用户需通过Twitter API对推文ID进行水合,获取推文的具体文本内容。地理位置信息则通过解析Twitter的Place对象获取,并使用`from_bbox_to_point()`函数计算经纬度坐标。数据集适用于自然语言处理任务,特别是地域性语言变异的研究。用户可以通过迭代推文和地点对象,提取所需信息,并结合机器学习或深度学习模型进行进一步分析。
背景与挑战
背景概述
DiatopIt数据集由Alan Ramponi和Camilla Casula于2023年创建,旨在研究意大利地理语言变体(diatopic language variation)的社会媒体文本。该数据集收录了来自Twitter的社交媒体帖子,涵盖了意大利不同地区的语言使用差异。作为VarDial 2023研讨会的一部分,DiatopIt为语言学家和计算语言学家提供了一个重要的资源,用于探索地理因素对语言变体的影响。该数据集在EVALITA 2023的GeoLingIt共享任务中得到了应用,进一步推动了意大利语言变体研究的发展。
当前挑战
DiatopIt数据集面临的主要挑战包括两个方面。首先,地理语言变体的研究需要对大量社交媒体文本进行精确的地理标注,而Twitter数据的动态性和多样性增加了标注的复杂性。其次,数据集的构建依赖于Twitter API的响应,数据的获取和重新水合(rehydration)过程可能受到API限制和数据可用性的影响。此外,如何从Twitter的边界框(bounding box)中准确提取地理位置信息,并确保其与语言变体的关联性,也是数据集构建中的一大技术挑战。
常用场景
经典使用场景
DiatopIt数据集在语言变异研究中扮演了重要角色,特别是在意大利地理方言变异的分析中。该数据集通过社交媒体帖子(如Twitter)的形式,捕捉了不同地区的语言使用差异,为研究者提供了一个丰富的语料库。通过分析这些帖子,研究者能够深入探讨地理因素如何影响语言的使用和演变。
解决学术问题
DiatopIt数据集解决了语言变异研究中的一个关键问题,即如何在大规模社交媒体数据中识别和分析地理方言变异。通过提供带有地理位置标签的社交媒体帖子,该数据集使得研究者能够精确地关联语言使用与地理分布,从而揭示出语言变异的空间模式及其背后的社会文化因素。
衍生相关工作
DiatopIt数据集衍生了一系列相关研究,特别是在自然语言处理(NLP)领域。例如,基于该数据集的研究工作开发了新的算法和模型,用于地理方言分类和语言变异检测。这些工作不仅推动了语言变异研究的发展,还为社交媒体数据分析提供了新的视角和方法。
以上内容由遇见数据集搜集并总结生成



