five

欧洲西班牙报纸标题中新兴英语借词语料库

收藏
arXiv2020-04-07 更新2024-06-21 收录
下载链接:
https://github.com/lirondos/lazaro
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集名为‘欧洲西班牙报纸标题中新兴英语借词语料库’,由布兰迪斯大学计算机科学系创建。数据集包含21,570条来自西班牙报纸的标题,这些标题均已标注了新兴的英语借词,总计244,114个词条。数据集的创建过程涉及网络爬虫技术,从西班牙在线报纸eldiario.es中提取标题,并进行了人工标注。该数据集主要用于语言学研究,特别是英语借词在西班牙语中的应用和影响,旨在通过自动化的方法识别和追踪这些借词,以促进语言变化的研究。

This dataset is named "Corpus of Emerging English Loanwords in Spanish Newspaper Headlines (Europe)". It was developed by the Department of Computer Science, Brandeis University. The dataset contains 21,570 headlines from Spanish newspapers, all annotated with emerging English loanwords, with a total of 244,114 tokens. The construction of this dataset employed web scraping technology to extract headlines from the Spanish online newspaper eldiario.es, followed by manual annotation. This dataset is primarily designed for linguistic research, especially studies on the application and impact of English loanwords in Spanish. It aims to identify and track these loanwords via automated methods to advance research on language change.
提供机构:
布兰迪斯大学计算机科学系
创建时间:
2020-04-07
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作