ETCSANS|语言学数据集|历史研究数据集

github2022-12-30 更新2024-05-31 收录

语言学

历史研究

下载链接：

https://github.com/cdli-gh/ETCSANS

下载链接

链接失效反馈

资源简介：

ETCSANS是一个新苏美尔语的语法标注电子文本语料库，旨在通过创新的标注工作流程，提供对苏美尔文本的语法分析，以改善对这些文本的访问，不仅面向更广泛的受众，也面向机器。该语料库是机器翻译和自动标注楔形文字语言项目（MTAAC）的成果，由多所大学合作完成，主要用于研究新苏美尔时期（公元前2100-2000年）的经济和社会。

ETCSANS is an electronically annotated corpus of Neo-Sumerian grammar, designed to provide grammatical analysis of Sumerian texts through an innovative annotation workflow, thereby improving access to these texts not only for a broader audience but also for machines. This corpus is a product of the Machine Translation and Automated Analysis of Cuneiform Languages project (MTAAC), a collaborative effort among several universities, primarily used for research into the economy and society of the Neo-Sumerian period (2100-2000 BCE).

创建时间：

2021-12-04

原始信息汇总

数据集概述：电子文本语料库的句法标注新苏美尔语（ETCSANS）

数据集描述

名称：电子文本语料库的句法标注新苏美尔语（ETCSANS）
目的：提供新苏美尔时期（公元前2100-2000年）经济和社会研究的工具。
特点：首个提供句法标注的苏美尔语文本数据集，填补了句法和语义分析资源的空白。
合作机构：多伦多大学、法兰克福歌德大学和加州大学洛杉矶分校。
项目背景：作为CDLI和MTAAC项目的一部分，旨在改善对苏美尔文本的访问。

数据集内容

核心语料库：包含24,460个句法标注文本，覆盖约22%的新苏美尔文本数据。
子语料库：
- 交易子语料库：22,276文本，1,742,634词。
- 平行子语料库：1,572文本，46,321词。
- 皇家子语料库：612文本，9,133词。
扩展语料库：包含47,476文本，1,775,582词，提供自动形态学和命名实体标注。

数据集使用

句法标注：主要基于手动标注或翻译，依赖于Universal Dependencies模型。
未来计划：计划通过CDLI进行众包审核过程，以改进和验证标注。

已知问题

版本0.1/扩展：从形态学格式转换为句法格式，运行标注器。
版本0.1/核心：交易子语料库仅提供部分标注，需补充基于形态学的预标注。
皇家子语料库：包含来自ETCSRI语料库的形态学标注，存在转录和分词差异。

历史版本

v.0.1a：2021年12月8日，初始转换交易子语料库。
v.0.1：2021年12月4日，整合语料库仓库。

支持与资助

资助：MTAAC项目。
学生支持：GSoC。
部分支持：LiODi。

AI搜集汇总

数据集介绍

构建方式

ETCSANS数据集的构建基于一个创新的注释工作流程，旨在为苏美尔语提供首个句法注释语料库。该数据集是三边项目“楔形文字语言的机器翻译与自动注释”（MTAAC）的成果，由多伦多大学、法兰克福歌德大学和加州大学洛杉矶分校合作完成。数据集的核心语料库包含24,460个句法注释文本，覆盖了约22%的新苏美尔时期文本数据。注释工作主要依赖于半自动化的方式，通过领域特性、注释投影和现有形态注释进行引导。

特点

ETCSANS数据集的特点在于其首次为苏美尔语提供了句法注释，填补了现有资源在句法和语义分析方面的空白。数据集遵循通用依存关系（UD）模型，采用跨语言适用的依存标签，并面向语义进行句法分析。核心语料库分为三个子集：交易子集、平行子集和皇家子集，分别基于领域特性、注释投影和现有形态注释进行构建。此外，扩展语料库包含47,476个文本，提供了自动化的形态和命名实体注释。

使用方法

ETCSANS数据集的使用方法主要面向研究新苏美尔时期经济与社会的学者。用户可以通过数据集提供的句法注释进行具体的语言学研究，尤其是句法结构和语义分析。数据集还计划通过CDLI平台进行众包注释的改进与验证，以提高注释的准确性。相关工具和资源可在数据集提供的`tools/`文件夹中找到，便于用户进行进一步的分析和应用。

背景与挑战

背景概述

ETCSANS（Electronic Text Corpus of Syntactically Annotated Neo-Sumerian）数据集是研究新苏美尔时期（公元前2100-2000年）经济与社会的重要工具，由多伦多大学、法兰克福歌德大学和加州大学洛杉矶分校合作开发。该数据集是‘楔形文字语言机器翻译与自动注释’（MTAAC）项目的成果，旨在填补苏美尔语文本在句法注释方面的空白。ETCSANS通过创新的注释工作流程，首次为新苏美尔文本提供了句法注释，并采用了通用依存（Universal Dependencies）模型，以支持跨语言的句法分析。该数据集包含24,460篇句法注释文本，覆盖了新苏美尔文本总量的22%，为研究苏美尔语言和文化提供了重要的数字化资源。

当前挑战

ETCSANS数据集在构建过程中面临多重挑战。首先，苏美尔语的复杂书写系统和语言特性使得手动注释主要集中在形态学层面，而句法注释则依赖于翻译和自动化工具，导致注释的准确性和一致性难以完全保证。其次，尽管ETCSANS通过半自动化方式扩展了注释范围，但其核心语料库的句法注释仍依赖于手动或翻译生成，这在高专业要求的背景下不可避免。此外，数据集中的部分子语料库（如皇家子语料库）存在注释投影问题，可能导致注释错误。未来，通过众包流程改进和验证注释将是解决这些挑战的关键方向。

常用场景

经典使用场景

ETCSANS数据集在语言学研究中扮演着重要角色，特别是在古代苏美尔语的句法分析领域。该数据集通过提供大量经过句法标注的文本，为研究者提供了深入分析苏美尔语句法结构的宝贵资源。经典使用场景包括对苏美尔语文本的句法树构建、句法规则提取以及跨语言句法对比研究。这些研究不仅有助于理解苏美尔语的句法特征，还为其他古代语言的句法研究提供了参考。

实际应用

ETCSANS数据集的实际应用场景广泛，涵盖了从历史语言学、古代社会研究到机器翻译等多个领域。在历史语言学中，该数据集可用于重建古代苏美尔语的句法体系，揭示其语言演变规律。在古代社会研究中，ETCSANS的文本内容为研究新苏美尔时期的经济和社会结构提供了重要线索。此外，该数据集还为开发苏美尔语与其他语言的机器翻译系统提供了基础数据支持。

衍生相关工作

ETCSANS数据集催生了一系列相关研究，特别是在古代语言处理和跨语言句法分析领域。基于该数据集的研究工作包括苏美尔语句法规则的自动提取、古代文本的语义分析以及跨语言句法对比研究。此外，ETCSANS还为其他古代语言的句法标注项目提供了参考，推动了古代语言处理技术的发展。这些衍生工作不仅丰富了苏美尔语研究的学术成果，还为其他古代语言的研究提供了方法论上的借鉴。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

CHARLS

中国健康与养老追踪调查（CHARLS）数据集，旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据，用以分析人口老龄化问题，内容包括健康状况、经济状况、家庭结构和社会支持等。

charls.pku.edu.cn 收录

Fruits-360

一个高质量的水果图像数据集，包含多种水果的图像，如苹果、香蕉、樱桃等，总计42345张图片，分为训练集和验证集，共有64个水果类别。

github 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据，包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态，适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库，由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物，并经过仔细分割和对齐。

OpenDataLab 收录