five

The Cuneiform Digital Library Initiative (CDLI)|楔形文字数据集|学术研究数据集

收藏
cdli.ucla.edu2024-10-26 收录
楔形文字
学术研究
下载链接:
https://cdli.ucla.edu/
下载链接
链接失效反馈
资源简介:
该数据集包含了大量的楔形文字文献,涵盖了从公元前3300年到公元1世纪的多种语言和文字系统。数据集包括文本、图像、元数据和相关研究资料,主要用于学术研究和教育目的。
提供机构:
cdli.ucla.edu
AI搜集汇总
数据集介绍
main_image_url
构建方式
Cuneiform Digital Library Initiative (CDLI) 数据集的构建基于对古代楔形文字文献的广泛收集与数字化处理。该数据集汇集了来自多个考古遗址的楔形文字泥板,通过高分辨率扫描和文本转录,将这些珍贵的历史文献转化为数字格式。构建过程中,研究团队采用了先进的图像处理技术和文本识别算法,确保了数据的高保真度和可访问性。此外,数据集还包括了详细的元数据,如泥板的年代、地点和内容分类,以便于学者进行深入研究。
特点
CDLI 数据集的显著特点在于其内容的多样性和历史价值。该数据集包含了从公元前3500年到公元1世纪的楔形文字文献,涵盖了法律、经济、宗教和文学等多个领域。数据集的数字化形式使得全球学者能够便捷地访问和研究这些珍贵的历史资料。此外,CDLI 数据集还具有开放性和协作性,鼓励学术界和公众共同参与,推动楔形文字研究的进一步发展。
使用方法
使用 CDLI 数据集时,研究者可以通过在线平台访问和下载高分辨率的泥板图像和转录文本。数据集提供了多种搜索和过滤选项,便于用户根据年代、地点和内容类型进行检索。研究者还可以利用数据集中的元数据进行统计分析和跨文化比较研究。此外,CDLI 数据集支持多种格式的导出,如XML和CSV,方便用户进行进一步的数据处理和分析。通过这些功能,CDLI 数据集为古代楔形文字研究提供了强大的工具和资源。
背景与挑战
背景概述
古文字学领域,楔形文字的研究一直依赖于考古发现和手稿记录。随着数字化技术的进步,Cuneiform Digital Library Initiative (CDLI) 数据集应运而生,旨在将这些珍贵的楔形文字资料数字化并公开。该数据集由加州大学洛杉矶分校(UCLA)和牛津大学的研究团队于2000年发起,通过扫描和数字化处理,将数千份楔形文字文献转化为可在线访问的数字资源。这一举措不仅极大地促进了学术研究,还为全球学者提供了便捷的资源共享平台,推动了古文字学的发展。
当前挑战
尽管CDLI数据集在古文字学领域取得了显著成就,但其构建过程中仍面临诸多挑战。首先,楔形文字的复杂性和多样性使得数字化过程异常繁琐,需要高度专业化的知识和技能。其次,原始文献的保存状态不一,部分手稿存在破损或模糊不清的情况,增加了数字化的难度。此外,数据集的维护和更新也是一个持续的挑战,需要不断投入人力和资源以确保数据的准确性和完整性。最后,如何有效整合和分析这些海量数据,以提取有价值的信息,也是当前研究的重点和难点。
发展历史
创建时间与更新
The Cuneiform Digital Library Initiative (CDLI) 创建于2001年,由加州大学洛杉矶分校和牛津大学共同发起。自创建以来,CDLI持续进行数据更新与扩展,最近一次重大更新发生在2021年,进一步丰富了其数据库内容。
重要里程碑
CDLI的第一个重要里程碑是2006年,当时它成功整合了来自多个考古遗址的楔形文字记录,极大地提升了数据集的完整性和学术价值。2012年,CDLI推出了在线搜索和浏览工具,使得全球学者和公众能够更便捷地访问和研究这些珍贵的历史文献。2018年,CDLI与国际楔形文字研究协会合作,进一步推动了楔形文字的标准化和数字化进程。
当前发展情况
当前,CDLI已成为全球楔形文字研究的核心资源,其数据库包含了超过50万件楔形文字记录,涵盖了从公元前3500年到公元1世纪的广泛历史时期。CDLI不仅为学术界提供了丰富的研究材料,还通过开放获取政策,促进了公众对古代文明的理解和兴趣。此外,CDLI的技术创新,如高分辨率图像和文本识别工具,为未来的数字化考古研究奠定了坚实基础,对古代语言学、历史学和考古学等领域产生了深远影响。
发展历程
  • The Cuneiform Digital Library Initiative (CDLI) 由加州大学洛杉矶分校和牛津大学的研究人员共同发起,旨在创建一个全面的数据库,收录古代美索不达米亚的楔形文字文献。
    2001年
  • CDLI 首次在线发布,提供了一个初步的楔形文字文献数据库,供学者和公众访问。
    2002年
  • CDLI 与大英博物馆合作,开始收录和数字化该博物馆收藏的楔形文字文献。
    2005年
  • CDLI 推出了新的用户界面和搜索功能,显著提升了用户体验和数据检索效率。
    2008年
  • CDLI 与德国柏林的佩加蒙博物馆合作,进一步扩展了其数据库的内容。
    2012年
  • CDLI 开始采用开放数据政策,允许学者和研究人员自由访问和使用其数据库中的数据。
    2015年
  • CDLI 推出了新的数据可视化工具,帮助用户更直观地理解和分析楔形文字文献。
    2018年
  • CDLI 与多家国际研究机构合作,启动了大规模的数字化项目,进一步丰富了其数据库的内容。
    2020年
常用场景
经典使用场景
在古代近东研究领域,The Cuneiform Digital Library Initiative (CDLI) 数据集以其丰富的楔形文字记录而著称。研究者们利用这一数据集进行文本的数字化和语料库的构建,从而深入分析古代美索不达米亚的社会结构、宗教信仰和法律制度。通过对比不同历史时期的文本,学者们能够揭示文化变迁和历史发展的脉络,为古代文明的研究提供了宝贵的数据支持。
解决学术问题
CDLI 数据集在解决古代近东研究的诸多学术问题上发挥了关键作用。首先,它通过数字化保存了大量易损的楔形文字文献,防止了文化遗产的进一步流失。其次,数据集的语料库功能使得语言学家能够进行大规模的文本分析,从而破解古代语言的语法和词汇,推动了语言学的发展。此外,通过对历史文献的系统整理,研究者们能够更准确地重建古代社会的历史图景,填补了历史研究的空白。
衍生相关工作
CDLI 数据集的推出催生了众多相关研究工作。例如,基于数据集的语料库,研究者们开发了多种文本分析工具,用于自动识别和分类楔形文字。此外,数据集还激发了对古代语言和文化的多维度研究,包括社会学、人类学和考古学等领域的交叉研究。这些衍生工作不仅深化了对古代文明的理解,也为现代信息技术在文化遗产保护中的应用提供了新的思路和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

LEVIR-CD

LEVIR-CD 是一个新的大规模遥感建筑变化检测数据集。引入的数据集将成为评估变化检测 (CD) 算法的新基准,尤其是基于深度学习的算法。 LEVIR-CD 由 637 个非常高分辨率(VHR,0.5m/像素)Google Earth (GE) 图像块对组成,大小为 1024 × 1024 像素。这些时间跨度为 5 到 14 年的双时相图像具有显着的土地利用变化,尤其是建筑增长。 LEVIR-CD涵盖别墅住宅、高层公寓、小型车库和大型仓库等各类建筑。在这里,我们关注与建筑相关的变化,包括建筑增长(从土壤/草地/硬化地面或在建建筑到新建筑区域的变化)和建筑衰退。这些双时相图像由遥感图像解释专家使用二进制标签(1 表示变化,0 表示不变)进行注释。我们数据集中的每个样本都由一个注释器进行注释,然后由另一个注释器进行双重检查以产生高质量的注释。完整注释的 LEVIR-CD 总共包含 31,333 个单独的变更构建实例。

OpenDataLab 收录