five

iahlt/UD_Hebrew-IAHLTwiki

收藏
Hugging Face2023-11-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/iahlt/UD_Hebrew-IAHLTwiki
下载链接
链接失效反馈
官方服务:
资源简介:
UD Hebrew-IAHLTWiki树库包含5000个当代希伯来语句子,这些句子来自Wikipedia条目,涵盖了传记、法律、金融、健康、地点、事件和杂项等多种文本领域。该树库基于希伯来树库(HTB)转换为最新的UD V2版本,并经过UD发布V2.10的验证,以及使用grewv工具进行的一系列额外验证。HTB版本在项目中首先自动转换,然后手动验证并采用为UD解析模型的黄金标准。整个解析数据经过手动编辑以纠正解析错误,并自动进行质量保证以应用模式更新后的更正。

UD Hebrew-IAHLTWiki树库包含5000个当代希伯来语句子,这些句子来自Wikipedia条目,涵盖了传记、法律、金融、健康、地点、事件和杂项等多种文本领域。该树库基于希伯来树库(HTB)转换为最新的UD V2版本,并经过UD发布V2.10的验证,以及使用grewv工具进行的一系列额外验证。HTB版本在项目中首先自动转换,然后手动验证并采用为UD解析模型的黄金标准。整个解析数据经过手动编辑以纠正解析错误,并自动进行质量保证以应用模式更新后的更正。
提供机构:
iahlt
原始信息汇总

数据集概述

基本信息

  • 许可证: cc-by-sa-4.0
  • 标注创建者: expert-generated
  • 任务类别: token-classification
  • 标签: constituency-parsing, dependency-parsing
  • 语言: he

数据集介绍

  • 名称: UD Hebrew-IAHLTWiki
  • 来源: IAHLT UD Hebrew Treebank的Wikipedia部分
  • 句子数量: 5,000
  • 文本类型: 来自Wikipedia条目的当代希伯来语句子,涵盖传记、法律、金融、健康、地点、事件和杂项等领域。
  • 数据处理: 基于希伯来语树库(HTB)转换为最新的UD V2版本,并经过Universal Dependencies验证器和grewv工具的额外验证。
  • 数据质量: 初始自动转换后,部分数据手动验证并作为金标准用于训练UD解析模型。所有解析数据均经过手动编辑以纠正错误,并自动进行质量保证以应用架构更新后的修正。

引用信息

  • 论文引用:

    @InProceedings{ZeldesHowellOrdanBenMoshe2022, author = {Amir Zeldes and Nick Howell and Noam Ordan and Yifat Ben Moshe}, booktitle = {Proceedings of {EMNLP} 2022}, title = {A SecondWave of UD Hebrew Treebanking and Cross-Domain Parsing}, year = {2022}, address = {Abu Dhabi, UAE}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作