iahlt/UD_Hebrew-IAHLTwiki
收藏Hugging Face2023-11-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/iahlt/UD_Hebrew-IAHLTwiki
下载链接
链接失效反馈官方服务:
资源简介:
UD Hebrew-IAHLTWiki树库包含5000个当代希伯来语句子,这些句子来自Wikipedia条目,涵盖了传记、法律、金融、健康、地点、事件和杂项等多种文本领域。该树库基于希伯来树库(HTB)转换为最新的UD V2版本,并经过UD发布V2.10的验证,以及使用grewv工具进行的一系列额外验证。HTB版本在项目中首先自动转换,然后手动验证并采用为UD解析模型的黄金标准。整个解析数据经过手动编辑以纠正解析错误,并自动进行质量保证以应用模式更新后的更正。
UD Hebrew-IAHLTWiki树库包含5000个当代希伯来语句子,这些句子来自Wikipedia条目,涵盖了传记、法律、金融、健康、地点、事件和杂项等多种文本领域。该树库基于希伯来树库(HTB)转换为最新的UD V2版本,并经过UD发布V2.10的验证,以及使用grewv工具进行的一系列额外验证。HTB版本在项目中首先自动转换,然后手动验证并采用为UD解析模型的黄金标准。整个解析数据经过手动编辑以纠正解析错误,并自动进行质量保证以应用模式更新后的更正。
提供机构:
iahlt
原始信息汇总
数据集概述
基本信息
- 许可证: cc-by-sa-4.0
- 标注创建者: expert-generated
- 任务类别: token-classification
- 标签: constituency-parsing, dependency-parsing
- 语言: he
数据集介绍
- 名称: UD Hebrew-IAHLTWiki
- 来源: IAHLT UD Hebrew Treebank的Wikipedia部分
- 句子数量: 5,000
- 文本类型: 来自Wikipedia条目的当代希伯来语句子,涵盖传记、法律、金融、健康、地点、事件和杂项等领域。
- 数据处理: 基于希伯来语树库(HTB)转换为最新的UD V2版本,并经过Universal Dependencies验证器和grewv工具的额外验证。
- 数据质量: 初始自动转换后,部分数据手动验证并作为金标准用于训练UD解析模型。所有解析数据均经过手动编辑以纠正错误,并自动进行质量保证以应用架构更新后的修正。
引用信息
-
论文引用:
@InProceedings{ZeldesHowellOrdanBenMoshe2022, author = {Amir Zeldes and Nick Howell and Noam Ordan and Yifat Ben Moshe}, booktitle = {Proceedings of {EMNLP} 2022}, title = {A SecondWave of UD Hebrew Treebanking and Cross-Domain Parsing}, year = {2022}, address = {Abu Dhabi, UAE}, }



