five

TreeLex

收藏
Hugging Face2025-03-30 更新2025-03-31 收录
下载链接:
https://huggingface.co/datasets/datasets-CNRS/TreeLex
下载链接
链接失效反馈
官方服务:
资源简介:
TreeLex是一个句法词典,包含了从法语树库中自动提取的动词和形容词的句法框架。该词典包含3229个条目,对应1912个动词(词干),以及2506个条目,对应2166个形容词(词干)。动词的自动框架提取基于树库中的句法注释,并经过Anne Abeillé的人工调整。形容词的自动框架提取则受到了形容词构造的语言学研究指导,以补充语料库中缺失的注释。

TreeLex is a syntactic lexicon containing syntactic frames of verbs and adjectives automatically extracted from French treebanks. This lexicon includes 3229 entries corresponding to 1912 verb lemmas and 2506 entries corresponding to 2166 adjective lemmas. The automatic frame extraction for verbs was based on syntactic annotations in the treebank and manually adjusted by Anne Abeillé. The automatic frame extraction for adjectives was guided by linguistic research on adjective constructions to compensate for missing annotations in the corpus.
创建时间:
2025-03-20
原始信息汇总

TreeLex数据集概述

数据集基本信息

  • 语言:法语 (fra)
  • 配置
    • corpusDiCo
      • 数据文件:treelex_adjs.csv
      • 分隔符:;
    • corpusDiCo_Hausmann
      • 数据文件:treelex_verbs.csv
      • 分隔符:;

数据集描述

TreeLex是一个从法语树库中自动提取的句法语义词库,包含语料库中动词和形容词的句法框架。每条记录包含一个词元(lemma)、语料库中所有句法实现(框架)及其在树库中的频率。

  • 动词部分

    • 包含3229个条目,对应语料库中的1912个动词(词元)。
    • 句法框架的自动提取基于树库中的句法注释,但特定框架的可选实现由Anne Abeillé手动添加。
  • 形容词部分

    • 包含2506个条目,对应语料库中的2166个形容词(词元)。
    • 自动提取过程受到形容词结构语言学研究的指导,以补充语料库中缺失的注释。

引用文献

  1. Kupść, A., Abeillé A. Growing TreeLex. In Gelbukh, A. (ed.), 9th International Conference (CICLing), Haifa (Israel), February 2008, p. 28-39 (Lecture Notes in Computational Linguistics, 4919)
  2. Kupść, A. Adjectives in TreeLex. In Kłopotek, M., Przepiórkowski, A., Wierzchoń, S., Trojanowski, K. (ed.), 16th International Conference Intelligent Information Systems, Zakopane (Poland), 16-18 juin 2008, Academic Publishing House EXIT, p. 287-296
搜集汇总
数据集介绍
main_image_url
构建方式
TreeLex作为法语语法词典的自动化构建成果,其核心数据源自法语树库的系统性提取。该数据集通过计算语言学技术自动捕获动词和形容词的句法框架,其中动词部分的3229个条目覆盖1912个词元,形容词部分的2506个条目涵盖2166个词元。特别值得注意的是,动词框架在树库标注基础上由语言学家Anne Abeillé进行了人工补全,而形容词框架则依据形容词构式的语言学研究成果完善了语料库缺失的标注信息,体现了人机协同的构建理念。
特点
该数据集最显著的特征在于其双模态结构设计:corpusDiCo配置聚焦形容词的句法实现,corpusDiCo_Hausmann配置则专攻动词框架分析。每个词条不仅记录词元的基本信息,更创新性地整合了语料库中所有句法实现变体及其出现频率,为法语语法现象研究提供了量化依据。数据集的学术价值体现在其既保留了自动提取的高效性,又通过语言学专家的介入确保了标注质量,这种混合标注策略在计算语言学界具有示范意义。
使用方法
研究者可通过HuggingFace平台直接加载两个独立配置的CSV文件,分号分隔的格式确保数据可被主流分析工具兼容。针对动词研究建议选用corpusDiCo_Hausmann配置的treelex_verbs.csv,形容词分析则优先处理corpusDiCo配置的treelex_adjs.csv。数据集特别适用于法语语法模式挖掘、动词配价研究以及形容词句法行为分析等场景,原始文献中记载的框架频率数据为历时语言变迁研究提供了关键参数。
背景与挑战
背景概述
TreeLex是由法国树库自动提取的法语句法词典,专注于动词和形容词的句法框架分析。该数据集由Anne Abeillé等学者于2008年构建,旨在填补法语语法资源中动词和形容词句法框架的系统性空白。通过结合自动提取与人工校验,TreeLex不仅收录了3229个动词条目和2506个形容词条目,还详细标注了每个词条的句法实现及其频率,为法语计算语言学研究提供了重要基础。其学术价值体现在对句法理论和自然语言处理技术的双重贡献,相关成果发表于CICLing等国际顶级会议。
当前挑战
TreeLex面临的核心挑战包括句法框架的自动提取精度问题,尤其是法语中复杂的动词变位和形容词搭配模式导致自动标注误差率较高。数据构建过程中,研究人员需手动补充树库中缺失的句法实现,这一过程既依赖语言学专家的深度介入,又受限于原始语料规模的约束。此外,如何平衡自动提取效率与人工校验质量,以及如何扩展数据集以覆盖更多法语方言变体,仍是该领域亟待解决的技术难题。
常用场景
经典使用场景
在自然语言处理领域,TreeLex数据集作为法语动词和形容词的句法词典,广泛应用于句法分析和语义角色标注任务。研究者利用其丰富的句法框架信息,能够深入探索法语词汇的句法行为模式,为构建更精确的句法解析器提供了重要参考。该数据集特别适用于基于规则和统计的自然语言处理系统开发。
解决学术问题
TreeLex有效解决了法语自动句法分析中词汇句法信息缺失的关键问题。通过提供动词和形容词的详细句法框架及其出现频率,该数据集填补了传统树库在细粒度句法信息方面的不足,为法语依存语法研究和计算语言学模型优化提供了可靠数据支持。其自动提取加人工修正的构建方法也为词典编纂学提供了新思路。
衍生相关工作
基于TreeLex的经典研究包括法语动词子范畴框架的自动分类系统,以及形容词论元结构的跨语言对比分析。Kupść和Abeillé后续开发的增强版词典扩展了覆盖范围,被法语依存语法解析器FRMG等知名工具采用,推动了法语计算语言学资源体系建设。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作