fr-litbank
收藏github2024-02-15 更新2024-05-31 收录
下载链接:
https://github.com/lattice-8094/fr-litbank
下载链接
链接失效反馈官方服务:
资源简介:
一个包含19世纪和20世纪法国文学作品的法语LitBank语料库,文件按照LitBank指南进行标注。
A French LitBank corpus containing literary works from the 19th and 20th centuries, with files annotated according to the LitBank guidelines.
创建时间:
2021-04-29
原始信息汇总
fr-litbank
数据集概述
数据来源
fr-litbank 数据集是基于 Democrat 项目的文件子集,用于构建19世纪和20世纪的法国文学语料库。
数据标注
数据集的文件遵循 LitBank 的标注指南进行标注。
数据内容
数据集包含以下文学作品:
| 日期 | 作者 | 标题 |
|---|---|---|
| 1830 | Honoré de Balzac | Sarrasine |
| 1836 | Théophile Gautier | La morte amoureuse |
| 1841 | George Sand | Pauline |
| 1856 | Victor Cousin | Madame de Hautefort |
| 1863 | Théophile Gautier | Le capitaine Fracasse |
| 1873 | Émile Zola | Le ventre de Paris |
| 1881 | Gustave Flaubert | Bouvard et Pécuchet |
| 1882-1883 | Guy de Maupassant | Mademoiselle Fifi, nouveaux contes (1) |
| 1882-1883 | Guy de Maupassant | Mademoiselle Fifi, nouveaux contes (2) |
| 1882-1883 | Guy de Maupassant | Mademoiselle Fifi, nouveaux contes (3) |
| 1901 | Lucie Achard | Rosalie de Constant, sa famille et ses amis |
| 1903 | Laure Conan | Élisabeth Seton |
| 1904-1912 | Romain Rolland | Jean-Christophe (1) |
| 1904-1912 | Romain Rolland | Jean-Christophe (2) |
| 1917 | Adèle Bourgeois | Némoville |
| 1923 | Raymond Radiguet | Le diable au corps |
| 1926 | Marguerite Audoux | De la ville au moulin |
| 1937 | Marguerite Audoux | Douce Lumière |
许可证
fr-litbank 数据集根据 Attribution-ShareAlike 2.0 France (CC BY-SA 2.0 FR) 许可证发布。
搜集汇总
数据集介绍

构建方式
fr-litbank数据集的构建基于Democrat项目的部分文件,精选了19世纪和20世纪法国文学作品,并额外添加了巴尔扎克的两篇短篇小说。这些文件遵循LitBank指南进行标注,确保了数据的一致性和可追溯性。数据集的结构分为多个文件夹,分别存储了不同层次的标注信息,如引用、实体、事件等,便于研究者进行多维度分析。
特点
fr-litbank数据集涵盖了19世纪至20世纪法国文学的经典作品,涉及多位著名作家,如巴尔扎克、福楼拜和左拉等。数据集不仅提供了丰富的文本内容,还包含了详细的标注信息,如实体、事件和引用等,为文学研究和自然语言处理任务提供了宝贵的资源。其结构化的存储方式和多样化的标注类型使得该数据集在文学分析和文本挖掘领域具有广泛的应用潜力。
使用方法
使用fr-litbank数据集时,研究者可以通过浏览项目结构中的不同文件夹,获取所需的标注文件和原始文本。数据集中的标注信息以Brat格式存储,便于使用Brat工具进行可视化和编辑。此外,项目文档中提供了详细的标注指南,帮助用户理解标注规则。数据集还提供了多种格式的文件,如XML和TSV,方便用户根据需求进行数据处理和分析。
背景与挑战
背景概述
fr-litbank数据集是一个专注于19世纪和20世纪法国文学的语料库,其构建基于Democrat项目的部分文件,并补充了巴尔扎克的两篇短篇小说。该数据集遵循LitBank的标注指南,旨在为自然语言处理领域的研究者提供一个高质量的文学文本资源。通过这一数据集,研究者能够深入探讨法语文学中的语言现象、叙事结构以及文本中的实体、事件和共指关系。fr-litbank的创建不仅丰富了法语文学研究的数字化资源,还为跨语言文学分析提供了新的视角。
当前挑战
fr-litbank数据集在构建过程中面临多重挑战。首先,法语文学文本的复杂性和多样性使得标注工作尤为困难,尤其是在处理共指关系和事件识别时,需要高度的语言学知识和细致的标注规范。其次,历史文本的语言风格与现代法语存在显著差异,这增加了文本解析和理解的难度。此外,数据集的构建依赖于多个来源的文本,如何确保数据的一致性和完整性也是一个重要问题。最后,尽管遵循了LitBank的标注指南,但在具体实施过程中,如何适应法语文学的特殊性,仍需要不断调整和优化标注策略。
常用场景
经典使用场景
fr-litbank数据集在自然语言处理领域中被广泛应用于文学文本的标注与分析。该数据集通过遵循LitBank的标注指南,对19世纪和20世纪的法语文学作品进行了详细的实体、事件、引用和共指关系的标注。这种标注方式为研究者提供了一个标准化的框架,使得文学文本的结构化分析成为可能。
衍生相关工作
fr-litbank数据集衍生了一系列相关研究,特别是在文学文本的自动标注和文本分析领域。基于该数据集,研究者开发了多种自然语言处理模型,用于自动识别文学作品中的实体、事件和共指关系。这些模型不仅提高了文学文本分析的效率,还为跨文本比较和文学风格分析提供了新的研究视角。
数据集最近研究
最新研究方向
在自然语言处理领域,fr-litbank数据集为研究19世纪和20世纪法国文学作品提供了丰富的语料资源。该数据集基于Democrat项目的子集,并遵循LitBank的标注指南,涵盖了巴尔扎克、乔治·桑、福楼拜等著名作家的作品。近年来,研究者们利用该数据集在实体识别、事件抽取、共指消解等任务上取得了显著进展。特别是在跨语言文学分析中,fr-litbank为法语文本的语义理解和叙事结构研究提供了重要支持。随着多语言模型的发展,该数据集在跨文化文学比较和叙事模式挖掘中的应用前景愈发广阔,推动了文学与人工智能的深度融合。
以上内容由遇见数据集搜集并总结生成



