mfgiguere/erudit-french-philosophy

Name: mfgiguere/erudit-french-philosophy
Creator: mfgiguere
Published: 2023-08-26 18:17:39
License: 暂无描述

Hugging Face2023-08-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mfgiguere/erudit-french-philosophy

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了所有在erudit.org上发布的法语哲学文本，使用Bs4网页解析器生成。数据集支持的任务包括检测文本是否为哲学文本、生成哲学句子、从文章中生成摘要等。数据集主要包含法语文本，但也可能包含非法语的引用或特别版次的句子。数据结构以句子为行，文本的元数据为列，具体字段包括期刊名称、作者、年份、标题、段落和句子的排名以及文本内容。已知的限制包括解析过程中可能遗漏的文本和存在的不一致性。数据集的创建得益于Deepmay 2023 bootcamp的导师和朋友的建议。

提供机构：

mfgiguere

原始信息汇总

数据集卡片

数据集描述

数据集概述

该数据集包含在erudit.org上发布的所有法语哲学内容。数据集是通过使用Bs4网页解析器生成的，解析器代码可在此仓库找到。

支持的任务和排行榜

该数据集可用于以下任务（非详尽列表）：检测文本是否为哲学内容、生成哲学句子、从文章生成摘要等。

语言

数据集包括主要语言为法语的所有期刊，但也可能包含来自引用或特殊版本的非法语句子。

数据集结构

数据实例

数据库的每一行是一个句子，每一列是文本的元数据。

数据字段

数据结构如下，使得可以将句子组合成段落、章节或全文。

python features = { "Journal": str, # 文本发表的期刊名称 "Author": str, # 作者，用于按作者生成文本 "Year": str, # 年份，有助于在大范围内形成方向感 "Title": str, # 标题，对于较小的数据集可能有用，但可以通过足够的文件推断 "section_rank": int, # 章节排名，摘要为0，章节从1开始 "par_rank": int, # 段落排名，摘要为0，段落从1开始 "sent_rank": int, # 段落中的句子编号 "text": str # 单个句子 }

附加信息

已知限制

解析分为两个阶段：第一阶段解析在网络不佳的农场进行，因此某些文本可能被部分或完全跳过。这是进行第二阶段解析的原因。第二阶段解析用于在数据集中追加缺失的文本。

此外，解析过程中存在一些不一致性，尽管尝试通过解析器捕捉，但仍有一些不一致性存在，并且没有进行手动数据验证。

5,000+

优质数据集

54 个

任务类型

进入经典数据集