mfgiguere/erudit-french-philosophy
收藏数据集卡片
数据集描述
数据集概述
该数据集包含在erudit.org上发布的所有法语哲学内容。数据集是通过使用Bs4网页解析器生成的,解析器代码可在此仓库找到。
支持的任务和排行榜
该数据集可用于以下任务(非详尽列表):检测文本是否为哲学内容、生成哲学句子、从文章生成摘要等。
语言
数据集包括主要语言为法语的所有期刊,但也可能包含来自引用或特殊版本的非法语句子。
数据集结构
数据实例
数据库的每一行是一个句子,每一列是文本的元数据。
数据字段
数据结构如下,使得可以将句子组合成段落、章节或全文。
python features = { "Journal": str, # 文本发表的期刊名称 "Author": str, # 作者,用于按作者生成文本 "Year": str, # 年份,有助于在大范围内形成方向感 "Title": str, # 标题,对于较小的数据集可能有用,但可以通过足够的文件推断 "section_rank": int, # 章节排名,摘要为0,章节从1开始 "par_rank": int, # 段落排名,摘要为0,段落从1开始 "sent_rank": int, # 段落中的句子编号 "text": str # 单个句子 }
附加信息
已知限制
解析分为两个阶段:第一阶段解析在网络不佳的农场进行,因此某些文本可能被部分或完全跳过。这是进行第二阶段解析的原因。第二阶段解析用于在数据集中追加缺失的文本。
此外,解析过程中存在一些不一致性,尽管尝试通过解析器捕捉,但仍有一些不一致性存在,并且没有进行手动数据验证。



