five

mfgiguere/erudit-french-philosophy

收藏
Hugging Face2023-08-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mfgiguere/erudit-french-philosophy
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了所有在erudit.org上发布的法语哲学文本,使用Bs4网页解析器生成。数据集支持的任务包括检测文本是否为哲学文本、生成哲学句子、从文章中生成摘要等。数据集主要包含法语文本,但也可能包含非法语的引用或特别版次的句子。数据结构以句子为行,文本的元数据为列,具体字段包括期刊名称、作者、年份、标题、段落和句子的排名以及文本内容。已知的限制包括解析过程中可能遗漏的文本和存在的不一致性。数据集的创建得益于Deepmay 2023 bootcamp的导师和朋友的建议。
提供机构:
mfgiguere
原始信息汇总

数据集卡片

数据集描述

数据集概述

该数据集包含在erudit.org上发布的所有法语哲学内容。数据集是通过使用Bs4网页解析器生成的,解析器代码可在此仓库找到。

支持的任务和排行榜

该数据集可用于以下任务(非详尽列表):检测文本是否为哲学内容、生成哲学句子、从文章生成摘要等。

语言

数据集包括主要语言为法语的所有期刊,但也可能包含来自引用或特殊版本的非法语句子。

数据集结构

数据实例

数据库的每一行是一个句子,每一列是文本的元数据。

数据字段

数据结构如下,使得可以将句子组合成段落、章节或全文。

python features = { "Journal": str, # 文本发表的期刊名称 "Author": str, # 作者,用于按作者生成文本 "Year": str, # 年份,有助于在大范围内形成方向感 "Title": str, # 标题,对于较小的数据集可能有用,但可以通过足够的文件推断 "section_rank": int, # 章节排名,摘要为0,章节从1开始 "par_rank": int, # 段落排名,摘要为0,段落从1开始 "sent_rank": int, # 段落中的句子编号 "text": str # 单个句子 }

附加信息

已知限制

解析分为两个阶段:第一阶段解析在网络不佳的农场进行,因此某些文本可能被部分或完全跳过。这是进行第二阶段解析的原因。第二阶段解析用于在数据集中追加缺失的文本。

此外,解析过程中存在一些不一致性,尽管尝试通过解析器捕捉,但仍有一些不一致性存在,并且没有进行手动数据验证。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作