degeneration-html-multilingual

Hugging Face2025-01-24 更新2025-01-25 收录

下载链接：

https://huggingface.co/datasets/Degeneration-Nation/degeneration-html-multilingual

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为'The Degeneration of the Nation Multilingual Dataset'，包含了一个哲学和文化网站的全部内容，探讨了技术、人工智能和人类文化的交叉点。内容包括哲学论文、文化分析和当代文学，具有复杂的并行结构和跨所有语言版本的复杂HTML架构。数据集支持多种语言，包括希伯来语、英语、法语、德语、西班牙语、葡萄牙语、意大利语、日语、俄语、韩语、普通话和印地语。数据集的规模在1M到10M之间，包含超过800万字的文本。数据集的结构包括文章的ID、语言、标题、内容、HTML和URL等信息。

创建时间：

2025-01-20

原始信息汇总

Degeneration HTML Multilingual Dataset 概述

数据集基本信息

名称: Degeneration HTML Multilingual Dataset
许可证: Creative Commons Attribution 4.0 International (CC BY 4.0)
任务类别:
- 翻译
- 文本生成
- 文本分类
- 标记分类
- 句子相似度
语言: 英语 (en)、希伯来语 (he)、印地语 (hi)、俄语 (ru)、法语 (fr)、德语 (de)、西班牙语 (es)、中文 (zh)、意大利语 (it)、葡萄牙语 (pt)、日语 (ja)、韩语 (ko)
标签:
- 跨语言
- 平行语料库
- HTML结构
- 语义HTML
- 网页内容
- 文化数据集
- 哲学文本
- 结构化文本
- 多语言聊天
- 知识库
- 长上下文训练
- 复杂推理
- 文化理解
- 多轮对话
- 世界知识
- 哲学推理
- 概念理解
- 跨文化知识
- 自然语言理解
- 知识图谱
- 结构化对话
- HTML解析
- 语义分析
- 对话系统
- 多领域知识
- 批判性思维
- 分析性内容
- 深度推理
- 文化背景
- 智力话语
- 大上下文窗口
- 长上下文训练
- 综合知识
- 语义关系
- 认知处理
- 分析推理
- 文化细微差别
- 结构化思维
- 复杂HTML
- 领域专业知识
- 知识合成
- 语义理解
- 上下文学习
- 智力分析
- 结构化思维
- 教育内容
- 教育材料
- 思维过程
- 知识提取
- 语义解析
- 翻译
- 语言建模
- 文本生成
- 文档问答
- 文本分类
- 语义相似度
- 跨语言语言建模
- 网页分类
- 文档解析
- 结构预测
- 对话
- 指令遵循
- 知识库创建
- 哲学推理
- 文化分析
- 长文本生成
- 结构化输出
- HTML理解
- 网页内容分析
- 上下文窗口训练
- 多轮对话
- 跨文化理解
- 复杂推理
- 伦理推理
- 概念分析
- 文档理解
- 内容结构化
- 认知任务解决
- 分析性写作
- 批判性分析
- 结构化知识生成
- 教育内容生成
- 智力话语生成
- 文化背景理解
- 领域专业知识学习
- 语义关系理解
- 长上下文处理
- 哲学
- AI
- LLM
数据集大小: 1M < n < 10M
数据集名称: Degeneration HTML Multilingual Dataset

数据集内容

内容结构: 约400篇文章 × 12种语言
内容量: 超过800万单词
HTML结构: 复杂，所有语言版本的结构相同
内容类型: 论文、文化分析、互动书籍、诗歌

语言

希伯来语 (原始语言)、英语、法语、德语、西班牙语、葡萄牙语、意大利语、日语、俄语、韩语、中文、印地语

数据结构

json { "id": "string", // 例如："he/actualia6.html" 或 "en/alternative-commentary6.html" "language": "string", // 语言代码 "title": "string", // 文章标题 "content": "string", // 全文内容 "html": "string", // 完整的HTML "url": "string", // 原始网站上的URL "original_url": "string" // 希伯来语原始URL }

许可证和归属

许可证: Creative Commons Attribution 4.0 International (CC BY 4.0)
许可证详情和归属要求:
- 希伯来语: https://hitdarderut-haaretz.org/license
- 英语: https://degeneration-of-nation.org/license

引用

bibtex @dataset{degeneration-nation-2024, title = {The Degeneration of the Nation Multilingual Dataset}, author = {Ben Zippor}, year = {2024}, version = {1.0}, url = {https://degeneration-of-nation.org}, original_url = {https://hitdarderut-haaretz.org}, language = {Multilingual}, license = {CC BY 4.0} }

技术细节

URL结构

希伯来语: hitdarderut-haaretz.org/[hebrew-filename]
其他语言: degeneration-of-nation.org/[lang]/[english-filename]

希伯来语到英语路径映射

json { "actualia": "alternative-commentary", "tarbut-vesifrut": "culture&literature", "filosofia": "philosophy-of-learning", "igul-shachor": "night-life", "bikoret-haaretz": "press-review", "tzurat-atid": "future-tense", "handasat-enosh": "human-engineering", "acharit-halelot": "end-of-nights", "hapostim-shel-hashavua": "posts-of-the-week" }

搜集汇总

数据集介绍

构建方式

该数据集基于《The Degeneration of the Nation》项目的完整内容构建，涵盖12种语言的哲学、文化分析和当代文学作品。数据通过网页抓取技术获取，保留了复杂的HTML结构和多语言平行文本。每篇文章均包含标题、内容、HTML源码及原始URL，确保数据的完整性和可追溯性。数据集的结构设计旨在支持跨语言模型训练和语义分析任务。

特点

该数据集的特点在于其多语言平行文本的丰富性，涵盖12种语言，包括希伯来语、英语、法语等。每篇文章的HTML结构复杂且一致，适合用于HTML解析和语义分析任务。内容类型多样，包括哲学论文、文化分析、互动书籍和诗歌，适合训练跨语言模型、机器翻译和内容生成任务。此外，数据集还支持多轮对话和长上下文训练，适用于复杂的推理和文化理解任务。

使用方法

该数据集可用于多种自然语言处理任务，如机器翻译、文本生成、文本分类和语义相似性分析。研究人员可通过解析HTML结构提取语义信息，或利用多语言平行文本进行跨语言模型训练。数据集还支持长上下文窗口训练，适用于对话系统和知识库构建任务。使用时需遵循CC BY 4.0许可协议，并注明原始来源。

背景与挑战

背景概述

Degeneration HTML Multilingual 数据集由Ben Zippor于2024年创建，旨在为哲学、文化与技术交叉领域的研究提供多语言支持。该数据集源自《The Degeneration of the Nation》项目，该项目通过复杂的HTML结构和多语言平行文本，探讨了人工智能、技术与人类文化的深层关系。数据集包含12种语言的约400篇文章，总字数超过800万，涵盖了哲学论文、文化分析、互动书籍和诗歌等多种内容类型。其多语言特性与复杂的HTML架构为跨文化理解、语义分析和长文本处理等任务提供了丰富的资源，推动了自然语言处理、机器翻译和多模态学习等领域的研究。

当前挑战

该数据集面临的主要挑战包括多语言平行文本的语义一致性维护、复杂HTML结构的解析与理解，以及跨文化内容的准确翻译与表达。首先，由于不同语言在表达哲学和文化概念时的差异，确保多语言文本在语义上的一致性成为一大难题。其次，HTML结构的复杂性要求模型具备强大的文档解析能力，以准确提取文本内容及其语义关系。此外，跨文化内容的翻译不仅需要语言层面的准确性，还需兼顾文化背景的传达，这对模型的跨文化理解能力提出了更高要求。这些挑战共同构成了该数据集在自然语言处理、机器翻译和跨文化研究中的核心难题。

常用场景

经典使用场景

在跨语言文本生成和机器翻译领域，degeneration-html-multilingual数据集因其复杂的HTML结构和多语言平行语料库而备受关注。该数据集广泛应用于训练多语言Transformer模型，特别是在处理包含哲学、文化分析和当代文学内容的文本时，能够有效提升模型对复杂语义和结构化文本的理解能力。

实际应用

在实际应用中，degeneration-html-multilingual数据集被广泛用于构建多语言对话系统和知识库。其内容涵盖哲学、文化和技术等多个领域，能够为智能助手和教育平台提供高质量的多语言知识支持。此外，该数据集还被用于训练多语言聊天机器人和文档问答系统，帮助用户以母语获取复杂信息。

衍生相关工作

基于degeneration-html-multilingual数据集，许多经典研究工作得以展开。例如，研究人员利用该数据集开发了多语言Transformer模型，显著提升了跨语言文本生成的质量。此外，该数据集还被用于构建多语言知识图谱和语义解析系统，推动了跨文化理解和复杂推理任务的发展。这些工作不仅扩展了数据集的应用范围，也为多语言自然语言处理领域提供了新的研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集