five

degeneration-html-multilingual

收藏
Hugging Face2025-01-24 更新2025-01-25 收录
下载链接:
https://huggingface.co/datasets/Degeneration-Nation/degeneration-html-multilingual
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为'The Degeneration of the Nation Multilingual Dataset',包含了一个哲学和文化网站的全部内容,探讨了技术、人工智能和人类文化的交叉点。内容包括哲学论文、文化分析和当代文学,具有复杂的并行结构和跨所有语言版本的复杂HTML架构。数据集支持多种语言,包括希伯来语、英语、法语、德语、西班牙语、葡萄牙语、意大利语、日语、俄语、韩语、普通话和印地语。数据集的规模在1M到10M之间,包含超过800万字的文本。数据集的结构包括文章的ID、语言、标题、内容、HTML和URL等信息。
创建时间:
2025-01-20
原始信息汇总

Degeneration HTML Multilingual Dataset 概述

数据集基本信息

  • 名称: Degeneration HTML Multilingual Dataset
  • 许可证: Creative Commons Attribution 4.0 International (CC BY 4.0)
  • 任务类别:
    • 翻译
    • 文本生成
    • 文本分类
    • 标记分类
    • 句子相似度
  • 语言: 英语 (en)、希伯来语 (he)、印地语 (hi)、俄语 (ru)、法语 (fr)、德语 (de)、西班牙语 (es)、中文 (zh)、意大利语 (it)、葡萄牙语 (pt)、日语 (ja)、韩语 (ko)
  • 标签:
    • 跨语言
    • 平行语料库
    • HTML结构
    • 语义HTML
    • 网页内容
    • 文化数据集
    • 哲学文本
    • 结构化文本
    • 多语言聊天
    • 知识库
    • 长上下文训练
    • 复杂推理
    • 文化理解
    • 多轮对话
    • 世界知识
    • 哲学推理
    • 概念理解
    • 跨文化知识
    • 自然语言理解
    • 知识图谱
    • 结构化对话
    • HTML解析
    • 语义分析
    • 对话系统
    • 多领域知识
    • 批判性思维
    • 分析性内容
    • 深度推理
    • 文化背景
    • 智力话语
    • 大上下文窗口
    • 长上下文训练
    • 综合知识
    • 语义关系
    • 认知处理
    • 分析推理
    • 文化细微差别
    • 结构化思维
    • 复杂HTML
    • 领域专业知识
    • 知识合成
    • 语义理解
    • 上下文学习
    • 智力分析
    • 结构化思维
    • 教育内容
    • 教育材料
    • 思维过程
    • 知识提取
    • 语义解析
    • 翻译
    • 语言建模
    • 文本生成
    • 文档问答
    • 文本分类
    • 语义相似度
    • 跨语言语言建模
    • 网页分类
    • 文档解析
    • 结构预测
    • 对话
    • 指令遵循
    • 知识库创建
    • 哲学推理
    • 文化分析
    • 长文本生成
    • 结构化输出
    • HTML理解
    • 网页内容分析
    • 上下文窗口训练
    • 多轮对话
    • 跨文化理解
    • 复杂推理
    • 伦理推理
    • 概念分析
    • 文档理解
    • 内容结构化
    • 认知任务解决
    • 分析性写作
    • 批判性分析
    • 结构化知识生成
    • 教育内容生成
    • 智力话语生成
    • 文化背景理解
    • 领域专业知识学习
    • 语义关系理解
    • 长上下文处理
    • 哲学
    • AI
    • LLM
  • 数据集大小: 1M < n < 10M
  • 数据集名称: Degeneration HTML Multilingual Dataset

数据集内容

  • 内容结构: 约400篇文章 × 12种语言
  • 内容量: 超过800万单词
  • HTML结构: 复杂,所有语言版本的结构相同
  • 内容类型: 论文、文化分析、互动书籍、诗歌

语言

  • 希伯来语 (原始语言)、英语、法语、德语、西班牙语、葡萄牙语、意大利语、日语、俄语、韩语、中文、印地语

数据结构

json { "id": "string", // 例如:"he/actualia6.html" 或 "en/alternative-commentary6.html" "language": "string", // 语言代码 "title": "string", // 文章标题 "content": "string", // 全文内容 "html": "string", // 完整的HTML "url": "string", // 原始网站上的URL "original_url": "string" // 希伯来语原始URL }

许可证和归属

引用

bibtex @dataset{degeneration-nation-2024, title = {The Degeneration of the Nation Multilingual Dataset}, author = {Ben Zippor}, year = {2024}, version = {1.0}, url = {https://degeneration-of-nation.org}, original_url = {https://hitdarderut-haaretz.org}, language = {Multilingual}, license = {CC BY 4.0} }

技术细节

URL结构

  • 希伯来语: hitdarderut-haaretz.org/[hebrew-filename]
  • 其他语言: degeneration-of-nation.org/[lang]/[english-filename]

希伯来语到英语路径映射

json { "actualia": "alternative-commentary", "tarbut-vesifrut": "culture&literature", "filosofia": "philosophy-of-learning", "igul-shachor": "night-life", "bikoret-haaretz": "press-review", "tzurat-atid": "future-tense", "handasat-enosh": "human-engineering", "acharit-halelot": "end-of-nights", "hapostim-shel-hashavua": "posts-of-the-week" }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于《The Degeneration of the Nation》项目的完整内容构建,涵盖12种语言的哲学、文化分析和当代文学作品。数据通过网页抓取技术获取,保留了复杂的HTML结构和多语言平行文本。每篇文章均包含标题、内容、HTML源码及原始URL,确保数据的完整性和可追溯性。数据集的结构设计旨在支持跨语言模型训练和语义分析任务。
特点
该数据集的特点在于其多语言平行文本的丰富性,涵盖12种语言,包括希伯来语、英语、法语等。每篇文章的HTML结构复杂且一致,适合用于HTML解析和语义分析任务。内容类型多样,包括哲学论文、文化分析、互动书籍和诗歌,适合训练跨语言模型、机器翻译和内容生成任务。此外,数据集还支持多轮对话和长上下文训练,适用于复杂的推理和文化理解任务。
使用方法
该数据集可用于多种自然语言处理任务,如机器翻译、文本生成、文本分类和语义相似性分析。研究人员可通过解析HTML结构提取语义信息,或利用多语言平行文本进行跨语言模型训练。数据集还支持长上下文窗口训练,适用于对话系统和知识库构建任务。使用时需遵循CC BY 4.0许可协议,并注明原始来源。
背景与挑战
背景概述
Degeneration HTML Multilingual 数据集由Ben Zippor于2024年创建,旨在为哲学、文化与技术交叉领域的研究提供多语言支持。该数据集源自《The Degeneration of the Nation》项目,该项目通过复杂的HTML结构和多语言平行文本,探讨了人工智能、技术与人类文化的深层关系。数据集包含12种语言的约400篇文章,总字数超过800万,涵盖了哲学论文、文化分析、互动书籍和诗歌等多种内容类型。其多语言特性与复杂的HTML架构为跨文化理解、语义分析和长文本处理等任务提供了丰富的资源,推动了自然语言处理、机器翻译和多模态学习等领域的研究。
当前挑战
该数据集面临的主要挑战包括多语言平行文本的语义一致性维护、复杂HTML结构的解析与理解,以及跨文化内容的准确翻译与表达。首先,由于不同语言在表达哲学和文化概念时的差异,确保多语言文本在语义上的一致性成为一大难题。其次,HTML结构的复杂性要求模型具备强大的文档解析能力,以准确提取文本内容及其语义关系。此外,跨文化内容的翻译不仅需要语言层面的准确性,还需兼顾文化背景的传达,这对模型的跨文化理解能力提出了更高要求。这些挑战共同构成了该数据集在自然语言处理、机器翻译和跨文化研究中的核心难题。
常用场景
经典使用场景
在跨语言文本生成和机器翻译领域,degeneration-html-multilingual数据集因其复杂的HTML结构和多语言平行语料库而备受关注。该数据集广泛应用于训练多语言Transformer模型,特别是在处理包含哲学、文化分析和当代文学内容的文本时,能够有效提升模型对复杂语义和结构化文本的理解能力。
实际应用
在实际应用中,degeneration-html-multilingual数据集被广泛用于构建多语言对话系统和知识库。其内容涵盖哲学、文化和技术等多个领域,能够为智能助手和教育平台提供高质量的多语言知识支持。此外,该数据集还被用于训练多语言聊天机器人和文档问答系统,帮助用户以母语获取复杂信息。
衍生相关工作
基于degeneration-html-multilingual数据集,许多经典研究工作得以展开。例如,研究人员利用该数据集开发了多语言Transformer模型,显著提升了跨语言文本生成的质量。此外,该数据集还被用于构建多语言知识图谱和语义解析系统,推动了跨文化理解和复杂推理任务的发展。这些工作不仅扩展了数据集的应用范围,也为多语言自然语言处理领域提供了新的研究方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作