five

Laz4rz/wikipedia_science_chunked_small_rag_256

收藏
Hugging Face2024-06-12 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/Laz4rz/wikipedia_science_chunked_small_rag_256
下载链接
链接失效反馈
官方服务:
资源简介:
ScienceWikiSmallChunk数据集是millawell/wikipedia_field_of_science数据集的处理版本,专为小上下文长度的RAG(检索增强生成)系统设计。每个数据块的长度大约为256个token,较长的维基百科页面被分割成较小的条目,并在每个条目前添加了标题作为前缀。此外,还提供了一个512个token的数据集,并提供了如何准备其他长度数据块的代码示例。

ScienceWikiSmallChunk数据集是millawell/wikipedia_field_of_science数据集的处理版本,专为小上下文长度的RAG(检索增强生成)系统设计。每个数据块的长度大约为256个token,较长的维基百科页面被分割成较小的条目,并在每个条目前添加了标题作为前缀。此外,还提供了一个512个token的数据集,并提供了如何准备其他长度数据块的代码示例。
提供机构:
Laz4rz
原始信息汇总

ScienceWikiSmallChunk256

概述

  • 名称: ScienceWikiSmallChunk256
  • 标签:
    • RAG
    • Retrieval Augmented Generation
    • Small Chunks
    • Wikipedia
    • Science
    • Scientific
    • Scientific Wikipedia
    • Science Wikipedia
    • 256 tokens
  • 许可证: cc-by-sa-3.0
  • 任务类别:
    • text-generation
    • text-classification
    • question-answering

描述

  • 来源: 基于 millawell/wikipedia_field_of_science 数据集处理而成。
  • 用途: 适用于小上下文长度的RAG系统。
  • 分块长度: 每个分块大约为256个token,具体长度依赖于tokenizer。
  • 处理方式: 长篇维基百科页面已被分割成较小的条目,并在每个条目前添加标题作为前缀。

相关资源

  • 512 tokens数据集: Laz4rz/wikipedia_science_chunked_small_rag_512
  • 自定义分块长度: 使用 millawell/wikipedia_field_of_science 数据集,并调整分块函数。

分块函数示例

python def chunker_clean(results, example, length=512, approx_token=3, prefix=""): if len(results) == 0: regex_pattern = r[ s]* [ s]* example = re.sub(regex_pattern, " ", example).strip().replace(prefix, "") chunk_length = length * approx_token if len(example) > chunk_length: first = example[:chunk_length] chunk = ".".join(first.split(".")[:-1]) if len(chunk) == 0: chunk = first rest = example[len(chunk)+1:] results.append(prefix+chunk.strip()) if len(rest) > chunk_length: chunker_clean(results, rest.strip(), length=length, approx_token=approx_token, prefix=prefix) else: results.append(prefix+rest.strip()) else: results.append(prefix+example.strip()) return results

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是维基百科科学领域文本的预处理版本,专为小型上下文长度的RAG系统优化,每个文本块约256个标记,适合自然语言处理任务如文本生成和问答。数据集包含约238万行文本,总文件大小为914MB,采用cc-by-sa-3.0许可证。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作