robgonsalves/Multilingual-FanFic-Chat-4K
收藏Hugging Face2024-05-02 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/robgonsalves/Multilingual-FanFic-Chat-4K
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Multilingual FanFic Chat 4K,包含4000个模拟的聊天互动,旨在帮助用40种不同语言撰写同人小说。数据是通过GPT-3.5 Turbo生成的,包含了与同人小说写作相关的问题和回答。每个互动还包括关于属性和语言的元数据。数据集的结构包括训练集、测试集和验证集,分别包含3245、350和405个样本。数据集的创建目的是为了解决多语言同人小说写作辅助训练数据的缺乏问题,并提高在资源较少语言中的模型能力。数据集的使用场景包括训练和微调语言模型,以帮助多语言同人小说写作。然而,数据集可能不适用于与同人小说无关的一般聊天互动,或在文化背景至关重要的场景中使用。
该数据集名为Multilingual FanFic Chat 4K,包含4000个模拟的聊天互动,旨在帮助用40种不同语言撰写同人小说。数据是通过GPT-3.5 Turbo生成的,包含了与同人小说写作相关的问题和回答。每个互动还包括关于属性和语言的元数据。数据集的结构包括训练集、测试集和验证集,分别包含3245、350和405个样本。数据集的创建目的是为了解决多语言同人小说写作辅助训练数据的缺乏问题,并提高在资源较少语言中的模型能力。数据集的使用场景包括训练和微调语言模型,以帮助多语言同人小说写作。然而,数据集可能不适用于与同人小说无关的一般聊天互动,或在文化背景至关重要的场景中使用。
提供机构:
robgonsalves
原始信息汇总
数据集概述
数据集名称: Multilingual FanFic Chat 4K
数据集描述: 该数据集包含4,000个模拟聊天交互,专为40种不同语言的同人小说写作设计。这些交互使用GPT-3.5 Turbo生成,包括与同人小说写作相关的问答。
数据集特征
- index: int64
- local_name: string
- english_name: string
- property_type: string
- is_local: bool
- language: string
- script: string
- wp_code: string
- first_question: string
- first_answer: string
- supporting_text: string
- second_question: string
- second_answer: string
- split: string
数据集分割
- 训练集: 3245个样本,9229474字节
- 测试集: 350个样本,983975字节
- 验证集: 405个样本,1133007字节
数据集大小
- 下载大小: 7767315字节
- 数据集大小: 11346456字节
数据集用途
- 直接用途: 用于训练和微调语言模型,以辅助多语言同人小说写作。
- 超出范围的用途: 不适用于与同人小说无关的一般聊天交互,或需要特定文化背景的场景。
数据集创建
- 数据收集与处理: 数据由GPT-3.5 Turbo生成,基于精心设计的关于多个流行属性的问题,并在每个交互中添加了元数据。
- 源数据生产者: GPT-3.5 Turbo,问题由Rob根据多个同人小说属性设计。
数据集风险与限制
- 潜在偏见: 由于所选属性和用于生成的语言模型,数据中可能存在偏见。
- 文化覆盖范围: 数据集可能未涵盖40种语言中的所有文化细微差别。
推荐使用
- 注意事项: 用户应意识到数据集中可能存在的偏见和底层语言模型的局限性,并在训练新模型时谨慎处理数据,以避免强化偏见。



