robgonsalves/Multilingual-FanFic-Chat-4K

Name: robgonsalves/Multilingual-FanFic-Chat-4K
Creator: robgonsalves
Published: 2024-05-02 20:43:11
License: 暂无描述

Hugging Face2024-05-02 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/robgonsalves/Multilingual-FanFic-Chat-4K

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Multilingual FanFic Chat 4K，包含4000个模拟的聊天互动，旨在帮助用40种不同语言撰写同人小说。数据是通过GPT-3.5 Turbo生成的，包含了与同人小说写作相关的问题和回答。每个互动还包括关于属性和语言的元数据。数据集的结构包括训练集、测试集和验证集，分别包含3245、350和405个样本。数据集的创建目的是为了解决多语言同人小说写作辅助训练数据的缺乏问题，并提高在资源较少语言中的模型能力。数据集的使用场景包括训练和微调语言模型，以帮助多语言同人小说写作。然而，数据集可能不适用于与同人小说无关的一般聊天互动，或在文化背景至关重要的场景中使用。

提供机构：

robgonsalves

原始信息汇总

数据集概述

数据集名称： Multilingual FanFic Chat 4K

数据集描述： 该数据集包含4,000个模拟聊天交互，专为40种不同语言的同人小说写作设计。这些交互使用GPT-3.5 Turbo生成，包括与同人小说写作相关的问答。

数据集特征

index: int64
local_name: string
english_name: string
property_type: string
is_local: bool
language: string
script: string
wp_code: string
first_question: string
first_answer: string
supporting_text: string
second_question: string
second_answer: string
split: string

数据集分割

训练集： 3245个样本，9229474字节
测试集： 350个样本，983975字节
验证集： 405个样本，1133007字节

数据集大小

下载大小： 7767315字节
数据集大小： 11346456字节

数据集用途

直接用途： 用于训练和微调语言模型，以辅助多语言同人小说写作。
超出范围的用途： 不适用于与同人小说无关的一般聊天交互，或需要特定文化背景的场景。

数据集创建

数据收集与处理： 数据由GPT-3.5 Turbo生成，基于精心设计的关于多个流行属性的问题，并在每个交互中添加了元数据。
源数据生产者： GPT-3.5 Turbo，问题由Rob根据多个同人小说属性设计。

数据集风险与限制

潜在偏见： 由于所选属性和用于生成的语言模型，数据中可能存在偏见。
文化覆盖范围： 数据集可能未涵盖40种语言中的所有文化细微差别。