nguyenthanhdo/ultrachat-aem-v2.1

Name: nguyenthanhdo/ultrachat-aem-v2.1
Creator: nguyenthanhdo
Published: 2023-11-28 12:33:04
License: 暂无描述

Hugging Face2023-11-28 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/nguyenthanhdo/ultrachat-aem-v2.1

下载链接

链接失效反馈

官方服务：

资源简介：

```python from datasets import load_dataset from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("minhbui/viettel_v3.2") def token_count(example): conv = example["data"] first_instruction = conv[0] first_response = conv[1] first_instruction_num_tokens = len(tokenizer.encode(first_instruction)) first_response_num_tokens = len(tokenizer.encode(first_response)) result = dict( first_instruction_num_tokens=first_instruction_num_tokens, first_response_num_tokens=first_response_num_tokens ) return result def get_medium_length(example): first_response_num_tokens = example["first_response_num_tokens"] flag = False if (first_response_num_tokens <= 350) and \ (first_response_num_tokens >= 100): flag = True return flag def answer_wo_a_question(example): flag = False if "?" not in example["data"][1]: flag = True return flag ultra_aem = load_dataset("nguyenthanhdo/ultrachat-aem-v2.0", split="train") ultra_aem = ultra_aem.map(token_count) ultra_aem_medium = ultra_aem.filter(get_medium_length) ultra_aem_question = ultra_aem_medium.filter(answer_wo_a_question) ultra_aem_question.push_to_hub("nguyenthanhdo/ultrachat-aem-v2.1") ```

提供机构：

nguyenthanhdo

原始信息汇总

数据集概述

数据集名称

nguyenthanhdo/ultrachat-aem-v2.0

数据集版本

版本 2.0

数据处理步骤

加载数据集：
- 使用 load_dataset 函数加载 nguyenthanhdo/ultrachat-aem-v2.0 数据集的训练集。
标记计数：
- 定义 token_count 函数，计算每个对话中第一个指令和第一个响应的标记数量。
- 使用 AutoTokenizer 从 minhbui/viettel_v3.2 预训练模型中加载分词器。
- 对数据集应用 token_count 函数，计算每个对话的标记数量。
筛选中等长度响应：
- 定义 get_medium_length 函数，筛选出第一个响应的标记数量在 100 到 350 之间的对话。
- 对处理后的数据集应用 get_medium_length 函数进行筛选。
筛选无问号的响应：
- 定义 answer_wo_a_question 函数，筛选出第一个响应中不包含问号的对话。
- 对筛选后的数据集应用 answer_wo_a_question 函数进行筛选。
上传处理后的数据集：
- 将最终处理后的数据集上传到 nguyenthanhdo/ultrachat-aem-v2.1。

5,000+

优质数据集

54 个

任务类型

进入经典数据集