nguyenthanhdo/ultrachat-aem-v2.1
收藏Hugging Face2023-11-28 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/nguyenthanhdo/ultrachat-aem-v2.1
下载链接
链接失效反馈官方服务:
资源简介:
```python
from datasets import load_dataset
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("minhbui/viettel_v3.2")
def token_count(example):
conv = example["data"]
first_instruction = conv[0]
first_response = conv[1]
first_instruction_num_tokens = len(tokenizer.encode(first_instruction))
first_response_num_tokens = len(tokenizer.encode(first_response))
result = dict(
first_instruction_num_tokens=first_instruction_num_tokens,
first_response_num_tokens=first_response_num_tokens
)
return result
def get_medium_length(example):
first_response_num_tokens = example["first_response_num_tokens"]
flag = False
if (first_response_num_tokens <= 350) and \
(first_response_num_tokens >= 100):
flag = True
return flag
def answer_wo_a_question(example):
flag = False
if "?" not in example["data"][1]:
flag = True
return flag
ultra_aem = load_dataset("nguyenthanhdo/ultrachat-aem-v2.0", split="train")
ultra_aem = ultra_aem.map(token_count)
ultra_aem_medium = ultra_aem.filter(get_medium_length)
ultra_aem_question = ultra_aem_medium.filter(answer_wo_a_question)
ultra_aem_question.push_to_hub("nguyenthanhdo/ultrachat-aem-v2.1")
```
提供机构:
nguyenthanhdo
原始信息汇总
数据集概述
数据集名称
nguyenthanhdo/ultrachat-aem-v2.0
数据集版本
- 版本 2.0
数据处理步骤
-
加载数据集:
- 使用
load_dataset函数加载nguyenthanhdo/ultrachat-aem-v2.0数据集的训练集。
- 使用
-
标记计数:
- 定义
token_count函数,计算每个对话中第一个指令和第一个响应的标记数量。 - 使用
AutoTokenizer从minhbui/viettel_v3.2预训练模型中加载分词器。 - 对数据集应用
token_count函数,计算每个对话的标记数量。
- 定义
-
筛选中等长度响应:
- 定义
get_medium_length函数,筛选出第一个响应的标记数量在 100 到 350 之间的对话。 - 对处理后的数据集应用
get_medium_length函数进行筛选。
- 定义
-
筛选无问号的响应:
- 定义
answer_wo_a_question函数,筛选出第一个响应中不包含问号的对话。 - 对筛选后的数据集应用
answer_wo_a_question函数进行筛选。
- 定义
-
上传处理后的数据集:
- 将最终处理后的数据集上传到
nguyenthanhdo/ultrachat-aem-v2.1。
- 将最终处理后的数据集上传到



