changpt/ko-lima-vicuna
收藏Ko Lima Vicuna Dataset
概述
- 数据集名称: Ko Lima Vicuna Dataset
- 许可证: CC BY 2.0
- 任务类别: 文本生成
- 语言: 韩语
- 数据规模: n<1K
- 别名: KoLima(vicuna)
- 标签: KoLima
数据集描述
- 该数据集是通过使用GPT4 API将lima_vicuna_format 数据重新生成为韩语而创建的。
- GPT4使用时的提示是“不仅仅是简单翻译,而是参考原文内容重新生成数据”。
- 原数据集包含1,030条数据,其中866条数据被重新生成。
数据集结构
- 特征: [id, conversations]
- 行数: 866
使用方法
python from datasets import load_dataset
data = load_dataset("changpt/ko-lima-vicuna", data_files="ko_lima_vicuna.json", split="train")
data Dataset({ features: [id, conversations], num_rows: 866 })
示例数据
python
data[0]
{id: 7-stackexchange,
conversations: [{from: human,
value: 나는 ffmpeg로 비디오를 GIF 파일로 변환하고 있어:
ffmpeg
-i input.flv
-ss 00:00:00.000
-pix_fmt rgb24
-r 10
-s 320x240
-t 00:00:10.000
output.gif
잘 작동하는데, 출력된 gif 파일의 품질이 너무 낮아. 변환된 gif의 품질을 어떻게 개선할 수 있을까?}, {from: gpt, value: 중간 이미지 파일을 피하고 싶다면, LordNeckBeard가 제공한 명령어를 ffmpeg와 ImageMagick의 convert 사이에 파이프로 연결할 수 있습니다. 이렇게 하면 중간 파일이 필요하지 않습니다: ffmpeg -i input.flv -vf scale=320:-1 -r 10 -f image2pipe -vcodec ppm - | convert -delay 10 -loop 0 - output.gif
-f image2pipe는 ffmpeg에게 비디오를 이미지로 분할하고 파이프 출력에 적합하게 만들라고 지시하며, -vcodec ppm은 출력 형식을 ppm으로 지정합니다(png 형식인 경우, convert가 파이프에서 모든 이미지를 읽지 않거나 ffmpeg가 모두 출력하지 않는 것 같습니다). 두 명령어의 -는 각각 출력과 입력에 파이프를 사용하도록 지정합니다. 파일을 저장하지 않고 결과를 최적화하려면, convert의 출력을 두 번째 convert 명령어로 파이프할 수 있습니다: ffmpeg -i input.flv -vf scale=320:-1 -r 10 -f image2pipe -vcodec ppm - | convert -delay 10 -loop 0 - gif:- | convert -layers Optimize - output.gif
gif:-는 convert에게 출력을 gif 형식의 데이터로 파이프하도록 지시하고, -layers Optimize는 두 번째 convert에게 optimize-frame 및 optimize-transparancy 방법을 수행하도록 지시합니다(ImageMagick 애니메이션 최적화 소개 참조). -layers Optimize의 출력이 항상 더 작은 파일 크기를 제공하지는 않으므로, 먼저 최적화 없이 gif로 변환해 보는 것이 좋습니다. 이 과정에서 모든 것이 메모리에 있으므로 이미지가 매우 큰 경우 충분한 메모리가 필요할 수 있습니다.}]}



