ayousanz/oscor-2301-ja-text-content

Name: ayousanz/oscor-2301-ja-text-content
Creator: ayousanz
Published: 2024-04-22 01:25:06
License: 暂无描述

Hugging Face2024-04-22 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/ayousanz/oscor-2301-ja-text-content

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cc0-1.0 language: - ja --- OSCOR-2301-jaのcontent部分だけをテキスト化したものデータセットからcontentのvalueだけ取得する際には、以下のコードで実行しました ```python import json import os import sys # コマンドライン引数からフォルダ名を取得する if len(sys.argv) < 2: print("使用法: python script.py folder_name") sys.exit(1) folder_name = sys.argv[1] # フォルダ内のすべての .json ファイルを処理する for filename in os.listdir(folder_name): if filename.endswith(".txt"): input_file = os.path.join(folder_name, filename) output_file = os.path.splitext(filename)[0] + "_convert.txt" output_path = os.path.join(folder_name, output_file) # 出力テキストファイルを開く with open(output_path, "w", encoding="utf-8") as outfile: # 入力JSONファイルを1行ずつ読み込む with open(input_file, "r", encoding="utf-8") as infile: for line in infile: # JSONを解析する data = json.loads(line) # "content" フィールドが存在する場合のみ処理する if "content" in data: content = data["content"] # "content" の内容をテキストファイルに書き込む outfile.write(content + "\n") print(f"変換が完了しました。出力ファイル: {output_file}") print("すべてのファイルの変換が完了しました。") ```

提供机构：

ayousanz

原始信息汇总

数据集概述

数据集名称

OSCOR-2301-ja

数据集内容

仅包含原始数据集中的"content"部分的文本数据。

数据集处理方法

使用Python脚本从原始JSON文件中提取"content"字段的值，并将其转换为文本文件。处理步骤包括：

从命令行获取文件夹名。
遍历文件夹内所有以.txt结尾的文件。
读取每个JSON文件的每一行，解析JSON数据。
检查是否存在"content"字段，若存在则提取其内容。
将提取的"content"内容写入新的文本文件。

数据集语言

日语（ja）

数据集许可证

CC0-1.0

5,000+

优质数据集

54 个

任务类型

进入经典数据集