ayousanz/oscor-2301-ja-text-content
收藏Hugging Face2024-04-22 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/ayousanz/oscor-2301-ja-text-content
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc0-1.0
language:
- ja
---
OSCOR-2301-jaのcontent部分だけをテキスト化したもの
データセットからcontentのvalueだけ取得する際には、以下のコードで実行しました
```python
import json
import os
import sys
# コマンドライン引数からフォルダ名を取得する
if len(sys.argv) < 2:
print("使用法: python script.py folder_name")
sys.exit(1)
folder_name = sys.argv[1]
# フォルダ内のすべての .json ファイルを処理する
for filename in os.listdir(folder_name):
if filename.endswith(".txt"):
input_file = os.path.join(folder_name, filename)
output_file = os.path.splitext(filename)[0] + "_convert.txt"
output_path = os.path.join(folder_name, output_file)
# 出力テキストファイルを開く
with open(output_path, "w", encoding="utf-8") as outfile:
# 入力JSONファイルを1行ずつ読み込む
with open(input_file, "r", encoding="utf-8") as infile:
for line in infile:
# JSONを解析する
data = json.loads(line)
# "content" フィールドが存在する場合のみ処理する
if "content" in data:
content = data["content"]
# "content" の内容をテキストファイルに書き込む
outfile.write(content + "\n")
print(f"変換が完了しました。出力ファイル: {output_file}")
print("すべてのファイルの変換が完了しました。")
```
提供机构:
ayousanz
原始信息汇总
数据集概述
数据集名称
OSCOR-2301-ja
数据集内容
仅包含原始数据集中的"content"部分的文本数据。
数据集处理方法
使用Python脚本从原始JSON文件中提取"content"字段的值,并将其转换为文本文件。处理步骤包括:
- 从命令行获取文件夹名。
- 遍历文件夹内所有以
.txt结尾的文件。 - 读取每个JSON文件的每一行,解析JSON数据。
- 检查是否存在"content"字段,若存在则提取其内容。
- 将提取的"content"内容写入新的文本文件。
数据集语言
日语(ja)
数据集许可证
CC0-1.0



