【AI筆記】30天從論文入門到 Pytorch 實戰：製作屬於自己的資料集 Day 23

2024 iThome 鐵人賽

DAY 24

AI/ ML & Data

【AI筆記】30天從論文入門到 Pytorch 實戰系列第 24 篇

16th鐵人賽

fan84sunny

2024-08-26 00:02:47

268 瀏覽

分享至

1. 製作圖片資料集

收集資料

你可以通過多種方式收集資料：

拍攝照片：使用相機或手機拍攝所需的圖像。
網絡爬蟲：編寫爬蟲從互聯網上收集圖像。請確保遵守網站的使用條款和隱私政策。
使用公開資料集：從Kaggle、UCI Machine Learning Repository等平台下載公開資料集。

2. 標註資料

確保你的資料已經標註好。例如，如果你在做圖像分類，每張圖像應該有一個對應的標籤。你可以使用工具如LabelImg來標註圖像。

安裝 labelImg

兩種安裝方式:

pip install labelImg

個人習慣用pip install

定義資料規格

確定需求
在開始製作資料集之前，首先需要確定研究或應用的需求，包括目標任務和所需資料的特性。

可以觀察其他資料集的結構，進行編制

├── /your_dataset
│   ├── 9.2(日期)/
│   	├── 1(類別編號)/
│   	    ├── 170000180000(時間區間)/
│   	   	   	├── [日期] + _ + [影片檔名序號時間段]+ _ + c[相機編號] + _ + [frame] + _ + [version] + .jpg
│   	   	   	├── 20220914_170000180000_c002_00083605_0.jpg
│   	       	├── 20220914_170000180000_c002_00083605_0.json
│   	├── 2(類別編號)/
│   	├── 9(類別編號)/
│   ├── 9.3(日期)/
│   ├── 9.24(日期)/
│   ├── 9.25(日期)/

簡單的階層結構，圖片檔案名稱與標註檔案名稱一致會比較好處理。

資料細節

資料夾:
[日期] + _ + [影片檔名序號時間段] = 20221016_150000160000
Output frame檔名:
[日期] +_ + [影片檔名序號時間段] + _ + c[相機編號] + _ + [frame] + _ + [圖片版本] + .jpg
Json 檔案:
20220914_170000180000_c002_00030600_0.json
CreateML json 內容:

[{"image": "20220914_170000180000_c002_00030600_0.jpg", "annotations": [{"label": "becky_1", "coordinates": {"x": 648.0247933884298, "y": 383.52066115702473, "width": 336.0, "height": 380.0}}, {"label": "becky_2", "coordinates": {"x": 1000.0247933884298, "y": 420.52066115702473, "width": 204.0, "height": 236.0}}, {"label": "becky_3", "coordinates": {"x": 1074.0247933884298, "y": 309.02066115702473, "width": 190.0, "height": 273.0}}]}]

3. 資料清洗

資料清洗是確保資料質量的關鍵步驟，常見的清洗操作包括：

去除重複項：確保資料集中每個樣本都是唯一的。
- 這邊主要還是靠人工/chatgpt幫忙
處理缺失值：根據情況選擇刪除或填補缺失值。
標準化資料：將資料轉換為相同的格式，以便進行分析
- Model 吃的標籤資料不一定是我們當初標註的一樣，所以看要不要現在就重新排序。
對於許多任務（如圖像分類），資料標註是必不可少的。可以使用標註工具（如LabelImg、Labelbox等）來進行標註，並確保標註的一致性和準確性。

labelImg 問題

labelImg無法開啟資料夾圖片和label

不要把資料夾取中文和夾帶空格
安裝labelImg在C槽就在C槽執行該指令
要選到跟圖片一樣的資料夾路徑底下才能開圖片
資料夾和套件安裝的槽要一樣

labelImg重開多次仍讀不到Bounding Box(有讀到圖片)，有比重開更有效的方式嗎?(我開laelImg指令是labelImg ./6)

先開啟labelImg [file_path]後，按change save dir: 改成[file_path資料夾]，在按open dir: 改成[file_path資料夾]

ControlNet 資料集

https://github.com/lllyasviel/ControlNet/blob/main/docs/train.md
這篇有教如何製作一個可以訓練ControlNet的資料集

製作條件-圖片-文本資料集

確保文件結構如下：

Source 資料夾: 放Condition的圖片
Target 資料夾: 將目標圖像放在另一個目錄中，如 target/X.png。
創建一個JSON文件（如 prompt.json），每一行是一個JSON對象，包含源文件名、目標文件名和文本提示。

ControlNet/
├── training/
│   └── fill50k/
│       ├── prompt.json
│       ├── source/
│       │   ├── X.png
│       │   └── ...
│       └── target/
│           ├── X.png
│           └── ...

加載資料集

編寫 tutorial_dataset.py 來加載資料集。

import json
import cv2
import numpy as np
from torch.utils.data import Dataset

class MyDataset(Dataset):
    def __init__(self):
        self.data = []
        # './training/fill50k/prompt.json' 要改成你的標記 json 檔
        with open('./training/fill50k/prompt.json', 'rt') as f:
            for line in f:
                self.data.append(json.loads(line))

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        item = self.data[idx]

        source_filename = item['source']
        target_filename = item['target']
        prompt = item['prompt']
        # './training/fill50k/' 要改成你的"資料夾"
        source = cv2.imread('./training/fill50k/' + source_filename)
        target = cv2.imread('./training/fill50k/' + target_filename)
        ...