Day 6 | 語音辨識控制開關燈實作：用 CNN 讓燈光聽懂你的話 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2025 iThome 鐵人賽

DAY 6

AI & Data

感知你的動作與情緒：深度學習在人機互動的應用系列第 6 篇

Day 6 | 語音辨識控制開關燈實作：用 CNN 讓燈光聽懂你的話

17th鐵人賽 cnn 語音辨識

minsnow

2025-09-08 23:02:59

175 瀏覽

分享至

前言

當我們說出「開燈」的瞬間，腦中其實已經構築了一個期望 —— 我希望燈亮起來，而不是只是被「聽見」。

這正是語音互動設計的核心：語音不只是輸入，還必須驅動回應。

今天，我們就來實作一個最小可行語音互動系統（MVP）：
👉🏻 使用 CNN 模型辨識「開燈」和「關燈」語音指令，並用 print() 模擬控制燈光的行為！

系統架構與流程

模組	功能說明
語音輸入	使用 Google Speech Commands 的 `on` / `off` 指令
音訊處理	將語音波形轉為梅爾頻譜圖（MelSpectrogram）
CNN 模型	分類語音為 `on` 或 `off`
控制邏輯	使用 `print()` 輸出「燈亮起來了！」或「燈熄滅了...」

語音資料來源

本專案採用 Google 開源的 Speech Commands Dataset：

包含數十種語音指令（如：yes, no, stop, go, on, off 等）
每筆資料為 1 秒 .wav 聲音檔，採樣率 16kHz
多人錄音，增加泛化能力

我們將挑選其中的 on 與 off ，分別代表「開燈」與「關燈」指令。

特徵工程

CNN 模型對圖像敏感，因此我們會將聲音波形轉換成 梅爾頻譜圖（Mel Spectrogram），讓聲音變成一張圖片：

如下圖所示：

import torchaudio
import matplotlib.pyplot as plt

waveform, sr = torchaudio.load("on.wav")
mel = torchaudio.transforms.MelSpectrogram()(waveform)

plt.figure(figsize=(10, 4))
plt.imshow(mel.log2()[0].numpy(), cmap='viridis', aspect='auto')
plt.title("Mel Spectrogram of 'on'")
plt.xlabel("Time")
plt.ylabel("Mel Frequency")
plt.colorbar()
plt.show()

CNN 模型設計與訓練

以下為模型架構，經資料增強後進行訓練，最終在測試集達到 94.45% 的準確率：

import torch.nn as nn

class CNNClassifier(nn.Module):
    def __init__(self):
        super().__init__()
        self.net = nn.Sequential(
            nn.Conv2d(1, 16, kernel_size=3),
            nn.ReLU(),
            nn.MaxPool2d(2),
            nn.Conv2d(16, 32, kernel_size=3),
            nn.ReLU(),
            nn.MaxPool2d(2),
            nn.Flatten(),
            nn.Linear(32 * 14 * 14, 64),
            nn.ReLU(),
            nn.Linear(64, 2) 
        )

    def forward(self, x):
        return self.net(x)

控制邏輯模擬（print 實作）

def control_light(pred_label):
    if pred_label == 1:
        print("燈亮起來了！")
    elif pred_label == 0:
        print("燈熄滅了...")
    else:
        print("無法辨識的指令")

y_pred = model(mel_tensor.unsqueeze(0).to(device))
pred_label = torch.argmax(y_pred, dim=1).item()
control_light(pred_label)

輸出：