從文字到影像

2023 iThome 鐵人賽

自我挑戰組

多媒體：影像處理系列第 10 篇

15th鐵人賽

kellyhung

2023-10-17 01:24:14

502 瀏覽

分享至

隨著互聯網的發展和網絡帶寬的改善，網絡上的信息逐漸從純文本過渡到文本和圖像相結合，甚至有些網站（例如Flickr和Pinterest）發布的信息幾乎都是圖像。傳統搜索引擎擅長查找文本信息，但對於圖像信息，許多搜索引擎顯得力不從心。鑒於用戶對此的強烈需求，許多互聯網公司開始在其搜索引擎中增加圖像搜索選項。

<html>
<head>
</head>
<body>
<title>貓</title>
<img src="/images/animal/cat.jpg" alt="可愛的小貓"/>
<div class="introduction-label" data-module="mtIn-貓身體靈活">貓身體靈活，樣子招人喜愛。</div>
</body>
</html>

現在讓我們回到您提到的以圖像搜索圖像的問題。初始的圖像搜索引擎，如Altavista和Lycos，確實是使用圖像的文件名、路徑、周圍的文本以及Alt標簽中的注釋來索引和搜索相關的圖像。從根本上來說，這種圖像搜索引擎實際上是基於文本搜索引擎的。

有時，圖像周圍的文本信息與圖像無關，這可能導致返回的一些圖像結果與查詢關鍵詞不一致。為了避免這種缺陷，一些搜索引擎采用人工方式對圖像進行標記和索引。例如，美國中北部教育技術聯盟開發的Amazing Picture Machine，它由專人從事圖像信息的收集、整理和標記，雖然人工標記確保了搜索引擎的查詢準確性，但它限制了圖像索引的規模，不可能實現很好的全面搜索。

有時，圖像的內容很難用幾個關鍵詞完整描述。在某些情況下，無論是使用圖像網頁的相關文本信息還是人工標記的文本說明，都很難實現高搜索準確性。在1992年，工程師Kato提出了以內容為基礎的圖像檢索（CBIR）概念，它使用圖像的顏色、形狀等信息作為特征來建立用於圖像檢索的索引，也就是我們通常說的“以圖查圖”。基於這一概念，IBM開發了第一個商用的基於CBIR的系統QBIC（Query By Image Content），用戶只需輸入一幅草圖或圖像就可以搜索相似的圖像。

在相同的時期，許多公司也將這一技術引入其搜索引擎中。哥倫比亞大學開發的WebSEEK系統不僅提供基於關鍵詞的圖像搜索和按圖像類別主題瀏覽，還可以使用圖像的顏色信息進行基於內容的圖像搜索。xathoo的ImgeSurfer還提供了使用案例圖的顏色、形狀、紋理特征以及它們的組合進行基於內容的圖像搜索功能。隨著視覺技術的進步和發展，越來越多的搜索引擎采用這種方式進行圖像搜索，並在此基礎上不斷發展。

那麽，以圖像搜索圖像的問題的準確度為什麽會如此令人不滿？這主要是因為無論是圖像的顏色、紋理、形狀等全局信息，還是後來的SIFT等局部圖像信息，都是人工設計的，這些信息並不能完全反映人類對圖像內容的理解。那麽圖像搜索的準確度如何提高呢？隨著人工智能，特別是深度學習理論和技術的發展，人們逐漸找到了解決方案。

神經網絡算法源自1943年的MCP類神經元模型，經過眾多科學家的努力，經歷了波瀾起伏的發展，逐步解決了發展中的問題，進入了新的快速發展階段。2006年，Hinton提出了訓練深層神經網絡的新思想，也就是現在所說的深度學習。2012年，Hinton和他的學生Alex等人參加ImageNet圖像識別比賽，利用深度學習理論構建的卷積神經網絡（CNN）AlexNet以84.7%的正確率奪冠，以相當大的優勢擊敗了使用人工設計特征算法獲得亞軍的選手。自此，深度學習方法在圖像特征分析方面超越了許多傳統方法。許多圖像搜索引擎也采用深度學習算法，顯著提高了圖像搜索的準確度。

參考資料:深智數位《CV+AI自己動手完成圖像搜尋引擎》