iT邦幫忙

鐵人檔案

2025 iThome 鐵人賽
回列表
生成式 AI

OCR × Layout x Ollama × RAG:打造純地端智慧文件問答系統 系列

本系列文將帶領讀者從基礎到實作,完整掌握文件問答系統的建構流程。課程分為四大部分:基礎知識篇介紹 RAG 與 OCR 的價值,並比較 Tesseract、EasyOCR、PaddleOCR 等工具;文件理解模型篇解析 LayoutLM 的演進,並引入 DocFormer、Donut 與 MinerU;Ollama 篇則聚焦模型操作與 LangChain 串接;最後在專案實作篇,透過 Streamlit、Docker、Celery 與 PostgresSQL 打造互動介面與完整 RAG 流程。本系列結合理論、工具比較與實際開發,協助學習者逐步完成全地端智慧文件 QA 系統。

參賽天數 3 天 | 共 3 篇文章 | 0 人訂閱 訂閱系列文 RSS系列文
DAY 1

Day01 - 系列導讀:為什麼需要文件問答系統?RAG × OCR × Layout 的價值

在數位化浪潮下,企業紛紛擁抱生成式 AI,其中最常見的應用,無非是客服與知識管理。然而,在建置企業專屬的知識庫時,一個棘手問題浮現:如何讓 AI 正確解析各式各...

DAY 2

Day02 - OCR 知識:什麼是 RAG?它如何解決 LLM 的知識盲點

在進入 RAG(Retrieval-Augmented Generation,檢索增強生成)的世界前,讓我們先思考一個核心問題:為什麼大型語言模型(LLM)有時...

DAY 3

Day03 - OCR 知識:OCR 基礎、常見 OCR 應用場景

在第一天,我們理解了打造一個文件問答系統的全貌,並認識了 RAG、OCR 與 Layout 分析這三大支柱。從今天開始,我們將深入第一個關鍵技術:OCR(Opt...