iT邦幫忙

鐵人檔案

2025 iThome 鐵人賽
回列表
AI & Data

論文流浪記:我與AI 探索工具、組合流程、挑戰完整平台 系列

計劃是休息,卻因 AI 而展開一場 30 天挑戰:「AI 逼我VIBE CODING」。在人人能用 AI 寫程式的時代,工程師若不追新就可能被淘汰。我決定把 AI 當夥伴,一起打造個人化論文檢索與筆記平台:自動抓取 arXiv 論文、解析 PDF、翻譯與向量化,讓使用者能快速搜尋、聊天問答,甚至訂閱每日摘要 Email。這是一場練功與自救的旅程,跌跌撞撞也要推動專案前行,只盼 30 天後能誕生一個真正可用的工具,而不是難產。

參賽天數 23 天 | 共 24 篇文章 | 5 人訂閱 訂閱系列文 RSS系列文 團隊等待阿毛參賽中
DAY 1

Day 1 | 為什麼做 Arxiv Knowledge Assistant?—啟程與夢想 🚀

在這個 人人都能靠 AI 🤖💻 寫程式、快速學習的時代,工程師反而更容易被捲入潮流之中:不追新,就有被淘汰的危險。我開始思考,有沒有一個地方,能持續提供最新、免...

DAY 2

Day 2|畫出我的夢想系統:架構圖初探 — 系統藍圖

說好的整裝待發🎒,於是,我決定動手把腦袋裡的藍圖畫出來。就像冒險前要先在地圖上標出地標,不然出發後一定會迷路。 想了又想,又多了一些靈感,決定來拆解成三個pip...

DAY 3

Day 3 | 攻略第一個據點 — Arxiv Pipeline 技術拆解(上):Metadata 抓取與 PDF 處理

前言 每個冒險者在啟程時,都需要一張地圖和一艘堅固的船。對我來說,今天的任務就是打造這艘「探險船」——讓它能在浩瀚的學術大海裡,找到正確的島嶼(論文 metad...

DAY 3

Day X|資料才是英雄——Docling 的 PDF 解析秘笈 📄🛡️

今天我們不聊算法,也不聊推薦系統,我們聊真正讓系統活起來的幕后英雄——資料。 再強的AI 模型,也只能靠資料 —— 也就是每天乖乖整理、解析、結構化的 PDF...

DAY 4

Day 4 | 征服第二個據點 — Arxiv Pipeline 技術拆解(下):PDF 向量化與 Qdrant 上傳

前言 昨天,我才剛把探險船派去收集論文寶藏,辛苦打撈回來一堆 metadata 與沉重的 PDF。船員們滿臉興奮,卻又困惑地看著我:「船長,這些寶物拿回來要怎...

DAY 5

Day 5|資料的家:MinIO , Qdrant, PostgreSQL 的故事 — 文件與資料庫

前言 今天,我的冒險船再次啟航,目標是將前幾天辛苦收集的 arXiv 論文寶藏,安全地存放進兩座寶庫——PostgreSQL 與 Qdrant。這就像探險者在遼...

DAY 6

Day 6|你好 Ollama - 與 Ollama 模型初次見面

前言 昨天,我把 PDF 轉化為向量寶石,存入了我的魔法空間(Storage Layer)。今天,我迎來了一位全新的魔法夥伴:Ollama 模型。它是我的智慧問...

DAY 7

Day 7 | 穿越 RAG 魔法迷宮:打造智慧問答系統的秘訣 - RAG Pipeline

前言:踏入 RAG 魔法迷宮 ✨ 你是否曾經問 AI 一個問題,卻得到完全不相關或錯誤的答案?傳統 LLM 只能依賴自身訓練時的知識,遇到新資料,它也只能「憑直...

DAY 8

Day 8|Email Pipeline 技術拆解(上) - 打造訂閱系統

前言:冒險再起,電子郵件的魔法門 今天的挑戰,是我作為工程師兼探險者的另一段旅程——打造一條可靠的 Email Pipeline。就像在荒野中探險,我手上握著一...

DAY 9

Day 9|Email Pipeline 技術拆解(下) - 打造訂閱系統

這篇文章不是 100% 純技術——因為我偷偷撒了一點魔法粉。程式碼是咒語、流程是魔法陣,錯誤訊息則是暗黑詛咒。如果你只想看乾巴巴的程式碼解析,這裡可能不適合;但...

冒牌者症候群的軟體攻城獅的收藏
冒牌者症候群的軟體攻城獅的追蹤
冒牌者症候群的軟體攻城獅的Like
冒牌者症候群的軟體攻城獅的紀錄