iT邦幫忙

2024 iThome 鐵人賽

DAY 15
0
生成式 AI

懶人救星:生成式AI 系列 第 15

Day15-從零開始:如何透過LlamaIndex讀取檔案(下)?

  • 分享至 

  • xImage
  •  

LlamaParse📄

LlamaParse 是LlamaIndex所開發的另一項服務,主要用於處理/解析文本數據,並提供OCR、輸出格式轉換(Markdown、Json)、指定頁數等功能,並且支援異步執行能夠同時讀取大量資料。提供了 API 接口方便開發人員快速部屬,廢話不多說我們就馬上來看怎麼實作吧。(LlamaParse支援免費1000頁檔案讀取。)
https://ithelp.ithome.com.tw/upload/images/20240912/20168117TWqOaOMafx.png

  1. 安裝LlamaParse:pip install llama-parse
  2. 新增API KEY:登入「LlamaParse」 → 「API KEY」 → 「+Generate New Key」
  3. 執行以下程式
import nest_asyncio

nest_asyncio.apply()

from llama_parse import LlamaParse
path = ".\iThome鐵人賽活動簡章-20240614.pdf"
parser = LlamaParse(
    api_key="llx-...",  # can also be set in your env as LLAMA_CLOUD_API_KEY
    result_type="markdown",  # "markdown" and "text" are available
    verbose=True,
)

# sync
documents = parser.load_data(path)

print(documents[0].text)

執行結果✅

有沒有發現和預設的讀取結果不同? LlamaParse 支援 Markdown 輸出格式,表格資訊已轉換成 Markdown 語法,而原本讀取方式只提取了文字內容缺少了表格的相關性。(依筆者經驗 LLM 比較偏好 Markdown 或 Json 格式資料。)

# 2024 iThome 鐵人賽 活動簡章

# 壹、 活動宗旨

鼓勵 IT 人分享技術心得、促進學習與交流,振興繁體中文 IT 文章創作。

# 貳、 主辦單位

電週文化事業股份有限公司(iThome)

# 參、 賽制與獎項

分為「主題競賽」、「自我挑戰」以及「佛心分享」三大挑戰方式,參賽者根據下表說明依所選參賽主題、切題發文,於限定賽期內堅持30天不中斷,即可完賽。獎勵辦法如下:

|賽 組|主題競賽|佛心分享|自我挑戰|
|---|---|---|---|
|參賽主題|根據官網公布主題擇一參賽,例如:AI & Data、DevOps、GenAI、IT管理、Modern Web、Mobile Development、Security、Software Development、影片教學等。|從官網公告佛心分享主題擇一參賽,例如:SideProject30、IT人自學之術、我的私藏工具箱、IT人的工作軟技能等|如無法在主題競賽中找到適合的參賽主題,可在「自我挑戰」賽組自訂主題參賽,但自訂主題仍應與 IT 相關。|
|完賽證明|無論賽組,只要完成30天連續挑戰,都頒發完賽證明乙紙|不列入計分評選。|不列入計分評選。|
|評選獎項|主題競賽完賽作品,經評審委員會評選後、擇優獎勵;獎項由評審會議視參賽者及作品水準議定,必要時得以從缺。|不頒發冠軍、優選與佳作獎項。|不頒發冠軍、優選與佳作獎項。|
|冠軍(每主題1名)|1萬元獎金、獎盃乙座,以及賽季紀念品,各主題完賽人數達100人,每逾50人,額外增設1個名額。|評審委員會將依賽事整體作品水準與作品實用性議定標準、擇優列出推薦文章列表,並於得獎公告之。| |
|優選(每主題2名)|獎盃乙座以及賽季紀念品,各主題完賽人數達100人,每逾50人,額外增設2個名額。|名列推薦文章之作者將額外獲得賽季紀念品。| |
|佳作(若干名)|獎牌乙面以及賽季紀念品,不分主題,由評審委員會依賽事整體作品水準,議定標準、擇優入選,名額不限。| | |

iThome 鐵人賽鼓勵選手組團、互相打氣勉勵,因此額外推出「組隊挑戰」及相應獎勵:無論「主題競賽」、「自我挑戰」或是「佛心分享」之參賽者,均可透過賽事網站機制組成團隊進行「組隊挑戰」。團隊應至少有3名成員(上限不拘),且須約定於同一日開賽(組隊挑戰最早08/01組隊報名,並於08/02開賽,最晚於09/14組隊報名並於09/15開賽);當團隊成員皆完賽,除仍將獲得個人原有完賽證明外,還將額外獲得團隊鍊成獎牌(每人乙面)。主辦單位也將針對完成團隊挑戰之團隊,額外頒發以下兩個獎項:

- 最佳團隊獎(1隊):共享團隊布幟乙面與獎金5千元整,平均成績最高團隊獲獎(因需計分評選,因此團隊成員均需為「主題競賽」參賽者)。
- 眾志成城獎(1隊):共享團隊布幟乙面,完賽人數最多之團隊獲獎。

結論💡

LlamaParse 是一款強大的文本解析工具,特別適合需要處理大量文件的用戶。其最大的亮點在於支援OCR(光學字符識別),能夠將圖片中的文字提取出來,並提供多種輸出格式(如Markdown和Json),這對於需要保持表格、標題等文檔結構的使用者非常有幫助。LlamaParse 也支援異步處理,允許同時讀取多個文檔,大大提升效率,特別是對於需要批量處理文檔的工作場景。

此外,LlamaParse 提供了簡單易用的 API,方便開發人員快速整合到自己的應用程式中。從安裝到使用,步驟相當簡單,僅需幾行程式碼就能解析文件並輸出結果。尤其是在資料結構化輸出方面,LlamaParse 的 Markdown 格式比傳統的純文字格式更具可讀性,這使得它特別適合用於大多數AI模型處理的資料輸入。

總結來說,LlamaParse 提供了免費的1000頁文件解析額度,加上其強大的功能與靈活的API接口,對於有大量文件解析需求的用戶來說,是一個非常實用且高效的工具。也解決了讀取一般檔案時會遇到的各種問題,讓使用者能快速/簡單的上手,在於文字讀取的部分 LlamaIndex 可以說是非常用心❤️


上一篇
Day14-從零開始:如何透過LlamaIndex讀取檔案(上)?
下一篇
Day16-從零開始:如何透過LlamaIndex串接LLM Model?
系列文
懶人救星:生成式AI 26
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言