LlamaParse 是LlamaIndex所開發的另一項服務,主要用於處理/解析文本數據,並提供OCR、輸出格式轉換(Markdown、Json)、指定頁數等功能,並且支援異步執行能夠同時讀取大量資料。提供了 API 接口方便開發人員快速部屬,廢話不多說我們就馬上來看怎麼實作吧。(LlamaParse支援免費1000頁檔案讀取。)
pip install llama-parse
import nest_asyncio
nest_asyncio.apply()
from llama_parse import LlamaParse
path = ".\iThome鐵人賽活動簡章-20240614.pdf"
parser = LlamaParse(
api_key="llx-...", # can also be set in your env as LLAMA_CLOUD_API_KEY
result_type="markdown", # "markdown" and "text" are available
verbose=True,
)
# sync
documents = parser.load_data(path)
print(documents[0].text)
有沒有發現和預設的讀取結果不同? LlamaParse 支援 Markdown 輸出格式,表格資訊已轉換成 Markdown 語法,而原本讀取方式只提取了文字內容缺少了表格的相關性。(依筆者經驗 LLM 比較偏好 Markdown 或 Json 格式資料。
)
# 2024 iThome 鐵人賽 活動簡章
# 壹、 活動宗旨
鼓勵 IT 人分享技術心得、促進學習與交流,振興繁體中文 IT 文章創作。
# 貳、 主辦單位
電週文化事業股份有限公司(iThome)
# 參、 賽制與獎項
分為「主題競賽」、「自我挑戰」以及「佛心分享」三大挑戰方式,參賽者根據下表說明依所選參賽主題、切題發文,於限定賽期內堅持30天不中斷,即可完賽。獎勵辦法如下:
|賽 組|主題競賽|佛心分享|自我挑戰|
|---|---|---|---|
|參賽主題|根據官網公布主題擇一參賽,例如:AI & Data、DevOps、GenAI、IT管理、Modern Web、Mobile Development、Security、Software Development、影片教學等。|從官網公告佛心分享主題擇一參賽,例如:SideProject30、IT人自學之術、我的私藏工具箱、IT人的工作軟技能等|如無法在主題競賽中找到適合的參賽主題,可在「自我挑戰」賽組自訂主題參賽,但自訂主題仍應與 IT 相關。|
|完賽證明|無論賽組,只要完成30天連續挑戰,都頒發完賽證明乙紙|不列入計分評選。|不列入計分評選。|
|評選獎項|主題競賽完賽作品,經評審委員會評選後、擇優獎勵;獎項由評審會議視參賽者及作品水準議定,必要時得以從缺。|不頒發冠軍、優選與佳作獎項。|不頒發冠軍、優選與佳作獎項。|
|冠軍(每主題1名)|1萬元獎金、獎盃乙座,以及賽季紀念品,各主題完賽人數達100人,每逾50人,額外增設1個名額。|評審委員會將依賽事整體作品水準與作品實用性議定標準、擇優列出推薦文章列表,並於得獎公告之。| |
|優選(每主題2名)|獎盃乙座以及賽季紀念品,各主題完賽人數達100人,每逾50人,額外增設2個名額。|名列推薦文章之作者將額外獲得賽季紀念品。| |
|佳作(若干名)|獎牌乙面以及賽季紀念品,不分主題,由評審委員會依賽事整體作品水準,議定標準、擇優入選,名額不限。| | |
iThome 鐵人賽鼓勵選手組團、互相打氣勉勵,因此額外推出「組隊挑戰」及相應獎勵:無論「主題競賽」、「自我挑戰」或是「佛心分享」之參賽者,均可透過賽事網站機制組成團隊進行「組隊挑戰」。團隊應至少有3名成員(上限不拘),且須約定於同一日開賽(組隊挑戰最早08/01組隊報名,並於08/02開賽,最晚於09/14組隊報名並於09/15開賽);當團隊成員皆完賽,除仍將獲得個人原有完賽證明外,還將額外獲得團隊鍊成獎牌(每人乙面)。主辦單位也將針對完成團隊挑戰之團隊,額外頒發以下兩個獎項:
- 最佳團隊獎(1隊):共享團隊布幟乙面與獎金5千元整,平均成績最高團隊獲獎(因需計分評選,因此團隊成員均需為「主題競賽」參賽者)。
- 眾志成城獎(1隊):共享團隊布幟乙面,完賽人數最多之團隊獲獎。
LlamaParse 是一款強大的文本解析工具,特別適合需要處理大量文件的用戶。其最大的亮點在於支援OCR(光學字符識別),能夠將圖片中的文字提取出來,並提供多種輸出格式(如Markdown和Json),這對於需要保持表格、標題等文檔結構的使用者非常有幫助。LlamaParse 也支援異步處理,允許同時讀取多個文檔,大大提升效率,特別是對於需要批量處理文檔的工作場景。
此外,LlamaParse 提供了簡單易用的 API,方便開發人員快速整合到自己的應用程式中。從安裝到使用,步驟相當簡單,僅需幾行程式碼就能解析文件並輸出結果。尤其是在資料結構化輸出方面,LlamaParse 的 Markdown 格式比傳統的純文字格式更具可讀性,這使得它特別適合用於大多數AI模型處理的資料輸入。
總結來說,LlamaParse 提供了免費的1000頁文件解析額度,加上其強大的功能與靈活的API接口,對於有大量文件解析需求的用戶來說,是一個非常實用且高效的工具。也解決了讀取一般檔案時會遇到的各種問題,讓使用者能快速/簡單的上手,在於文字讀取的部分 LlamaIndex 可以說是非常用心❤️