權杖化將原始文字 分割成一連串的權杖,例如字詞或子字詞部分。權杖化通常是 NLP 處理流程管道的第一個步驟。權杖通常是文字的循環順序,在稍後處理時會視為原子單位。
詞袋模型將文件視為無序的權杖或字詞的集合 (一個詞袋就像一個集合,只是它會追蹤每個元素出現的次數)。由於他們完全忽略單字順序,詞袋模型將用「狗咬人」等句子與「人咬狗」。不過,詞袋模型經常用來提昇大型資訊擷取任務的效率。他們可以對較長的文件產生接近最先進的結果。
「停止文字」是稍後處理時忽略的權杖。它們通常是簡短且經常使用的字詞,例如「a」、「the」或「an」。詞袋模型與搜尋引擎通常會忽略停用詞,以減少資料庫內的處理時間與儲存。深度神經網路通常會將詞序考慮在內 (也就是說,它們不是詞袋模型),並且不去除停用詞,因為停用詞可以表達意義上的細微區別(例如「包裹弄丟」和「包裹掉了」的意思不一樣,儘管在去除停用詞後它們是一樣的)。
語素是語言中最小的含意元素。一般來說,語素比文字小。例如,「revisited」包含字首的「re」,詞幹「visit」和過去式字尾「-ed」。詞幹提取和詞形還原會將字詞對應到它們的詞幹形式 (例如,「revisit」+過去式)。但深度學習模型通常都從訓練資料中學習這些規則,因此不需要明確的詞幹提取或詞形還原步驟。
詞性標籤 (PoS) 是給每個詞貼上其詞性標籤的過程 (例如,名詞、動詞、形容詞等)。語法剖析器可識別字詞如何結合成片語、子句及整個句子。PoS 標記是一種順序標籤任務,語法剖析是一種延伸的序列標籤任務,深度神經網路是 PoS 標記和語法剖析的最先進技術。在深度學習之前,PoS 標記和語法剖析是句子理解的必要步驟。