短語結構文法是關於詞和詞序列如何結合起來形成句子成分的。一個獨特的和互補的方式,依存語法,集中關注的是詞與其他詞之間的關係。依存關係是一個中心詞與它的依賴之間的二元對稱關係。一個句子的中心詞通常是動詞,所有其他詞要么依賴於中心詞,要么依賴路徑與它聯通。
一個句子的中心詞通常是動詞,所有其他詞要么依賴於中心詞,要么依賴路徑與它聯通。
依存結構:箭頭從中心詞指向它們的依賴;標籤表示依賴的語法功能如:主語、賓語或修飾語。
下面是NLTK為依存語法編碼的一種方式——注意它只能捕捉依存關係信息,不能指定依存關係類型:
>>> groucho_dep_grammar = nltk.DependencyGrammar.fromstring( """
... 'shot' -> 'I' | 'elephant' | 'in'
... 'elephant' -> 'an' | 'in'
... 'in' -> 'pajamas'
... 'pajamas' -> 'my'
... """ )
>>> print (groucho_dep_grammar)
Dependency grammar with 7 productions
'shot' -> 'I'
'shot' -> 'elephant'
'shot' -> 'in'
'elephant' -> 'an'
'elephant' -> 'in'
'in' -> 'pajamas'
'pajamas' -> 'my'
corpus模塊定義了 treebank語料的閱讀器,其中包含了賓州樹庫語料的10%的樣本。
>>> from nltk.corpus import treebank
>>> t = treebank.parsed_sents( 'wsj_0001.mrg' )[0]
>>> print (t)
(S
(NP-SBJ
(NP (NNP Pierre) (NNP Vinken) )
(, ,)
(ADJP (NP (CD 61) (NNS years)) (JJ old))
(, ,))
(VP
(MD will)
(VP
(VB join)
(NP (DT the) (NN board) )
(PP-CLR
(IN as)
(NP (DT a) (JJ nonexecutive) (NN director)))
(NP-TMP (NNP Nov.) (CD 29))))
(. .))
到這裡為止之後的東西我實在搞不懂在幹嘛了,最後就貼個小結上來,剩下幾天試著用中文樹庫把這章複習一遍
參考資料:
Python 自然语言处理 第二版https://usyiyi.github.io/nlp-py-2e-zh/