Python 開啟一個檔案txt然後算出TD-IDF

tf-idf python it大神學渣燒腦

a860609947 2021-04-07 06:55:24 ‧ 2790 瀏覽

分享至

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

d1="a b c d"
d2="e f g h"

vectorizer = CountVectorizer(stop_words=None, token_pattern="(?u)\b\w+\b")
X = vectorizer.fit_transform([d1,d2])
r = pd.DataFrame(X.toarray(),columns=vectorizer.get_feature_names())

transformer = TfidfTransformer(smooth_idf=True)
Z = transformer.fit_transform(X)
r = pd.DataFrame(Z.toarray(),columns=vectorizer.get_feature_names())

print(r)

想把d1換成打開一個txt檔有大神可以教教我嗎
有用d1 =open('test.txt','r',encoding='utf-8')
可是還是有錯誤
另外一個問題TF-IDF 是不是算出來的頻率不會等於1 為什麼

登入發表討論

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

4 個回答

過時軟碟片

iT邦新手 5 級 ‧ 2021-04-07 10:28:05

最佳解答

其實我不懂標題的TD-IDF也不知道內文改問的TF-IDF，但是關於python的open問題我可以稍微回答一下。

樓主的問題其實沒有描述清楚，那麼我假設樓主要的是將d1變數的值是從一個檔案讀進來的第一行資料，d2也是這樣。那麼下面是程式片段來取代d1="a b c d"及d2="e f g h"這兩行

d1_fo = open("/path/for/d1/file", mode='r', encoding='utf-8')
d2_fo = open("/path/for/d2/file", mode='r', encoding='utf-8')
d1 = d1_fo.readline()
d2 = d2_fo.readline()
d1_fo.close()
d2_fo.close()
d1 = d1.strip("\n")
d2 = d2.strip("\n")

對了，那兩行open()並沒有做錯誤處理，就是沒處理open失敗的情況，所以你可以自己加強一下喔。

回應 1
分享
檢舉

a860609947 iT邦新手 5 級 ‧ 2021-04-24 01:29:41 檢舉

感謝你的回答抱歉這麼久才回復
因為最近在弄期中考
用你的程式有成功開啟並學到了readline和strip的知識

登入發表回應

froce

iT邦大師 1 級 ‧ 2021-04-07 12:05:09

另外一個問題TF-IDF 是不是算出來的頻率不會等於1 為什麼

https://zh.wikipedia.org/wiki/Tf-idf
看數學式
tf 一定小於1，這沒問題
idf是取對數，當檔案總數大，詞語出現在檔案次數小的時候，大於1。
tf-idf就兩個相乘，怎麼會沒有可能等於1？只是通常不會大於或等於1，因為取對數造成idf不會太大。

問題是tf-idf只是粗略的判別詞語在特定文件裡常出現，並且不屬於通用語句，是單純讓你比大小判斷權重而已，你問會不會等於1要幹麻？等於1也不會有任何特別意義。

回應 4
分享
檢舉

看更多先前的回應...收起先前的回應...

一級屠豬士 iT邦大師 1 級 ‧ 2021-04-07 17:22:57 檢舉

借froce 大大的位置,建議一下提問者.學習切勿心急求快.
看了提問的紀錄,之前有問 panda 讀檔. 這裡也是可以使用panda
讀檔啊.不要急著趕進度,把每一步都搞懂,後面的才好走.

froce iT邦大師 1 級 ‧ 2021-04-08 13:19:38 檢舉

唉，現在真的一堆基礎沒打好，就想玩AI。

a860609947 iT邦新手 5 級 ‧ 2021-04-24 01:38:05 檢舉

抱歉這麼晚才回復最近在忙期中考
這是專題老師出給我們的作業
也沒學過所以只好上網找答案但是還是不太懂
所以上it找懂得解釋一下
會問等於1是因為我檔案數只有1個
按照維基百科裡面的例子去算為什麼不會等於1呢

a860609947 iT邦新手 5 級 ‧ 2021-04-24 01:39:05 檢舉

回應一級屠豬士最後有用panda 的DataFrame匯出來呀

登入發表回應

tkunlin

iT邦新手 4 級 ‧ 2021-04-08 09:34:45

with open(file_name)) as file1:  (使用with as 會處理檔案讀取過程中發生的例外，並且最後確定檔案一定會關閉)
        for line in file1:    (使用For 迴圈的原因是要將整個檔案以行的方式, 全部讀出, 不然用 line()時只會讀到第一行)
            fields = line.strip().split()  (讀完整行後, 去除前後空白字元. Python 3 可以用string())

給你參考囉

回應 1
分享
檢舉

a860609947 iT邦新手 5 級 ‧ 2021-04-24 01:45:31 檢舉

抱歉小弟沒學過
看不太懂

登入發表回應

I code so I am

iT邦高手 1 級 ‧ 2021-04-08 10:09:30

應該如下:

with open('test.txt','r',encoding='utf-8') as f:
    d1 = f.read()

tf-idf 不是算機率，而是轉換為向量，總和不會等於1，公式請參閱：
https://zh.wikipedia.org/wiki/Tf-idf

回應 2
分享
檢舉

a860609947 iT邦新手 5 級 ‧ 2021-04-24 01:42:52 檢舉

感謝大大的回答
抱歉很晚才回復最近在準備期中考的事情
所以tf算的事詞頻
但對於逆向檔案頻率 idf的解釋還是不太理解

I code so I am iT邦高手 1 級 ‧ 2021-04-24 20:48:54 檢舉

idf 主要是表達【跨文件出現的次數越多，表示該單字越不重要】，例如冠詞、介係詞、代名詞，他們出現在文件的頻率很高，但他們並無助於理解文章的大意。

登入發表回應

我要發表回答

立即登入回答

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

Fortigate DNS Filter 問題

IT邦幫忙