想請教python做到批量輸入與匯出該如何調整程式?

python 機器學習資料處理

style840102 2022-08-02 10:00:05 ‧ 1341 瀏覽

分享至

各位先進們好，近期研究文本分類，想知道是否有方式可修改為大量輸入與匯出?

!pip install scikit-learn
!pip install pandas

import pandas as pd
read = pd.read_excel("20200824142914.xlsx").values.tolist()
corpus = [row[0] for row in read]
intents = [row[1] for row in read]

from sklearn.feature_extraction.text import CountVectorizer
feature_extractor = CountVectorizer(
            analyzer="word", ngram_range=(1, 2), binary=True,
            token_pattern=r'([a-zA-Z]+|\w)')
X = feature_extractor.fit_transform(corpus)

from sklearn.linear_model import LogisticRegression
INTENT_CLASSIFY_REGULARIZATION = "l2"

lr = LogisticRegression(penalty=INTENT_CLASSIFY_REGULARIZATION,
                                         class_weight='balanced')
lr.fit(X, intents)

user_input = ['查詢明天的降雨量']
X2 = feature_extractor.transform(user_input)

lr.predict(X2)

probs = lr.predict_proba(X2)[0]
for predict_intent, prob in sorted(zip(lr.classes_, probs), key = lambda x: x[1],reverse = True):
    print(predict_intent, prob)

obarisk iT邦研究生 1 級 ‧ 2022-08-03 08:19:24 檢舉

一定有啊...

登入發表討論

熱門推薦

{{ item.channelVendor }} {{ item.webinarstarted }} |

直播中

2 個回答

I code so I am

iT邦高手 1 級 ‧ 2022-08-03 08:20:37

最佳解答

user_input = ['查詢明天的降雨量'] 改為多筆即可，例如：

user_input = ['查詢明天的降雨量', '查詢後天的降雨量']

回應 10
分享
檢舉

看更多先前的回應...收起先前的回應...

style840102 iT邦新手 5 級 ‧ 2022-08-03 08:44:06 檢舉

您好，想知道除此之外~是否有例如透過匯入excel、text等文本的方法呢?
自己嘗試過調整但是都錯誤，謝謝您!

I code so I am iT邦高手 1 級 ‧ 2022-08-04 08:03:36 檢舉

建立一個只有一個欄位的 Excel 檔案，利用下列程式碼讀入：

import pandas as pd
df=pd.read_excel('test.xlsx')
user_input = df.values

之後照做即可。

style840102 iT邦新手 5 級 ‧ 2022-08-04 09:47:51 檢舉

您好，抱歉嘗試了一天還是無法成功執行，會出現AttributeError: 'numpy.ndarray' object has no attribute 'lower'
不知道我哪邊出了錯誤~

style840102 iT邦新手 5 級 ‧ 2022-08-04 10:01:01 檢舉

我有更新目前我的所有程式碼，若前輩願意在懇請次指點，感謝

I code so I am iT邦高手 1 級 ‧ 2022-08-04 16:49:47 檢舉

請利用程式區塊框起來，並附上資料，別人才可以迅速幫你解決問題。

style840102 iT邦新手 5 級 ‧ 2022-08-04 17:03:26 檢舉

您好，已更新內文!

style840102 iT邦新手 5 級 ‧ 2022-08-05 10:26:59 檢舉

我是將您建議的
import pandas as pd df=pd.read_excel('test.xlsx') user_input = df.values
加入第5段的程式碼做調整，但是會出現AttributeError: 'numpy.ndarray' object has no attribute 'lower'

I code so I am iT邦高手 1 級 ‧ 2022-08-05 10:34:28 檢舉

修改如下：

import pandas as pd
df = pd.read_excel("20200824142914.xlsx")

from sklearn.feature_extraction.text import CountVectorizer
feature_extractor = CountVectorizer(
            analyzer="word", ngram_range=(1, 2), binary=True,
            token_pattern=r'([a-zA-Z]+|\w)')
X = feature_extractor.fit_transform(df.語句.values)
X.shape

# 意圖 轉為代碼
from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder()
intents = encoder.fit_transform(df.意圖)

# 訓練
from sklearn.linear_model import LogisticRegression
INTENT_CLASSIFY_REGULARIZATION = "l2"

lr = LogisticRegression(penalty=INTENT_CLASSIFY_REGULARIZATION,
                                         class_weight='balanced')
lr.fit(X, intents)

# 大量測試
df_input = pd.read_excel("test_data.xlsx")
user_input = df_input.iloc[:,0].values
X2 = feature_extractor.transform(user_input)
print(lr.predict(X2))
print(encoder.classes_[lr.predict(X2)])