我做了一個專案
以70%的詩詞(以....唐詩,宋詞為主)做為Training訓練集
以30%的詩詞(以....唐詩,宋詞為主)做為Testing測試集
在每兩首詩詞做"齊一性檢定"
結果:臨界值都是 ex:22.5684117001
統計值都是 ex:0.0254179989
每一組的測試都是這樣
我也把alpha值設定在99.9%
臨界值還是比統計值大
我所設定的"虛無,對立"假設
H0:兩首詩字頻比例是相同的
H1:兩首詩字頻比例是不相同的
就上述言:
每組的檢定一直無法通過
一直無法坐落在H0的區域
會不會是計算檢定值的部分錯了 ?
建議先找一個有"答案" 的範例 (如書上的範例)
測試你的程式
看你算出來的 跟範例答案一不一樣
若驗證不一樣 代表程式計算有誤!
想辦法驗證你的計算式
不然 你會一直卡在這邊喔 !!!
我打開Excel 自己用手算 例如:我取兩首詩 這兩首詩字數都在20個左右
他的df值就會40左右 此時若alpha設定為0.1 使用CHIINV(,) 值在50.000000左右
表示數值是沒出錯
第二步我使用兩首詩的所有字與特徵值 做成"齊一性檢定"列聯表
然後依照卡方的公式去算 結果統計值還真得很小
我有我算的內容
http://xun6.com/file/728d69636/Book1.xls.html
如果你手算的值跟你的程式吻合
那是不是要回頭想一想
先不要想程式...
你想要用 卡方檢定 處理甚麼問題 ?
你取的條件是否適合 ?
你取得條件是否成立 ?