最長重複字串python

python longest repeated substring scikit-learn

hoolada 2018-06-27 23:50:53 ‧ 4129 瀏覽

分享至

尋找字串找到最長重複的字串，我有使用suffix_trees 跟網路上的一些code

'hellowdfbvsfbsdbsdhellowscssdthavcscsdrssbhellowmf'
答案是hellow

但並不是我要的答案請問有比較適合的方法例如from suffix_trees import STrees 的Python也適用的演算法嗎?
可以指點我一下嗎拜託了!!

看更多先前的討論...收起先前的討論...

slime iT邦大師 1 級 ‧ 2018-06-28 09:04:20 檢舉

先說說看你想要的答案是什麼?
再分析看看你要的答案是依怎樣的特徵找到的?
再比對程式內的寫法是否符合這特徵的找法.

hoolada iT邦新手 5 級 ‧ 2018-06-28 14:51:29 檢舉

我要的答案最長重複字串
依分群出來的值，每一個執會顯示分群後屬於哪個群我把它當作字串
{1,5,6,7,5,2,8,9,4,5,6,7,5,2,8,9,4,4,2,2,6,6,9,5,3,1,0,7,5,2,6,5,4,4,2,3,6,8,4}
他印出來就會是這個答案5,6,7,5,2,8,9最長的字串
再比對程式內的寫法是否符合這特徵的找法這是說suffix_trees 其實是可以做到的但我只用了他pip 的範例做嘗試所以拿不到我要的答案嗎?

slime iT邦大師 1 級 ‧ 2018-06-28 15:20:02 檢舉

更不懂了....

最長重複字串的定義是?
分群的分法?
suffix_trees程式的來源?
pip?

hoolada iT邦新手 5 級 ‧ 2018-06-28 16:00:17 檢舉

定義是要找一個規則我的想法把它變成字串找到一個最長重複字串
{1,5,6,7,5,2,8,9,4,5,6,7,5,2,8,9,4,4,2,2,6,6,9,5,3,1,0,7,5,2,6,5,4,4,2,3,6,8,4}這是個例子
這例子最長重複字串5,6,7,5,2,8,9 這字串
分群 C-means K-means 都有做
https://pypi.org/project/suffix-trees/

fuzzylee1688 iT邦研究生 3 級 ‧ 2018-06-29 09:53:53 檢舉

我在想他的意思是指.. 一列有規則順序長字串, 當中可能有一組最長的重覆字串, 他要把它找出來.
如: ABCD Z ABCD Y ABC W AB .. 則最長重覆字串,就是ABCD

hoolada iT邦新手 5 級 ‧ 2018-06-29 15:56:59 檢舉

對但我之前沒有打好我的字串沒有空格跟,
他長這樣例如
'1123364113511311234561234565225497123456'

小碼農米爾 iT邦高手 1 級 ‧ 2018-06-30 22:16:35 檢舉

小弟有個疑問
{1,5,6,7,5,2,8,9,4,5,6,7,5,2,8,9,4,4,2,2,6,6,9,5,3,1,0,7,5,2,6,5,4,4,2,3,6,8,4}
的最長子字串為什麼是
5,6,7,5,2,8,9
而不是
5,6,7,5,2,8,9,4
呢?

hoolada iT邦新手 5 級 ‧ 2018-07-01 08:15:50 檢舉

你是對的我打錯哈哈SORRY!

登入發表討論

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

1 個回答

小碼農米爾

iT邦高手 1 級 ‧ 2018-07-01 04:16:29

最佳解答

蠻有趣的，研究了好一陣子，寫了一個擴充方法，給您看看是不是您需要的。

首先 Google 了 suffix-trees，發現這是個後綴樹演算法的實作，
後綴樹!!! 沒聽過的新名詞，這勾起了小弟我的興趣，
繼續 Google 找到了這篇文章后缀树，
且在最後 后缀树的应用 找到了大大的需求。

查找字符串 Text 中的最长重复子串
說明: 用 Text+'$' 建立後綴樹，搜尋最深的非葉節點，從根結點到到該節點所經過的字串就是最長重複子字串。

詳細原理文章內寫得很清楚，有興趣的大大可以點進去看看。

了解原理後就可以進入程式碼的部分，
看完 suffix_trees 的原始碼，發現並沒有查詢 最長重複子字串 的功能，
不過有個類似的方法 lcs()，可以查詢多個字串的最長共用部分，
既然有現成的，那就以此為基礎修改成我們想要的。

我將這個擴充方法獨立一個檔案 suffix_trees_ex.py，主程式需要再 import 就好。
程式碼:

class STreeEx():
    def __init__(self, sTree):
        # 傳入原套件後綴樹
        self.sTree = sTree

    def lrs(self):
        # 最深非葉節點
        deepestNode = self._find_lrs(self.sTree.root)
        start = deepestNode.idx
        end = deepestNode.idx + deepestNode.depth
        return self.sTree.word[start:end]

    def _find_lrs(self, node):
        nodes = [self._find_lrs(n)
            for (n,_) in node.transition_links
            # 排除葉節點
            if n.transition_links != []]

        if nodes == []:
            return node
        
        deepestNode = max(nodes, key=lambda n: n.depth)
        return deepestNode

主程式:

from suffix_trees import STree
from suffix_trees_ex import STreeEx

st = STree.STree("156752894567528944226695310752654423684")
st = STreeEx(st)

print(st.lrs())   # 56752894

最後附上一張小弟研究 suffix_trees 內部結構時畫的圖，和上面文章的 Compressed Trie 比對會更清楚。