iT邦幫忙

0

爬蟲(Jsoup)印出來的資料為何會重複?

  • 分享至 

  • xImage

大家好,最近想使用爬蟲爬取電影的時刻表,資料抓下來再用Jsoup分析html分別抓取需要的值

以下經過爬蟲抓下來的資料

    <div class="col-xs-12">
        <strong class="col-xs-12 LangTW MovieName">
            (4DX)玩命關頭9 (保護級)
        </strong>
        <strong class="col-xs-12 LangEN MovieName">
            (4DX)FAST AND FURIOUS 9 (P)
        </strong>
        <div class="col-xs-12">
        <strong class="col-xs-12 LangTW RealShowDate">
            08月29日 星期日
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/29 Sun
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            22:25
        </div>
</div>        <strong class="col-xs-12 LangTW RealShowDate">
            08月30日 星期一
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/30 Mon
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            11:25
        </div>
        <div class="col-xs-0">
            14:10
        </div>
        <div class="col-xs-0">
            16:55
        </div>
        <div class="col-xs-0">
            19:40
        </div>
        <div class="col-xs-0">
            22:25
        </div>
</div>        <strong class="col-xs-12 LangTW RealShowDate">
            08月31日 星期二
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/31 Tue
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            11:25
        </div>
        <div class="col-xs-0">
            14:10
        </div>
        <div class="col-xs-0">
            16:55
        </div>
        <div class="col-xs-0">
            19:40
        </div>
        <div class="col-xs-0">
            22:25
        </div>
</div></div>

    </div>
    <div class="col-xs-12">
        <strong class="col-xs-12 LangTW MovieName">
            (數位 國)雪國奇遇記 (普遍級)
        </strong>
        <strong class="col-xs-12 LangEN MovieName">
            (DIG C)CHRISTMAS AT CATTLE HILL (G)
        </strong>
        <div class="col-xs-12">
        <strong class="col-xs-12 LangTW RealShowDate">
            08月30日 星期一
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/30 Mon
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            11:50
        </div>
        <div class="col-xs-0">
            17:40
        </div>
</div>        <strong class="col-xs-12 LangTW RealShowDate">
            08月31日 星期二
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/31 Tue
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            11:50
        </div>
        <div class="col-xs-0">
            17:40
        </div>
</div></div>

    </div>
    <div class="col-xs-12">
        <strong class="col-xs-12 LangTW MovieName">
            (數位 英)路卡的夏天 (普遍級)
        </strong>
        <strong class="col-xs-12 LangEN MovieName">
            (DIG E)LUCA (G)
        </strong>
        <div class="col-xs-12">
        <strong class="col-xs-12 LangTW RealShowDate">
            08月30日 星期一
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/30 Mon
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            09:45
        </div>
        <div class="col-xs-0">
            17:05
        </div>
</div>        <strong class="col-xs-12 LangTW RealShowDate">
            08月31日 星期二
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/31 Tue
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            09:45
        </div>
        <div class="col-xs-0">
            17:05
        </div>
</div></div>

    </div>
    <div class="col-xs-12">
        <strong class="col-xs-12 LangTW MovieName">
            (數位)噤界II (輔12級)
        </strong>
        <strong class="col-xs-12 LangEN MovieName">
            (DIG)A QUIET PLACE PART II (PG12)
        </strong>
        <div class="col-xs-12">
        <strong class="col-xs-12 LangTW RealShowDate">
            08月29日 星期日
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/29 Sun
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            22:50
        </div>
        <div class="col-xs-0">
            23:45
        </div>
        <div class="col-xs-0">
            00:45
        </div>
</div>        <strong class="col-xs-12 LangTW RealShowDate">
            08月30日 星期一
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/30 Mon
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            09:25
        </div>
        <div class="col-xs-0">
            10:20
        </div>
        <div class="col-xs-0">
            11:20
        </div>
        <div class="col-xs-0">
            12:15
        </div>
        <div class="col-xs-0">
            13:15
        </div>
        <div class="col-xs-0">
            14:10
        </div>
        <div class="col-xs-0">
            15:10
        </div>
        <div class="col-xs-0">
            16:05
        </div>
        <div class="col-xs-0">
            17:05
        </div>
        <div class="col-xs-0">
            18:00
        </div>
        <div class="col-xs-0">
            19:00
        </div>
        <div class="col-xs-0">
            19:55
        </div>
        <div class="col-xs-0">
            20:55
        </div>
        <div class="col-xs-0">
            21:50
        </div>
        <div class="col-xs-0">
            22:50
        </div>
        <div class="col-xs-0">
            23:45
        </div>
        <div class="col-xs-0">
            00:45
        </div>
</div>        <strong class="col-xs-12 LangTW RealShowDate">
            08月31日 星期二
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/31 Tue
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            09:25
        </div>
        <div class="col-xs-0">
            10:20
        </div>
        <div class="col-xs-0">
            11:20
        </div>
        <div class="col-xs-0">
            12:15
        </div>
        <div class="col-xs-0">
            13:15
        </div>
        <div class="col-xs-0">
            14:10
        </div>
        <div class="col-xs-0">
            15:10
        </div>
        <div class="col-xs-0">
            16:05
        </div>
        <div class="col-xs-0">
            17:05
        </div>
        <div class="col-xs-0">
            18:00
        </div>
        <div class="col-xs-0">
            19:00
        </div>
        <div class="col-xs-0">
            19:55
        </div>
        <div class="col-xs-0">
            20:55
        </div>
        <div class="col-xs-0">
            21:50
        </div>
        <div class="col-xs-0">
            22:50
        </div>
        <div class="col-xs-0">
            23:45
        </div>
        <div class="col-xs-0">
            00:45
        </div>
</div></div>

    </div>
    <div class="col-xs-12">
        <strong class="col-xs-12 LangTW MovieName">
            (數位)水星領航員ARIA THE CREPUSCOLO (普遍級)
        </strong>
        <strong class="col-xs-12 LangEN MovieName">
            (DIG)ARIA THE CREPUSCOLO (G)
        </strong>
        <div class="col-xs-12">
        <strong class="col-xs-12 LangTW RealShowDate">
            08月30日 星期一
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/30 Mon
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            09:50
        </div>
</div>        <strong class="col-xs-12 LangTW RealShowDate">
            08月31日 星期二
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/31 Tue
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            09:50
        </div>
</div></div>

    </div>
    <div class="col-xs-12">
        <strong class="col-xs-12 LangTW MovieName">
            (數位)BANG DREAM EPISODE OF ROSELIA I 約定 (普遍級)
        </strong>
        <strong class="col-xs-12 LangEN MovieName">
            (DIG)BANG DREAM EPISODE OF ROSELIA I PROMISE (G)
        </strong>
        <div class="col-xs-12">
        <strong class="col-xs-12 LangTW RealShowDate">
            08月30日 星期一
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/30 Mon
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            09:25
        </div>
        <div class="col-xs-0">
            11:40
        </div>
        <div class="col-xs-0">
            16:00
        </div>
        <div class="col-xs-0">
            19:05
        </div>
</div>        <strong class="col-xs-12 LangTW RealShowDate">
            08月31日 星期二
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/31 Tue
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            09:25
        </div>
        <div class="col-xs-0">
            11:40
        </div>
        <div class="col-xs-0">
            16:00
        </div>
        <div class="col-xs-0">
            19:05
        </div>
</div></div>

    </div>
    <div class="col-xs-12">
        <strong class="col-xs-12 LangTW MovieName">
            (數位)黑寡婦 (輔12級)
        </strong>
        <strong class="col-xs-12 LangEN MovieName">
            (DIG)BLACK WIDOW (PG12)
        </strong>
        <div class="col-xs-12">
        <strong class="col-xs-12 LangTW RealShowDate">
            08月29日 星期日
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/29 Sun
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            22:55
        </div>
</div>        <strong class="col-xs-12 LangTW RealShowDate">
            08月30日 星期一
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/30 Mon
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            12:20
        </div>
        <div class="col-xs-0">
            23:50
        </div>
</div>        <strong class="col-xs-12 LangTW RealShowDate">
            08月31日 星期二
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/31 Tue
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            12:20
        </div>
        <div class="col-xs-0">
            23:50
        </div>
</div></div>

    </div>
    <div class="col-xs-12">
        <strong class="col-xs-12 LangTW MovieName">
            (數位)名偵探柯南 緋色的彈丸 (普遍級)
        </strong>
        <strong class="col-xs-12 LangEN MovieName">
            (DIG)DETECTIVE CONAN THE MOVIE THE SCARLET BULLET (G)
        </strong>
        <div class="col-xs-12">
        <strong class="col-xs-12 LangTW RealShowDate">
            08月30日 星期一
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/30 Mon
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            10:10
        </div>
</div></div>

    </div>
    <div class="col-xs-12">
        <strong class="col-xs-12 LangTW MovieName">
            (數位)暫時停止呼吸2 (限制級)
        </strong>
        <strong class="col-xs-12 LangEN MovieName">
            (DIG)DONT BREATHE 2 (R)
        </strong>
        <div class="col-xs-12">
        <strong class="col-xs-12 LangTW RealShowDate">
            08月29日 星期日
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/29 Sun
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            23:45
        </div>
</div>        <strong class="col-xs-12 LangTW RealShowDate">
            08月30日 星期一
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/30 Mon
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            10:15
        </div>
        <div class="col-xs-0">
            14:00
        </div>
        <div class="col-xs-0">
            19:50
        </div>
        <div class="col-xs-0">
            21:45
        </div>
        <div class="col-xs-0">
            23:45
        </div>
</div>        <strong class="col-xs-12 LangTW RealShowDate">
            08月31日 星期二
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/31 Tue
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            10:15
        </div>
        <div class="col-xs-0">
            14:00
        </div>
        <div class="col-xs-0">
            19:50
        </div>
        <div class="col-xs-0">
            21:45
        </div>
        <div class="col-xs-0">
            23:45
        </div>
</div></div>

    </div>
    <div class="col-xs-12">
        <strong class="col-xs-12 LangTW MovieName">
            (數位)盛夏光年 (保護級)
        </strong>
        <strong class="col-xs-12 LangEN MovieName">
            (DIG)ETERNAL SUMMER (P)
        </strong>
        <div class="col-xs-12">
        <strong class="col-xs-12 LangTW RealShowDate">
            08月30日 星期一
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/30 Mon
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            12:20
        </div>
        <div class="col-xs-0">
            18:40
        </div>
</div>        <strong class="col-xs-12 LangTW RealShowDate">
            08月31日 星期二
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/31 Tue
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            12:20
        </div>
        <div class="col-xs-0">
            18:40
        </div>
</div></div>

    </div>
    <div class="col-xs-12">
        <strong class="col-xs-12 LangTW MovieName">
            (數位)玩命關頭9 (保護級)
        </strong>
        <strong class="col-xs-12 LangEN MovieName">
            (DIG)FAST AND FURIOUS 9 (P)
        </strong>
        <div class="col-xs-12">
        <strong class="col-xs-12 LangTW RealShowDate">
            08月29日 星期日
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/29 Sun
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            23:20
        </div>
        <div class="col-xs-0">
            00:15
        </div>
</div>        <strong class="col-xs-12 LangTW RealShowDate">
            08月30日 星期一
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/30 Mon
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            09:35
        </div>
        <div class="col-xs-0">
            12:20
        </div>
        <div class="col-xs-0">
            13:15
        </div>
        <div class="col-xs-0">
            15:05
        </div>
        <div class="col-xs-0">
            16:00
        </div>
        <div class="col-xs-0">
            17:50
        </div>
        <div class="col-xs-0">
            18:45
        </div>
        <div class="col-xs-0">
            20:35
        </div>
        <div class="col-xs-0">
            21:30
        </div>
        <div class="col-xs-0">
            23:20
        </div>
        <div class="col-xs-0">
            00:15
        </div>
</div>        <strong class="col-xs-12 LangTW RealShowDate">
            08月31日 星期二
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/31 Tue
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            09:35
        </div>
        <div class="col-xs-0">
            12:20
        </div>
        <div class="col-xs-0">
            13:15
        </div>
        <div class="col-xs-0">
            15:05
        </div>
        <div class="col-xs-0">
            16:00
        </div>
        <div class="col-xs-0">
            17:50
        </div>
        <div class="col-xs-0">
            18:45
        </div>
        <div class="col-xs-0">
            20:35
        </div>
        <div class="col-xs-0">
            21:30
        </div>
        <div class="col-xs-0">
            23:20
        </div>
        <div class="col-xs-0">
            00:15
        </div>
</div></div>

    </div>
    <div class="col-xs-12">
        <strong class="col-xs-12 LangTW MovieName">
            (數位)期末考 (保護級)
        </strong>
        <strong class="col-xs-12 LangEN MovieName">
            (DIG)FINAL EXAM (P)
        </strong>
        <div class="col-xs-12">
        <strong class="col-xs-12 LangTW RealShowDate">
            08月30日 星期一
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/30 Mon
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            12:10
        </div>
        <div class="col-xs-0">
            16:45
        </div>
        <div class="col-xs-0">
            21:35
        </div>
</div>        <strong class="col-xs-12 LangTW RealShowDate">
            08月31日 星期二
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/31 Tue
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            12:10
        </div>
        <div class="col-xs-0">
            16:45
        </div>
        <div class="col-xs-0">
            21:35
        </div>
</div></div>

    </div>
    <div class="col-xs-12">
        <strong class="col-xs-12 LangTW MovieName">
            (數位)強運燒肉饌 (普遍級)
        </strong>
        <strong class="col-xs-12 LangEN MovieName">
            (DIG)FOOD LUCK (G)
        </strong>
        <div class="col-xs-12">
        <strong class="col-xs-12 LangTW RealShowDate">
            08月30日 星期一
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/30 Mon
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            12:25
        </div>
        <div class="col-xs-0">
            18:20
        </div>
</div>        <strong class="col-xs-12 LangTW RealShowDate">
            08月31日 星期二
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/31 Tue
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            12:25
        </div>
        <div class="col-xs-0">
            18:20
        </div>
</div></div>

    </div>
    <div class="col-xs-12">
        <strong class="col-xs-12 LangTW MovieName">
            (數位)脫稿玩家 (保護級)
        </strong>
        <strong class="col-xs-12 LangEN MovieName">
            (DIG)FREE GUY (P)
        </strong>
        <div class="col-xs-12">
        <strong class="col-xs-12 LangTW RealShowDate">
            08月29日 星期日
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/29 Sun
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            22:15
        </div>
        <div class="col-xs-0">
            22:50
        </div>
        <div class="col-xs-0">
            23:20
        </div>
        <div class="col-xs-0">
            00:30
        </div>
</div>        <strong class="col-xs-12 LangTW RealShowDate">
            08月30日 星期一
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/30 Mon
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            09:50
        </div>
        <div class="col-xs-0">
            11:00
        </div>
        <div class="col-xs-0">
            12:05
        </div>
        <div class="col-xs-0">
            13:15
        </div>
        <div class="col-xs-0">
            14:20
        </div>
        <div class="col-xs-0">
            15:30
        </div>
        <div class="col-xs-0">
            16:05
        </div>
        <div class="col-xs-0">
            16:35
        </div>
        <div class="col-xs-0">
            17:45
        </div>
        <div class="col-xs-0">
            18:50
        </div>
        <div class="col-xs-0">
            20:00
        </div>
        <div class="col-xs-0">
            21:05
        </div>
        <div class="col-xs-0">
            22:15
        </div>
        <div class="col-xs-0">
            22:50
        </div>
        <div class="col-xs-0">
            23:20
        </div>
        <div class="col-xs-0">
            00:30
        </div>
</div>        <strong class="col-xs-12 LangTW RealShowDate">
            08月31日 星期二
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/31 Tue
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            09:50
        </div>
        <div class="col-xs-0">
            11:00
        </div>
        <div class="col-xs-0">
            12:05
        </div>
        <div class="col-xs-0">
            13:15
        </div>
        <div class="col-xs-0">
            14:20
        </div>
        <div class="col-xs-0">
            15:30
        </div>
        <div class="col-xs-0">
            16:05
        </div>
        <div class="col-xs-0">
            16:35
        </div>
        <div class="col-xs-0">
            17:45
        </div>
        <div class="col-xs-0">
            18:50
        </div>
        <div class="col-xs-0">
            20:00
        </div>
        <div class="col-xs-0">
            21:05
        </div>
        <div class="col-xs-0">
            22:15
        </div>
        <div class="col-xs-0">
            22:50
        </div>
        <div class="col-xs-0">
            23:20
        </div>
        <div class="col-xs-0">
            00:30
        </div>
</div></div>

    </div>
    <div class="col-xs-12">
        <strong class="col-xs-12 LangTW MovieName">
            (數位)鬼門 (輔15級)
        </strong>
        <strong class="col-xs-12 LangEN MovieName">
            (DIG)GUIMOON THE LIGHTLESS DOOR (PG15)
        </strong>
        <div class="col-xs-12">
        <strong class="col-xs-12 LangTW RealShowDate">
            08月29日 星期日
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/29 Sun
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            00:25
        </div>
</div>        <strong class="col-xs-12 LangTW RealShowDate">
            08月30日 星期一
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/30 Mon
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            10:00
        </div>
        <div class="col-xs-0">
            14:20
        </div>
        <div class="col-xs-0">
            18:05
        </div>
        <div class="col-xs-0">
            20:40
        </div>
        <div class="col-xs-0">
            00:25
        </div>
</div>        <strong class="col-xs-12 LangTW RealShowDate">
            08月31日 星期二
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/31 Tue
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            10:00
        </div>
        <div class="col-xs-0">
            14:20
        </div>
        <div class="col-xs-0">
            18:05
        </div>
        <div class="col-xs-0">
            20:40
        </div>
        <div class="col-xs-0">
            00:25
        </div>
</div></div>

    </div>
    <div class="col-xs-12">
        <strong class="col-xs-12 LangTW MovieName">
            (數位)叢林奇航 (保護級)
        </strong>
        <strong class="col-xs-12 LangEN MovieName">
            (DIG)JUNGLE CRUISE (P)
        </strong>
        <div class="col-xs-12">
        <strong class="col-xs-12 LangTW RealShowDate">
            08月31日 星期二
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/31 Tue
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            09:40
        </div>
</div></div>

    </div>
    <div class="col-xs-12">
        <strong class="col-xs-12 LangTW MovieName">
            (數位)銀河騎士傳 織愛之星 (保護級)
        </strong>
        <strong class="col-xs-12 LangEN MovieName">
            (DIG)KNIGHTS OF SIDONIA LOVE WOVEN IN THE STARS (P)
        </strong>
        <div class="col-xs-12">
        <strong class="col-xs-12 LangTW RealShowDate">
            08月30日 星期一
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/30 Mon
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            09:50
        </div>
        <div class="col-xs-0">
            15:35
        </div>
</div>        <strong class="col-xs-12 LangTW RealShowDate">
            08月31日 星期二
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/31 Tue
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            09:50
        </div>
        <div class="col-xs-0">
            15:35
        </div>
</div></div>

    </div>
    <div class="col-xs-12">
        <strong class="col-xs-12 LangTW MovieName">
            (數位)追憶人 (保護級)
        </strong>
        <strong class="col-xs-12 LangEN MovieName">
            (DIG)REMINISCENCE (P)
        </strong>
        <div class="col-xs-12">
        <strong class="col-xs-12 LangTW RealShowDate">
            08月29日 星期日
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/29 Sun
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            23:05
        </div>
</div>        <strong class="col-xs-12 LangTW RealShowDate">
            08月30日 星期一
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/30 Mon
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            10:10
        </div>
        <div class="col-xs-0">
            14:30
        </div>
        <div class="col-xs-0">
            20:25
        </div>
        <div class="col-xs-0">
            23:05
        </div>
</div>        <strong class="col-xs-12 LangTW RealShowDate">
            08月31日 星期二
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/31 Tue
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            10:10
        </div>
        <div class="col-xs-0">
            14:30
        </div>
        <div class="col-xs-0">
            20:25
        </div>
        <div class="col-xs-0">
            23:05
        </div>
</div></div>

    </div>
    <div class="col-xs-12">
        <strong class="col-xs-12 LangTW MovieName">
            (數位)變調的灰姑娘 (保護級)
        </strong>
        <strong class="col-xs-12 LangEN MovieName">
            (DIG)THE CINDERELLA ADDICTION (P)
        </strong>
        <div class="col-xs-12">
        <strong class="col-xs-12 LangTW RealShowDate">
            08月30日 星期一
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/30 Mon
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            10:05
        </div>
        <div class="col-xs-0">
            13:20
        </div>
        <div class="col-xs-0">
            20:50
        </div>
</div>        <strong class="col-xs-12 LangTW RealShowDate">
            08月31日 星期二
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/31 Tue
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            10:05
        </div>
        <div class="col-xs-0">
            13:20
        </div>
        <div class="col-xs-0">
            20:50
        </div>
</div></div>

    </div>
    <div class="col-xs-12">
        <strong class="col-xs-12 LangTW MovieName">
            (數位)詐製片家 (保護級)
        </strong>
        <strong class="col-xs-12 LangEN MovieName">
            (DIG)THE COMEBACK TRAIL (P)
        </strong>
        <div class="col-xs-12">
        <strong class="col-xs-12 LangTW RealShowDate">
            08月29日 星期日
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/29 Sun
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            22:25
        </div>
</div>        <strong class="col-xs-12 LangTW RealShowDate">
            08月30日 星期一
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/30 Mon
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            09:35
        </div>
        <div class="col-xs-0">
            12:00
        </div>
        <div class="col-xs-0">
            14:00
        </div>
        <div class="col-xs-0">
            17:35
        </div>
        <div class="col-xs-0">
            19:35
        </div>
        <div class="col-xs-0">
            22:25
        </div>
</div>        <strong class="col-xs-12 LangTW RealShowDate">
            08月31日 星期二
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/31 Tue
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            09:35
        </div>
        <div class="col-xs-0">
            12:00
        </div>
        <div class="col-xs-0">
            14:00
        </div>
        <div class="col-xs-0">
            17:35
        </div>
        <div class="col-xs-0">
            19:35
        </div>
        <div class="col-xs-0">
            22:25
        </div>
</div></div>

    </div>
    <div class="col-xs-12">
        <strong class="col-xs-12 LangTW MovieName">
            (數位)厲陰宅3:是惡魔逼我的 (輔15級)
        </strong>
        <strong class="col-xs-12 LangEN MovieName">
            (DIG)THE CONJURING THE DEVIL MADE ME DO IT (PG15)
        </strong>
        <div class="col-xs-12">
        <strong class="col-xs-12 LangTW RealShowDate">
            08月30日 星期一
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/30 Mon
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            14:55
        </div>
        <div class="col-xs-0">
            19:10
        </div>
</div>        <strong class="col-xs-12 LangTW RealShowDate">
            08月31日 星期二
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/31 Tue
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            14:55
        </div>
        <div class="col-xs-0">
            19:10
        </div>
</div></div>

    </div>
    <div class="col-xs-12">
        <strong class="col-xs-12 LangTW MovieName">
            (數位)咒術屍戰 (輔15級)
        </strong>
        <strong class="col-xs-12 LangEN MovieName">
            (DIG)THE CURSED DEAD MANS PREY (PG15)
        </strong>
        <div class="col-xs-12">
        <strong class="col-xs-12 LangTW RealShowDate">
            08月30日 星期一
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/30 Mon
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            16:00
        </div>
        <div class="col-xs-0">
            21:35
        </div>
</div>        <strong class="col-xs-12 LangTW RealShowDate">
            08月31日 星期二
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/31 Tue
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            16:00
        </div>
        <div class="col-xs-0">
            21:35
        </div>
</div></div>

    </div>
    <div class="col-xs-12">
        <strong class="col-xs-12 LangTW MovieName">
            (數位)薩滿 (限制級)
        </strong>
        <strong class="col-xs-12 LangEN MovieName">
            (DIG)THE MEDIUM (R)
        </strong>
        <div class="col-xs-12">
        <strong class="col-xs-12 LangTW RealShowDate">
            08月29日 星期日
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/29 Sun
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            22:00
        </div>
        <div class="col-xs-0">
            23:30
        </div>
        <div class="col-xs-0">
            00:30
        </div>
</div>        <strong class="col-xs-12 LangTW RealShowDate">
            08月30日 星期一
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/30 Mon
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            09:30
        </div>
        <div class="col-xs-0">
            12:00
        </div>
        <div class="col-xs-0">
            14:30
        </div>
        <div class="col-xs-0">
            17:00
        </div>
        <div class="col-xs-0">
            19:30
        </div>
        <div class="col-xs-0">
            22:00
        </div>
        <div class="col-xs-0">
            23:30
        </div>
        <div class="col-xs-0">
            00:30
        </div>
</div>        <strong class="col-xs-12 LangTW RealShowDate">
            08月31日 星期二
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/31 Tue
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            09:30
        </div>
        <div class="col-xs-0">
            12:00
        </div>
        <div class="col-xs-0">
            14:30
        </div>
        <div class="col-xs-0">
            17:00
        </div>
        <div class="col-xs-0">
            19:30
        </div>
        <div class="col-xs-0">
            22:00
        </div>
        <div class="col-xs-0">
            00:30
        </div>
</div></div>

    </div>
    <div class="col-xs-12">
        <strong class="col-xs-12 LangTW MovieName">
            (數位)自殺突擊隊:集結 (輔15級)
        </strong>
        <strong class="col-xs-12 LangEN MovieName">
            (DIG)THE SUICIDE SQUAD (PG15)
        </strong>
        <div class="col-xs-12">
        <strong class="col-xs-12 LangTW RealShowDate">
            08月29日 星期日
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/29 Sun
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            00:25
        </div>
</div>        <strong class="col-xs-12 LangTW RealShowDate">
            08月30日 星期一
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/30 Mon
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            11:35
        </div>
        <div class="col-xs-0">
            14:05
        </div>
        <div class="col-xs-0">
            16:40
        </div>
        <div class="col-xs-0">
            19:15
        </div>
        <div class="col-xs-0">
            21:50
        </div>
        <div class="col-xs-0">
            00:25
        </div>
</div>        <strong class="col-xs-12 LangTW RealShowDate">
            08月31日 星期二
        </strong>
        <strong class="col-xs-12 LangEN RealShowDate">
            08/31 Tue
        </strong>
<div class="col-xs-12 SessionTimeInfo">
        <div class="col-xs-0">
            11:35
        </div>
        <div class="col-xs-0">
            14:05
        </div>
        <div class="col-xs-0">
            16:40
        </div>
        <div class="col-xs-0">
            19:15
        </div>
        <div class="col-xs-0">
            21:50
        </div>
        <div class="col-xs-0">
            00:25
        </div>
</div></div>

    </div>


使用Jsoup解析

Document doc = Jsoup.parse(html);
Elements all = doc.select("strong.LangTW.MovieName").parents();

for (Element alls : all) {

	Elements twMovieNames = alls.select("strong.LangTW.MovieName");
	String movieName = twMovieNames.first().text();

	Elements showingDates = alls.select("strong.LangTW.RealShowDate");
	String showingDate = showingDates.text();

	Elements showingTimes = alls.select("div.SessionTimeInfo");
	String showingTime = showingTimes.text();

	System.out.println(movieName);
	System.out.println(showingDate);
	System.out.println(showingTime);
						System.out.println("=========================================== \r\n");

}

但得到的結果確有重複的資料

希望大大們可以幫忙解惑,謝謝!

wrxue iT邦好手 1 級 ‧ 2021-08-30 15:37:26 檢舉
給原始網址比給 html 原始碼有用
DennisLu iT邦好手 1 級 ‧ 2021-08-30 17:07:37 檢舉
內文也只給數據資料語法只有Jsoup 與 Element,代表他取得資料沒問題,
原po的問題只是撈出來的資料不知道怎麼如願使用而已。
把數據資料存檔案在讀取檔案資料流成為String就可以玩了。

這主題標題問法也可以
關於Jsoup Element的問題 不一定是是爬蟲(雖然大部分都是用在爬蟲XD)
adgaq iT邦新手 5 級 ‧ 2021-09-01 19:47:00 檢舉
謝謝指教!資料是能順利爬下來,但不明白為何原先的寫法哪裡有錯會有重複的值出現...
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

1 個回答

1
DennisLu
iT邦好手 1 級 ‧ 2021-08-30 16:29:51

硬要做

Document doc = Jsoup.parse(html);
Elements all = doc.select("div");
	for (Element alls : all) {
		if(alls.getElementsByClass("col-xs-12 LangTW MovieName").hasText()){
			System.out.println(alls.getElementsByAttributeValue("class", "col-xs-12 LangTW MovieName").text());
			Object[] RealShowDate = alls.getElementsByAttributeValue("class", "col-xs-12 LangTW RealShowDate").toArray();
			Object[] SessionTimeInfo = alls.getElementsByAttributeValue("class", "col-xs-12 SessionTimeInfo").toArray();
			for(int i = 0; i<RealShowDate.length;i++){
				System.out.println(((Element)RealShowDate[i]).text());
				System.out.println(((Element)SessionTimeInfo[i]).text());
			}
			System.out.println("######################");
		}
	}

得出

(4DX)玩命關頭9 (保護級)
08月29日 星期日
22:25
08月30日 星期一
11:25 14:10 16:55 19:40 22:25
08月31日 星期二
11:25 14:10 16:55 19:40 22:25
######################
(數位 國)雪國奇遇記 (普遍級)
08月30日 星期一
11:50 17:40
08月31日 星期二
11:50 17:40
######################
(下略)
adgaq iT邦新手 5 級 ‧ 2021-09-01 19:48:03 檢舉

謝謝回答!沒有想到有這種寫法,會再好好研究,感謝!

我要發表回答

立即登入回答