iT邦幫忙

2022 iThome 鐵人賽

DAY 30
0
AI & Data

那些在科技公司和 app 背後的資料科學系列 第 30

[Day 30] Booking.com 從成功模型中學到的經驗(下)及賽末心得

  • 分享至 

  • xImage
  •  

今天的文章中,我們會延續昨天的題目,聊聊 Booking.com 在模型上線後發現的有趣現象。最後,我會再跟大家分享經過這 30 天的鐵人挑戰賽後,我學到的事,以及是如何整理筆記的。


在訓練模型時,大家都希望模型有很好的表現,例如準確率高、錯誤率低等等,進而希望這些模型能夠為公司帶來商業價值。不過,令人驚奇的是,Booking.com 發現模型的表現和商業價值不一定是正相關。

https://ithelp.ithome.com.tw/upload/images/20221015/20152325QDRxkoevrO.png

如 Figure 4 所示,他們將 23 個模型結果繪製在座標軸上,x 軸為新模型和舊模型(baseline)的表現差異,y 軸是轉換率(conversion rate)的變化。無需任何數值佐證,肉眼就可以看出這兩件事並沒有相關性。而兩者的 pearson correlation 為 -0.1(90% 的信賴區間為 (-0.45, 0.27)),更能推斷模型的表現和商業價值並無相關,此並非出自於線上和線下模型的差別。

值得一提的是,Booking.com 認為這個現象並不一定適用於每個狀況,還是要考慮模型使用的情景,並且他們也提出幾個可以解釋的原因。可能是因為模型表現率和價值的提升陷入停滯期,也有可能因為模型只是最大化某個可觀察行為,但不一定能夠轉化成商業價值。例如提升點擊數不代表能夠提升轉換率。舉一個實際的例子,模型可能會推薦給用戶一間非常相似於他現在正在查看的房源,進而吸引用戶點擊,但不代表用戶喜歡這間房源、更遑論能夠保證用戶會下訂了。

https://ithelp.ithome.com.tw/upload/images/20221015/20152325ZqLy2LJ8eC.png

另外一個有趣的原因是「恐怖谷效應」,我相似大家一定都有類似的經驗,因為科技公司的推薦演算法太強大,能夠非常準確地預測用戶行為,反而讓我們時常懷疑手機在監聽自己。如 Figure 5 中的用戶對話,用戶 A 懷疑用戶 B 的手機麥克風是不是打開著?不然為什麼 Booking.com 知道他要去 Vienna,他明明只有輸入 Salzburg 和 London 這兩個目的地。


賽末心得

最後,我想花點篇幅聊聊本次鐵人賽的心得。

一開始比賽的初衷是因為希望能夠藉由比賽的時程壓力,逼迫自己閱讀科技公司的技術文章,並確實消化吸收。回首這一個月,的確有達成當初設下的目標,只是一邊工作一邊比賽真的有點吃力,更不用說每個週末都有安排行程,但幸好我還是成功地撐到最後一天了。

分享自己之後的兩個目標:

  1. 由於時程太緊湊,有些內容並不一定能夠完全理解,也不一定能夠在下筆時完整地傳達我想解釋的觀念。希望自己之後寫文章時,能夠將所有概念解釋得更透澈,讓所有讀者都能夠輕鬆地閱讀。
  2. 希望之後能夠實作一些其中的演算法,不然只是懂技術、但沒有把手弄髒太可惜了。不過具體需要如何執行,可能還要再研究一下,有興趣的人也歡迎和我聯絡,我們一起玩技術!

另外,也想介紹幾個助益良多的幾個工具:

  1. 科技公司的部落格來源是這個 repo
  2. 整理文章的方法分為幾個步驟
    • 閱讀工具
      • 將線上文章存到 Instapaper 或 Pocket(我還無法抉擇究竟哪個比較好用)
      • 直接裝 Hypothesis 在瀏覽器閱讀畫線
      • 將文獻儲存到 Zotero,並串接到 Logseq,使用 Logseq 內建的 pdf 閱讀器畫線及閱讀
    • 將 Instapaper、Pocket 和 Hypothesis 的畫線筆記都同步到 Readwise(如果願意的話,可以使用我的推薦網址,這樣我們彼此都可以免費試用 30 天),再把 Readwise 接到 Logseq,用 Logseq 直接整理所有筆記內容

雖然以上的工具看起來很多,不過使用起來都非常直覺好用,非常推薦大家用用看!

好的,以上就是我所有想說的話!雖然鐵人賽結束了,不過我還是會回去 medium 更新,歡迎大家轉去那邊繼續關注,我們後會有期!

celebrate


謝謝讀到最後的你,如果喜歡這系列,別忘了按下喜歡和訂閱,才不會錯過最新更新。
也歡迎到我的 medium 逛逛!
我的信箱是 shinminhsu@gmail.com,有任何問題也歡迎寄信聊聊。


Reference:
[1] L. Bernardi, T. Mavridis, and P. Estevez, “150 Successful Machine Learning Models: 6 Lessons Learned at Booking.com,” in Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, Anchorage AK USA, Jul. 2019, pp. 1743–1751. doi: 10.1145/3292500.3330744.


上一篇
[Day 29] Booking.com 從成功模型中學到的經驗(上)
系列文
那些在科技公司和 app 背後的資料科學30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言