iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 26
1

Molly 依昨天承諾要講她認識的朋友,從事資料集標注服務這門生意的狀況。

先前在對岸工作一段時間,有個同事叫高軍,幾年前回河南老家鄭州創業去。在這之前高軍與其他同鄉同儕們在唸完大學後沒有考研,直接一起來到沿海都市找工作。他在學校計算機本科,除了軟件開發還可以,加上也有賭上一把的心態,來到那家做『共享電動自行車』的公司,成為 Molly 專案開發團隊成員,但是後來該新創公司沒起色,也陸續離開了。 高軍的積極向上與聰明讓 Molly 印象深刻,儘管離開了,彼此還會在微信上打招呼問候一下近況。因為進入這一個 『AI探索專案』Molly 知道高軍後來從事數據標注行業,蠻新興的,所以跟他了解了許多細節。

約莫八年前富士康大舉在高軍老家鄭州航空港區附近搞個幾平方公里的製造園區,看到未來會有三十萬製造大軍的機會,他與幾位同學回家鄉創業,搞人才市場,結果因為與富士康的招聘部門沒能搭上關係,生意慘淡。幾個同學只好以鍵盤俠之姿,網路到處尋找各種商機。

恰巧在當下他發現百度眾測在做數據眾包模式,專注於為AI領域的需求方提供數據標注,採集,產品測試等服務。他當時(其實至今也)沒多深入理解機器學習,了解了一下工作內容,發現這找中專甚至更低的學歷的求職者來做更是適合。而他們這家沒啥生意的人才市場,卻不缺那些不想到被貼標籤成血汗工廠工作的求職者。

有供給,需求網路上就可以取得,需要的設備與軟件對高軍來講也不是多難的事。於是就將人才市場改型成數據標注服務平台,他認為自己可以在無形的製造業(數據)變成未來的第一強,所以雖然是大陸人他還蠻崇拜郭台銘的。

高軍幾年的經驗總結如下:

  1. 合格的人工完全不是問題,富士康一堆產線離職的基本上都合格,而且相當比例希望變成他們這種號稱是知識工作者。
  2. 人員的訓練上崗也不是問題,門檻極低。上崗一天內就可以有產值,一個月內就變成熟手。
  3. 工序是個大問題,如何對標注的數據質量把關?現在採人工抽樣,常未能達到業主標準而被退件重工。所以很多他認為是潛客的諸如:科大訊飛就自建標注團隊。創新工廠,搜狗,今日頭條為了一起辦個AI Challenger競賽,養二十位上下的團隊來清理數據。
  4. 生意來源不能單靠百度眾測,單價極低,幾乎無利潤
  5. 要獨立接一些新創AI公司的單,因為尚未有品牌知名度,也只能低價搶,但總有機會翻身。
  6. 至今這個行業的工作量或是成本估價仍處在摸索階段。

另外高軍有一個體會,我覺得很值得當作我們的參考:

要有多少智能,就得有多少人工。

講到這裡,Moore 的投資回報警覺性:”那他們公司現在還活著嗎?”

Molly:”上週跟高軍微信一下,他們才剛裁掉一半的員工,高峰時曾經有將近200位員工,現在不到50位。他們打算到農曆年底前如果還是沒起色,就收掉!最近他們搭上一家自動駕駛的新創公司,需要大量的標注路況訊息,路況圖片上的路標,障礙物,交通號誌…以人工標示,高軍想低價搶標,先熬過這次資本寒冬再說。”

佳麗因為也需要幫 Gavin 一起探索 AI的商機,對這話題很敏感:”由高峰到可能收掉,有分析原因嗎?可以撐到上市嗎?他們不是剛剛宣佈要成立中國版那斯達克?聽聞大陸那邊只要沾到人工智能的邊,都很好圈錢,取得好幾輪投資?”

Molly:”最根本的原因就是資本寒冬,之前的客戶新創公司一個一個關門,還撐著的,很多都是靠政府科研預算活著,所以只能縮衣節食,訂單越來越稀有,競爭者卻越來越多,因為門檻並不高,尤其房企相關產業下崗人潮一多,找活路,就往這裡擠。我聽高軍的分析:他們起步太晚,比他先做這一行業的很多,規模是他們幾倍大的多得是,也沒看到誰有辦法上市。同時是民企不好跟銀行融資,他們的資金撐不了太久。”

等到看到 Molly 秀給大家的『數據標注服務平台』工作現場環境,是高軍傳給她的照片,高軍很得意自己在兩年內就擴充到如此規模,雖然現在不知道還能撐多久?

Pete驚嘆:”都是人才啊!怎看都像是地下工廠,除了有密密麻麻的電腦與螢光幕外,基本上就是在一個很破敗的廠房。如果要我猜這是什麼地方,蠻像十五年前我第一次出差大陸,在鄉下的一個大型地下網吧呢!還只能吹電扇呢,很難想像這麼科幻的產業也有如此血汗工廠的。”

Gavin 問:”難道市場上沒有較成功的數據標注服務廠商嗎?”

Molly 昨晚已經做好功課,告訴大家:”有問到高軍認為最大的競爭對手是翊澳数据,規模三四倍他們的公司。但是業界傳聞也可能在邊緣了!另外也有上市公司中昌数据 有客製化服務,提供較專業領域,例如:醫學影像的數據標注服務”

佳麗補充她昨晚也做了一點功課:”除了 ImageNet 是 Google前任的首席科學家李飛飛創立的視覺網專案,已經成為視覺辨識的巨量資料首選。另外 Amazon Mechanical Turk (MTurk) 看來也很像剛剛 Molly 提到的百度眾測,不過亞馬遜主要是面向個人的;而百度卻是面向廠商的。我感覺百度的模式還蠻剝削其廠商的,為了要爭取訂單,還要免費提供服務,美其名叫驗證廠商的資格。”

Moore 也補充,Google 在 AutoML產品有提到『您可以使用 Google 的人工標籤服務,由真人為標籤加註或清理標籤,藉此確保訓練模型時使用的是品質絕佳的資料。』細節還沒深入,如果專案有需要我們再增加 Backlog Item。


會議至此 Gavin思考一下,好幾個專案團隊成員對這門數據服務的生意感興趣,雖然還是沒能探索到商機在哪裡,但是也算有個頭緒,至少在後續的 Sprint Review 會議可以報告。

Molly 另外以 Scrum Master 提醒大家:"各位有無發現,雖然我們搞Scrum,一直承諾要遵守 Time-Box,我們最近一直聽到誰誰誰晚上還做了功課,這有無違反我們的 Time-Box?"

佳麗先回說:"我先自首了!不過我也清楚幾乎大家多少都有。我自己是因為我老公兒子兩人整個晚上佔著電視對打 Game,無聊順便看看這些資料的。如果我們真要嚴守 Time-Box,那怎辦,總不能要我去趕開父子倆,自己看韓劇吧?"

Molly:"坦白講我因為不是受訓過的專業Scrum Master,我沒有答案。但是我跑過幾次的 Scrum 專案都會有類似的情境,專案進展不順利時,就會有人自動偷偷加班了。所以我有幾個觀察跟大家分享:

  1. 我們這個專案 Sprint Review 要到了,大家有壓力了,會自動趕工,此專案團隊大體上應該是健康發展的。
  2. 因為是工作認領來的,有時候無法辨識自己是在加班,還是因為興趣,打發時間。

備註:

專案緣起記錄在 【UP, Scrum 與 AI專案】


上一篇
由 MLP 看機器學習導入策略
下一篇
Tensorflow 實作 MLP 影像辨識
系列文
深度學習所需入門知識--一位初學者的認知31
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言