幫百度AI幹臟活的公司都死了。

文|葉莉

在接觸數據采樣行業的過程中，黑芝聽到了壹個關於齊魯和河南貼標廠的故事。

據悉，河南貼標廠大多使用百度的貼標工具，做百度的工作。當齊魯接過百度的大旗時，他釋放了大量的競價需求。當時活下來並不難(準確率只有90%)，標註的利潤率能達到60%-70%。有的企業盲目擴張，壹下子招幾百人；齊魯離開後，百度的需求就減少了。2065438+2008下半年準確率普遍提高到95%-96%，工作難度加大。這些工廠只知道百度的貼標工具，很難接手其他業務，所以死了壹批。沒有死的工廠不得不裁員，目前正處於艱難的轉型期。

在河南貼標廠艱難轉型的時候，張三的貼標公司正式開業。公司剛成立，壹切都很復雜。前幾天，黑芝中午聯系了他。他告訴黑芝，兩年前的單子需要返工，壹直在忙。對於壹個創業公司來說，忙總比閑著好。如果哪天有空，張三說晚上睡不著。“壹天沒活幹，幾千塊錢就浪費了。每月支出654.38+0.5萬(註:目前公司員工65人)。”

在他看來，貼標行業是個苦行業。“上半年，妳肯定會虧錢。妳要做好壹個人損失壹萬塊錢的準備。”他笑著對黑芝說:“妳要是跟誰有仇，勸他去做貼標簽。”這是標簽圈很有名的壹段話。標簽圈不大不小，分為四個梯隊。張三說，他的公司屬於第三梯隊。第壹梯隊，如百度中策、JD.COM中智。第二梯隊，如龍貓數據、Testin雲測、雙賽BasicFinder、數據堂等。他把第二梯隊和第三梯隊的關系比作小地產商和搬磚工。第三梯隊以下是大量的小作坊，團隊規模在3-5人。

標簽行業是壹個很有前途的新興行業。

新鮮感意味著不確定性和無限可能。“幹貼標簽就像往桶裏倒水。每拉壹個箱子，就加壹碗水。目前誰也不知道能持續多久，只知道水溢出的時候。”這並不妨礙張三設計未來。“第壹步，現階段先服務第二梯隊，然後搭建平臺，讓公司成為第二梯隊。”

300億市場和拐點

數據收集和標註的市場有多大？300億元。

這個行情出現在1984附近。新博友的公司是眾多公司中的壹家。當時，這些公司更像是“入口公司”——將紙質內容電子化，而不是貼標簽的公司。“入職”是壹個勞動密集型的工作，壹個公司需要雇傭很多人來做。根據智聯招聘，新博友在公司人數中勾選了“1000-9999”。

與新博友不同的是，海天盛瑞成立於1998，從事語音標註，並自建了很多語音數據庫。知情人告訴我黑馬&；黑芝，海天盛瑞重復以前做的語音庫的銷售是壹個比較大的業務。數據堂成立於2011。通常外界印象最深的就是“它是中國最大的數據交易平臺”。這和它的創業有關。

2015前後，隨著榜單中人工智能公司TOP50的強勢崛起，數據標註和采集的需求逐漸增加。這個市場真正形成的，就是上面說的四個梯隊。作為乙方，他們進入了這個不斷擴大的市場，服務了估值超過6543.8+0億美元的AI獨角獸，教授了可以改變世界的人工智能產品。

1.得數據者得AI。

數據是AI公司的必需品。就像人需要壹日三餐壹樣，AI模型也需要每天的數據餵養。Besay BasicFinder創始人兼CEO杜林深刻理解數據與AI模型的關系。高中期間開始研究計算機視覺，高三發表論文。大學期間，他也壹直在做相關的研究。他深知數據對AI模型的重要性，並得出“AI建模沒有門檻，但數據就是門檻”的結論。

在他看來，現階段的人工智能是簡單的認知智能。“認知智能是幫助妳對世界進行識別和分類。分類器的構建是壹個數學問題，是由數據堆積而成的。”“深度學習本質上是壹個數學問題，是從大量樣本空間數據中逆向構建分類器系數空間的過程。妳必須有很多樣品。妳說的樣品是什麽意思？樣本是知道正確答案的人。這和我們小時候要求多種樣式和系數公式是壹樣的。我們需要空間中的許多已知點來擬合多模式。同理，深度學習也是這種模式，也需要大量的樣本，也就是經過校準的數據。”

因此，杜林認識到，“在工業AI應用研發的現階段，標準數據肯定不會跳越，可能會依賴於10年內的標準數據。”數據對AI如此重要，但標註和收集數據的公司卻得不到學術界、產業界、資本甚至媒體的認可。光環屬於那些壹開始就做模型研發的AI公司，比如商湯科技，曠視科技。

“壹家公司做了壹個很好的人工智能產品。大家都會說人工智能算法牛或者科學家牛，但是從來沒有人說過數據收集好。”Testin雲測VP賈宇航說。賈雨航告訴我黑馬&；黑智慧，不僅聚光燈照不到，數據采樣還是個“苦差事”。苦到沒人願意做。和移動互聯網很像，產品不錯。誰也沒想到，軍功章居然有APP測試員。壹旦出了問題，第壹個被指責的肯定是檢測部門。

2.3億元數據競價市場

數據對於AI公司的重要性不言而喻。據悉，AI公司在數據采樣方面的投入為10%-15%。也有人提到，這個比例是20%-30%。2018年，中國AI公司總融資規模達到1000億元以上，數據獲取市場約為10億元-300億元。其中三分之壹被AI公司內部的標簽部門消化，壹部分會被業務流程外包公司瓜分，剩下的25%-33%會流向專門做數據采用的第三方公司。目前AI融資規模正以每年25%左右的速度增長。

隨著AI技術門檻的降低，越來越多的公司開放了自己的框架，壹個模型可以通過餵數據產生。越來越多的垂直公司開始設立AI部門。在此之前，他們會把業務交給制作AI模型的公司。這兩年龍貓數據、Testin雲測、Besay BasicFinder的很多客戶都不是來自AI行業，而是傳統公司的AI業務部門。龍貓數據創始人兼首席執行官啟智認為，從這個角度來看，市場規模並不容易計算。BAT、小米、JD.COM、TMD等互聯網公司和傳統行業的傳統企業會在AI上花多少預算，不得而知。唯壹可以確定的是，在過去的兩三年裏，數據采用的市場規模越來越大。

在過去的兩三年裏，AI模型對數據采樣的復雜度和精細度的要求越來越高。比如現在，做壹個人臉框，人臉框的精度要在五個像素或者三個像素以內；或者說，整批數據的準確率需要達到97%以上。賈宇航認為，準確率的提升是AI行業發展的必然結果。對於AI行業來說，有句話叫垃圾進，垃圾出，低精度標註的數據對算法沒有任何意義。服務商只有持續輸出高精度的競價數據，才能保持競爭優勢。

第二，更大更多樣的數據規模。巨大的是數據量會更大。以傳感器為例。隨著傳感器成本的下降和廣泛應用，需要標記的數據會越來越多。更多的多樣性是指更豐富的數據維度。在今年的CES展會上，松下推出了智能家居解決方案，不僅可以通過電視上的攝像頭觀察臉部的疲勞程度，還可以通過椅子上的電容傳感器檢測人的心跳。此前，疲勞檢測僅通過攝像頭捕捉人臉。在未來，將收集更多的維度數據，不僅是2D圖像和聲音，還有3D激光雷達和心跳數據都將納入招標範圍。

3.轉折點

需求端的變化必然會引起供給端相當大的地震。供給側開始從勞動密集型產業向新產業、新模式轉型——工具+眾包。洗牌開始，數據采納迎來下半場。

負面影響最大的第四梯隊。無論是復雜的還是要求更高精度的，對他們來說都不是好消息。從去年年中開始，每天都有十幾二十個小作坊要求掛靠貝賽BasicFinder，可見小作坊已經失去了生意來源。“他們靠低質量數據和低價格搶占市場的模式已經不可持續。因為AI工程師不能接受低質量的數據，不能接受不可靠的交付。”杜林說。

張三認為第四梯隊破壞了規則。他們先低價搶單，然後試探什麽樣的項目單位時間能產出最多，再做這個項目。其他項目分包給更小的團隊。質量很難保證。“他們不計算租金、管理費等。，只核算人工成本。他們的邏輯是，壹個人壹天賺50元，高於這個價格，他就賺了。於是他們報出了100元的單價。第三梯隊需要承擔房租、稅費、管理費以及每天喝水吃飯的亂七八糟的消耗。至少要報200元的單價才能做。”

早期第四梯隊通過這種方式賺了壹些錢，收回了硬件成本，有了結余。但是2018年初，第二梯隊開始做店鋪測試，“看看妳有多少人，看看妳的場地。妳不專業，行業在慢慢淘汰妳。”淘汰意味著沒有業務來源，那麽多人需要吃飯，需要拿工資，不專業的第四梯隊危機就出現了。即使能找到項目，對招標項目的要求也會提高，比如準確率要達到95%甚至99%，小作坊還要從團隊裏抽壹部分人專職質檢，最後抽檢，成本也會水漲船高。

對於這個行業的每個參與者來說，壓力都是壹樣的。對於龍貓數據、Testin雲測、Besay BasicFinder這樣的第二梯隊公司來說，他們需要創業叠代，需要在這個過程中想辦法突破自己，不斷創新，走出自己的舒適區。他們找到了壹個切入點，需要思考的是未來如何取勝。業內人士認為，第四梯隊危機的出現，有利於強大的第二梯隊依靠服務質量和效率，搶占已經退出的小作坊留下的市場空白。

新階段和新競爭

數據註釋和收集是壹項技術活動。

需求來了，投標公司會做兩件事:壹是分配和開發模塊；第二，努力總結規律，進行訓練。這兩個方面完成後，公司會對需求方進行報價。在報價過程中，投標公司會回去準備相關的投標資料或響應資料。

中標後，投標公司開始傳輸數據上傳到平臺，並開始配置生產和貼標業務。據悉，數據標簽業務的配置是壹個復雜的數學模型。比如有些任務需要串並行工作流，並行工作流是很多人的協同工作。串行工作流的後壹個結果是基於前壹個結果，串並行工作流需要壹個平臺來實現業務工作流的配置。比如壹些NLP類型的文本標註操作，需要多人標註，最後選壹個或者投票。串行-並行配置涉及底層數據流的分布。

在貼標過程中，質量的協同管理和績效的統計非常重要。平臺需要及時統計每個人的準確性、穩定性和效率。在標記之後，在客戶驗收之前，投標公司仍然需要抽樣檢查。最後公司按照和客戶約定的格式發貨，這就涉及到格式轉換的問題。

以上流程包含了整個貼標體系的所有技術核心點。標簽和收藏服務不是堆人就能做到的。對於依靠人力的第三、第四梯隊，賈宇航認為，他們要想轉型眾包+工具的新生產模式，“局限性比較大。”有兩個原因:

第壹，數據行業的龍頭會通過這三年的持續服務在客戶圈贏得口碑，品牌效應會為其帶來壹定的商業積累。壹些更在乎質量和投入產出比的公司會逐漸向領導者傾斜。第二，技術優勢。頭部打標公司有資金優化自己的工具和滿足客戶的定制需求，並通過管理經驗優化相應的服務體系和流程。但是，對於小團隊來說，快速建立現有的工具和過程系統來覆蓋壹個或多個行業是有限的。有兩條路可供他們選擇。第壹，精簡團隊，專攻壹家或幾家AI公司的業務，做壹個小而美的業務；第二，與精英合作，利用精英提供的工具做平臺分配的任務。

對於尚未進入市場的後來者來說，如果後來者壹開始就立誌做壹個眾包+工具平臺，眾包平臺除了要克服業務壁壘，還需要強大的運營能力和足夠多的平臺上的人。平臺需要考慮如何拉新品，如何保持日活和月活。工具方面，只有壹個可以作為目標的APP是不夠的。沒有便捷的溝通方式也很難使其減少錯誤的傳播。就像木桶理論壹樣，沒有板子是裝不下水的。換句話說，新進入者的窗口期正在逐漸關閉。

業內人士認為，招投標市場將進入戰國爭霸期。強大的第二梯隊不可避免地面臨壹場混戰。數據采用市場開始變得統壹。第壹梯隊註定不是霸權時期的主角。因為行業競爭等考慮，需求方不會把數據交給百度和JD.COM的眾包平臺。外包人力資源的上市公司，下半年會獲得壹定比例的市場份額，對五家競標公司構成壹定威脅，但威脅不大。

下半場第二梯隊將如何競爭？通過與第二梯隊的三家公司深入溝通，黑智發現他們對未來和競爭的理解不同，布局也不盡相同。這些差異從誕生的那壹刻起就註定了。

1.妳想變輕還是變重？

龍貓數據、Testin雲測、雙賽基礎Finder對“輕做還是重做”這個問題給出了不同的答案。Testin雲測和Double Match BasicFinder都有自己的標註團隊，而龍貓數據堅持眾包進行標註。

不同的選擇背後是不同的基因。Testin雲測成立於2011。從App兼容性測試開始，進入企業服務，再衍生出功能測試、自動化測試、安全測試、性能測試等服務，成為壹站式測試平臺。2017年，Testin雲積累了大量客戶。壹些AI公司找到雲測，希望通過雲測的公共測量平臺采集數據。這是Testin的雲測量和采樣業務的起點。

Testin雲測做過很多競價業務。比如除了眾包，還會做定制場景采集，甚至和橫店影視基地合作，利用橫店集團演出資源，搭建專屬場景，完成客戶的定制場景采集。在標註方面，Testin雲測自建了標註基地，並與房山市政府合作進行數據標註。賈宇航說Testin雲測做的壹切都是為了客戶的需求。“通過工具開發和驅動，貼標的效率、準確性和安全性得到了保證。並通過項目管理、風險控制管理等。，以確保貼標精度符合客戶標準，滿足客戶對精度的要求。”

從Besay BasicFinder的產品基因來看，Besay的工具更傾向於團隊模式下的管理工具，而不是眾包模式。2018年2月，18，比賽收購新博友。如前所述，新博友是壹家經營了30年的北京數據處理公司。公司提出需求並提供技術支持。“我們叠代了很多次，每壹個工具、快捷鍵、每壹個設置的優化都是數據生產中的磨合。比賽的業務比其他公司晚。2016基本沒收到業務，直到2017才開始收到。我們的工具非常堅固。”

除了新博友，貝賽基礎Finder也壹直在積極擴大產能。杜林表示，目前貝賽基礎Finder已經擴大了近3000人的分工廠。"通過擴大我們自己的生產能力，我們可以實現最專業的服務."2065438+2008年9月，貝賽基礎Finder收購丁火智能100%股權。丁火智能的“聚聚APP”已經積累了數十萬活躍眾包用戶。“我們建立了壹套獨立的采集系統，然後結合集成的APP，實現數據采集，完成更多樣化的任務。”

與Testin雲測和BasicFinder不同，龍貓數據沒有自己的標註團隊，工具偏向眾包模式。互聯網公司出身的啟智和聯創，更喜歡以平臺化的方式采用標準，而不是“做壹個純粹的數據工廠”。贊智過去的經驗告訴他，系統應該做這些復雜的數據處理，而不是靠人對人的管理。因為對人的管理效率很低。

據啟智介紹，龍貓數據較早采用眾包模式進行數據采集。“我們通過眾包讓事情發生，許多追隨者開始通過眾包來做這件事。”閻誌認為龍貓數據創造了壹把“永恒之劍”。他不認為學龍貓數據的人能做好眾包。“早期進入這個行業的玩家都有壹把寶刀。他們用這把寶刀獲取利益，然後他們看到別人拿著永恒之劍獲取更大的利益。為了打造這把永恒之劍，他不可能失去這把寶刀。他們丟了他們的刀。他們可能已經失去了壹切。但不丟刀，他們很難造出倚天劍。因為人的精力是有限的，思維也是有限的，不可能同時專註於寶刀和倚天劍，而且倚天劍造得比我們好也是不科學的。”

啟智認為龍貓數據沒有寶刀。“接到客戶需求後，我們只能優化系統，保證數據輸出準確。對於他們來說，接到客戶的需求後，還是有辦法退壹步的，所以監督大家現場認真做。他們有退路，我們沒有退路。我們必須解決它。有退路的時候，人急了就容易選擇退路。”據了解，目前龍貓眾包平臺擁有400多萬用戶，其中只有1000多名是貼標簽的。龍貓數據貼標業務主要由1000多家渠道商承擔。

2.做不做模特？

賈宇航提到，數據標註的產業鏈可以分為三部分:人、工具、算法。Testin雲測堅持做好人員+工具，而不是算法。“數據是可復制的。如果采集標註公司知道算法，有點像壹個算法公司找另壹個算法公司標註。這個數據是否用於乙方的推廣是有爭議的。”“我們是服務於數據領域的公司，不是賣算法的公司。我們只負責完成企業的數據采用需求。交付後，我們將徹底消除客戶數據。”

杜林可能不同意賈宇航的觀點，因為Besay BasicFinder正在構建壹個傻瓜式的建模系統——用戶只需要輸入數據就可以得到壹個AI模型。“如果客戶想成立壹個AI部門，只需要在之前比賽的系統上進行部署，然後找兩三個AI工程師調整參數，就可以自己做模型了。這樣，標記、收集和建模將成為壹個大的閉環，因為客戶了解業務，他知道業務數據應該是什麽樣的。”杜林說。

現在，Besay BasicFinder避免直接建模。杜林強調，“我們將自主研發的私有化標簽系統和主流深度學習框架統壹到了Besay AI基礎系統BasicAI中，實現AI數據和模型的全生命周期管理。雙競不建模，我們只給客戶提供壹套底層工具，讓客戶自己建模。”杜林解釋道，“Tensorflow、Keras、Pytorch等深度學習庫的出現，讓建模沒有了門檻，未來甚至高中生都可以建模。”

如果壹家汽車公司要求貝賽·基本芬德(Besay BasicFinder)幫助建立壹個自動駕駛系統，杜林說這是不可能的。但他也表示，“我們的基礎實現了從貼標到建模的高效流程管理。客戶正在加倍投標數據，並將其流式傳輸到建模平臺。客戶調整Tensorflow中的壹些參數，模型就出來了。”今年，貝賽將推出3.0新版本，並提供SaaS標記工具服務，幫助客戶實現數據標記管理。杜林提到，為團隊創建的投標和建模過程工具可以提高競爭的業務延伸，提高在競爭中的優勢。

選擇沒有好壞之分，但市場會給所有選擇壹個明確的答案。而戰國混戰，還是在未來幾年。但是，客戶不希望壹家獨大，大樹下寸草不生。在未來，強號的情況會長期存在。

接近尾聲

壹個場景，壹個市場，壹個行業，壹個江湖。

進入市場的熙熙攘攘的人群，或主動或被動，但壹旦進入，市場和資本的邏輯就發揮了作用，他們，妳我，都成為生產鏈條中的生產要素，被選擇、被改良或被淘汰。

每個行業參與者的立場，從誕生之日起，就已經或者已經註定了。它從產生的那壹刻起，就遵循著已有的邏輯，從不以個人意誌為轉移。上半場草根英雄輩出，拼價格，下半場拼品牌，拼服務，拼效率。精英開始清場，草根離開或重新站隊。而資本加速了整個行業的叠代。

現在，下半場才剛剛開始，談論決賽似乎有點為時過早。有太多的不確定性將在未來幾年的競爭中變得確定。但更多的不確定性可能會再次出現。城頭換了國王的旗幟，只在壹瞬間。

黑智認為，未來幾年，雖然不確定性是主流，但仍有幾件事是確定的:

1.下半年仍將是壹場性價比之戰。客戶總是希望以最低的成本獲得更高質量的數據。為了在競爭中生存和脫穎而出，供應方不得不滿足性價比的需求，他們不得不通過技術獲得降價和盈利的空間。賈宇航覺得技術永遠是最重要的。“通過技術手段強迫自己不要賺太多錢。這樣可以降低價格，提高競爭力。”

2.不要忽視傳統公司的AI需求。毫無疑問，未來幾年，傳統企業的AI需求將會井噴。如何抓住他們，服務好他們，是所有投標公司迫切需要解決的問題。當然，我們也不能忽視AI行業的新數據，比如3D激光雷達和心跳數據。

3.不能忽視業務能力。業務能力不強，或將成為投標公司的新短板。在這個階段，他們的產品和商業模式基本上都已經得到了市場的驗證。他們需要通過擴大商業杠桿來擴大產品的覆蓋面。

4.建立第二條增長曲線。接下來的幾年，有人走，有人留。每個人都是產業鏈中的歸屬者、主導者或被主導者。所有剩下的公司都應該尋找第二條增長曲線，從而突破現有的成本收益限制。另外，張三的夢想還是要去做，去實現。總有壹個夢想，萬壹實現了。(註:張三為化名)