我無法理解爲什麼扎克花了150億美元收購了來自ScaleAI的15名員工(數據公司)
所以我深入研究了一下,覺得我搞明白了:
我們並沒有耗盡數據。實際上,情況正好相反。
一輛單一的無人駕駛汽車每小時產生2TB (的數據,相當於800,000本書)。
問題在於數據很混亂,不容易輸入到LLM中進行訓練,因此它就被扔進了數據墓地,留給其他人去解決(沒有人去做)。
優秀數據工程師的嚴重短缺
我提到的那個墓地實際上是一個金礦,如果你能從中篩選出來的話。
問題是很少有人有能力或時間。猜測這就是扎克伯格爲scaleAI員工支付150億美元的原因。
高質量數據遠比“數據量”更有價值
特別是針對訓練後模型 (eg 測試時間計算)。
它還需要更少的計算,這降低了訓練模型的成本。
所以如果你的訓練團隊能夠 1. 篩選高質量數據 2. 將其注入後續訓練 3. 降低成本 - 你就會贏得人工智能競賽 (無價)。
查看原文