俄羅斯搜索巨頭Yandex開源了Gradient boosting機(jī)器學(xué)習(xí)庫CatBoost,它能夠在數(shù)據(jù)稀疏的情況下教機(jī)器學(xué)習(xí)。即使沒有像視頻、文本、圖像這類的感官型數(shù)據(jù),CatBoost也能根據(jù)事務(wù)型數(shù)據(jù)或歷史數(shù)據(jù)進(jìn)行操作。開源CatBoost只是Yandex新戰(zhàn)略的一個開頭。
Yandex是目前世界第五大搜索引擎
兩次亮相
Yandex昨天的登臺方式可不只一種。
首先,Yandex宣布,將用自研的新服務(wù)框架CatBoost替代原來的機(jī)器學(xué)習(xí)算法MartriNet。自2009年被研發(fā)出后,MartriNet一直被Yandex應(yīng)用在多種任務(wù)處理上,比如排名、天氣預(yù)報、出租車服務(wù)以及推薦任務(wù)上?,F(xiàn)在,這些工作將逐漸被CatBoost取代,于未來幾個月持續(xù)進(jìn)行。
之后,Yandex宣布將免費提供CatBoost,任何想應(yīng)用這項技術(shù)的人均可在Apache許可證下應(yīng)用。“CatBoost是Yandex多年研究的尖端成果,”Yandex機(jī)器智能研究的主管Misha Bilenko在接受采訪時表示,“我們曾用過很多開源的機(jī)器學(xué)習(xí)工具,是時候向社會作出回饋了。”
成為“中心”
Bilenko補(bǔ)充說,還沒有計劃要將CatBoost商業(yè)化,或以其他任何專利的方式將其關(guān)閉。“這和競爭對手無關(guān),”他說,“我們會很高興看到競爭對手使用它。”
近幾年,隨著Yandex實力增強(qiáng),它一直在尋找提升它在俄語世界外的國際影響力。開源這項行為,不僅強(qiáng)調(diào)了Yandex對開源社區(qū)的承諾,還展示了Yandex想成為世界“中心”的雄心,無論作為大型科技公司還是更大的開發(fā)者社區(qū)。
CatBoost的三重奏
Bilenko說Yandex開源CatBoost是受到了兩方面啟示——一是谷歌在2015年開源TensorFlow,二是Linux的建立與成長。正如谷歌持續(xù)發(fā)展并升級TensorFlow一樣,CatBoost的第一版將繼續(xù)更新并將持續(xù)迭代。目前,這一版本主要有三種特性:
減少過擬合:它可以幫你在訓(xùn)練項目中得到更好結(jié)果。這是“基于一種專有算法來構(gòu)造不同于標(biāo)準(zhǔn)Gradient boosting方案的模型”。
支持類別特征:將改進(jìn)你的訓(xùn)練結(jié)果,同時允許使用非數(shù)字的因素,“而不是必須預(yù)先處理數(shù)據(jù),或者花費時間和精力將數(shù)據(jù)轉(zhuǎn)換為數(shù)字。”
用戶友好的API界面:它還使用了一個API接口,允許從指令行或通過API讓Python或R語言使用CatBoost,包括公式分析和培訓(xùn)可視化工具。
調(diào)適量少
雖然有大量其他數(shù)據(jù)庫幫助增加梯度或用其他解決方案幫助訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng),但Bilenko認(rèn)為CatBoost相較其他框架的優(yōu)點是測試精準(zhǔn)度高。
“很多惡劣的機(jī)器學(xué)習(xí)代碼需要大量調(diào)試,”Bilenko說,“CatBoost只需少量調(diào)試,并且性能良好。這是最重要的一個區(qū)別。”
最后,附CatBoost開源代碼區(qū)地址:https://catboost.yandex/祝你玩得愉快~