俄羅斯搜索引擎Yandex開源CatBoost

發(fā)布時間:2017-07-23 18:22:30   發(fā)布者:小擎    文章來源: 全景網(wǎng)

俄羅斯搜索巨頭Yandex開源了Gradient boosting機(jī)器學(xué)習(xí)庫CatBoost,它能夠在數(shù)據(jù)稀疏的情況下教機(jī)器學(xué)習(xí)。即使沒有像視頻、文本、圖像這類的感官型數(shù)據(jù),CatBoost也能根據(jù)事務(wù)型數(shù)據(jù)或歷史數(shù)據(jù)進(jìn)行操作。開源CatBoost只是Yandex新戰(zhàn)略的一個開頭。

Yandex是目前世界第五大搜索引擎

兩次亮相

Yandex昨天的登臺方式可不只一種。

首先,Yandex宣布,將用自研的新服務(wù)框架CatBoost替代原來的機(jī)器學(xué)習(xí)算法MartriNet。自2009年被研發(fā)出后,MartriNet一直被Yandex應(yīng)用在多種任務(wù)處理上,比如排名、天氣預(yù)報、出租車服務(wù)以及推薦任務(wù)上。現(xiàn)在,這些工作將逐漸被CatBoost取代,于未來幾個月持續(xù)進(jìn)行。

之后,Yandex宣布將免費(fèi)提供CatBoost,任何想應(yīng)用這項(xiàng)技術(shù)的人均可在Apache許可證下應(yīng)用。“CatBoost是Yandex多年研究的尖端成果,”Yandex機(jī)器智能研究的主管Misha Bilenko在接受采訪時表示,“我們曾用過很多開源的機(jī)器學(xué)習(xí)工具,是時候向社會作出回饋了。”

成為“中心”

Bilenko補(bǔ)充說,還沒有計劃要將CatBoost商業(yè)化,或以其他任何專利的方式將其關(guān)閉。“這和競爭對手無關(guān),”他說,“我們會很高興看到競爭對手使用它。”

近幾年,隨著Yandex實(shí)力增強(qiáng),它一直在尋找提升它在俄語世界外的國際影響力。開源這項(xiàng)行為,不僅強(qiáng)調(diào)了Yandex對開源社區(qū)的承諾,還展示了Yandex想成為世界“中心”的雄心,無論作為大型科技公司還是更大的開發(fā)者社區(qū)。

CatBoost的三重奏

Bilenko說Yandex開源CatBoost是受到了兩方面啟示——一是谷歌在2015年開源TensorFlow,二是Linux的建立與成長。正如谷歌持續(xù)發(fā)展并升級TensorFlow一樣,CatBoost的第一版將繼續(xù)更新并將持續(xù)迭代。目前,這一版本主要有三種特性:

減少過擬合:它可以幫你在訓(xùn)練項(xiàng)目中得到更好結(jié)果。這是“基于一種專有算法來構(gòu)造不同于標(biāo)準(zhǔn)Gradient boosting方案的模型”。

支持類別特征:將改進(jìn)你的訓(xùn)練結(jié)果,同時允許使用非數(shù)字的因素,“而不是必須預(yù)先處理數(shù)據(jù),或者花費(fèi)時間和精力將數(shù)據(jù)轉(zhuǎn)換為數(shù)字。”

用戶友好的API界面:它還使用了一個API接口,允許從指令行或通過API讓Python或R語言使用CatBoost,包括公式分析和培訓(xùn)可視化工具。

調(diào)適量少

雖然有大量其他數(shù)據(jù)庫幫助增加梯度或用其他解決方案幫助訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng),但Bilenko認(rèn)為CatBoost相較其他框架的優(yōu)點(diǎn)是測試精準(zhǔn)度高。

“很多惡劣的機(jī)器學(xué)習(xí)代碼需要大量調(diào)試,”Bilenko說,“CatBoost只需少量調(diào)試,并且性能良好。這是最重要的一個區(qū)別。”

最后,附CatBoost開源代碼區(qū)地址:https://catboost.yandex/祝你玩得愉快~



推薦了解
Yandex
Yandex介紹

yandex是俄羅斯使用人數(shù)最多的搜索引擎,就如百度在中國的市場地位一樣,其在俄羅斯搜索引擎廣告市場處于領(lǐng)先地位,對于客戶群體在俄羅斯的企業(yè)來說,使用yandex進(jìn)行推廣是一種不錯的選擇.

QQ咨詢
在線咨詢
咨詢熱線
關(guān)注微信
TOP