無監(jiān)督/弱監(jiān)督學習逐漸成為企業(yè)降本增效新利器

在過去的幾年中,深度學習所取得的巨大成功離不開大規(guī)模標注的數(shù)據(jù)集。大規(guī)模標注的背后,是傳統(tǒng)的監(jiān)督學習對于每一個訓練樣本完備標簽的要求。隨著業(yè)務(wù)規(guī)模的不斷擴大,越來越多的企業(yè)發(fā)現(xiàn)數(shù)據(jù)的標注開始成為抬高交付成本、制約效果提升的主要因素之一。

在此背景下,無監(jiān)督學習和弱監(jiān)督學習通過不使用標簽或減少對標簽數(shù)量、質(zhì)量的要求來迅速降低深度模型對于數(shù)據(jù)的標注需求,使得原本無法利用的數(shù)據(jù)如今都可以加入到模型的訓練中去,進而由量變引發(fā)質(zhì)變。在NLP領(lǐng)域,基于Transformer的無監(jiān)督訓練模型已持續(xù)霸榜各種NLP任務(wù)數(shù)據(jù)集;在CV領(lǐng)域,*的MPL方法也通過額外的無標注數(shù)據(jù)集*將ImageNet的Top-1分類*率提升到了90%+的水平。

可以預見的是,將有越來越多的人工智能企業(yè)會面臨從前期的迅速擴張到穩(wěn)定期高效化運作的新階段,而在這個過程中,無監(jiān)督/弱監(jiān)督學習無疑將成為他們過渡到這個階段的重要手段之一。

? ?來源高金CGFT