RGC Newsletter - Research Frontiers

我們的工作取得了令人矚目的研究成果。2010年，麻省理工《科技創業》雜誌報導了我們在廣告應用領域作出的有關多模態遷移學習的研究工作。在這研究工作中，首先由用戶輸入一張圖片。接下來，我們所研發的系統 (稱作ViCAD) 將會把與輸入圖片有相似語義資訊的圖片以及文本文字呈現給用戶。同時，廣告也會包含在這些返回結果中。從搜索引擎公司的角度來看，這無疑會帶來經濟效益的提升。按照我們的研究思路，搜索引擎完全可以通過多模態遷移學習的方法學習出文本和圖片之間的映射。

參與第18 屆知識發現和數據挖掘國際會議

ViCAD項目的成功激勵我們繼續探索多模態遷移學習在圖片分類上的可行性。普遍地，構建一個好的圖片分類器需要標記充足的數據。事實上，標記數據不足和難以獲取一直是困擾圖片分類器性能的大問題。但是，我們提出的多模態遷移學習能夠借助文本資訊來幫助提升圖片分類的精度。我們有一篇相關的研究論文被AAAI'11會議收錄，論文中，我們不僅能夠使用一些沒有標記的圖片，還能使用沒有標記的文本，來幫助目標圖片的分類。在這個問題中，帶有標籤的圖片發揮了類似橋樑的作用，這些標籤可以把文本中的分類資訊傳遞到圖片上。通過在Caltech-256數據集(普遍用於圖片分類的數據集) 的大量實驗，我們發現在構建的二類分類問題中，我們的方法在「閱讀」200個文本後就會有百分之十的準確率提高。從廣義上講，多模態遷移學習在圖片分類的應用也為圖片和文本之間的聯繫提供了更深的理解，並且可以啟發它們之間的其他應用。

除此之外，我們在知名的國際大型數據挖掘比賽中也取得了斐然的成績。2011年的ACM KDDCUP數據挖掘比賽中，我們和一些內地學生組建的參賽隊伍獲得了第三名。這次比賽的任務是雅虎音樂推薦，據統計，來自世界各地的參賽隊伍共有2000多隊。我們在比賽中設計的模型現在已被騰訊公司採納，作為他們微博名人推薦的主要演算法模型。我們的遷移學習方案是藉助QQ社交網絡中用戶的喜好發現更多具有相同興趣及背景的用戶，將發掘的這些用戶推薦給目標群體。現階段，我們的研究重點是如何實現中國古詩詞和中國古典音樂之間的知識遷移，這項工作是多學科，多領域融合，包括文學寫作，藝術和計算機科學。

楊強教授
香港科技大學
計算機科學及工程學系
qyang@ust.hk