RGC Newsletter - Research Frontiers

我们的工作取得了令人瞩目的研究成果。2010年，麻省理工《科技创业》杂志报导了我们在广告应用领域作出的有关多模态迁移学习的研究工作。在这研究工作中，首先由用户输入一张图片。接下来，我们所研发的系统 (称作ViCAD) 将会把与输入图片有相似语义资讯的图片以及文本文字呈现给用户。同时，广告也会包含在这些返回结果中。从搜索引擎公司的角度来看，这无疑会带来经济效益的提升。按照我们的研究思路，搜索引擎完全可以通过多模态迁移学习的方法学习出文本和图片之间的映射。

参与第18 届知识发现和数据挖掘国际会议

ViCAD项目的成功激励我们继续探索多模态迁移学习在图片分类上的可行性。普遍地，构建一个好的图片分类器需要标记充足的数据。事实上，标记数据不足和难以获取一直是困扰图片分类器性能的大问题。但是，我们提出的多模态迁移学习能够借助文本资讯来帮助提升图片分类的精度。我们有一篇相关的研究论文被AAAI'11会议收录，论文中，我们不仅能够使用一些没有标记的图片，还能使用没有标记的文本，来帮助目标图片的分类。在这个问题中，带有标签的图片发挥了类似桥梁的作用，这些标签可以把文本中的分类资讯传递到图片上。通过在Caltech-256数据集(普遍用于图片分类的数据集) 的大量实验，我们发现在构建的二类分类问题中，我们的方法在“阅读”200个文本后就会有百分之十的准确率提高。从广义上讲，多模态迁移学习在图片分类的应用也为图片和文本之间的联系提供了更深的理解，并且可以启发它们之间的其他应用。

除此之外，我们在知名的国际大型数据挖掘比赛中也取得了斐然的成绩。2011年的ACM KDDCUP数据挖掘比赛中，我们和一些内地学生组建的参赛队伍获得了第三名。这次比赛的任务是雅虎音乐推荐，据统计，来自世界各地的参赛队伍共有2000多队。我们在比赛中设计的模型现在已被腾讯公司采纳，作为他们微博名人推荐的主要演算法模型。我们的迁移学习方案是藉助QQ社交网络中用户的喜好发现更多具有相同兴趣及背景的用户，将发掘的这些用户推荐给目标群体。现阶段，我们的研究重点是如何实现中国古诗词和中国古典音乐之间的知识迁移，这项工作是多学科，多领域融合，包括文学写作，艺术和计算机科学。

杨强教授
香港科技大学
计算机科学及工程学系
qyang@ust.hk