计算机技术论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

  • 欢迎访问 计算机技术论坛-电脑迷与初学者的家园!由于论坛管理严格,新注册会员可能遇到各种问题,无法解决的请发邮件 admin@jsjbbs.cn
查看: 1210|回复: 0

TextTopicNet模型:以自监督学习方式学习区别视觉特征

[复制链接]
发表于 2021-4-6 22:00:23 | 显示全部楼层 |阅读模式
#111723#大范围带标注的数据集的呈现是深度进修在盘算机视觉范畴获得宏大胜利的要害要素之一。但是,监视式进修存在一个重要成绩:过于依附大范围数据集,而数据集的搜集和手动数据标注须要消耗大批的人力本钱。
作为替换计划,自监视进修旨在通过计划帮助义务来进修可区分性的视觉特点,如斯,目的标签就可能自在获得。这些标签可能直接从练习数据或图象中取得,并为盘算机视觉模子的练习供给监视信息,这与监视式进修的道理是雷同的。然而差别于监视式进修的是,自监视进修方式通过发掘数据的性子,从中进修并天生视觉特点的语义标签信息。另有一类方式是弱监视进修,这类进修方法可能应用低程度的解释信息来处理更庞杂的盘算机视觉义务,如应用天然场景下每张图象的种别标签停止目的检测义务。
咱们的目的是摸索一种自监视的处理计划,应用图象和图象之间的相干性来替换完整监视式的 CNN练习。另外,咱们还将摸索非构造化言语语义信息的强弱,并将其作为文本监视信号来进修视觉特点。
咱们扩大了之条件出的方式并展现了以自监视的方法停止插图文章的进修,这可能进一步扩大到更大的练习数据集(如全部英语维基百科)。
通过试验,咱们验证了 TextTopicNet的表示优于其余基准评价中的自监视或天然监视的方式。另外,咱们还在更具挑衅性的 SUN397数据集上测试了咱们的方式,成果标明 TextTopicNet可能增加自监视进修和监视进修之间的机能差距。
咱们展现了将高低文的文本表征用于模子的练习,这可能有助于收集主动进修多模态的语义检索。在图象——文本的检索义务中,TextTopicNet的表示超越了无监视进修的方式,而与监视进修的方式比拟,咱们的方式可能在无需任何特定种别信息的情形下还能表示出有竞争力的机能。
在自监视进修设置下,咱们对差别的文本嵌入方式停止了对照剖析,如word2vec,GloVe,FastText,doc2vec等。
另外,咱们还公然宣布了咱们所搜集的数据集,该数据集采自全部英语维基百科,由 420 万个图象构成,每张图象都有对应的笔墨描写信息。
维基图象——文本数据集
咱们以维基百科作为数据的起源,这是一个基于收集的多言语的百科全书名目,现在有 4000 多万篇文章,含 299 种差别言语。维基百科文章平日由笔墨及其余多媒体范例的工具(如图象,音频或视频文件)构成,因而能够将其视为多模态的文档数据。对于咱们的试验,咱们应用两个差别的维基百科文章聚集:(a) ImageCLEF 2010维基百科数据集;(b)咱们所搜集的英语维基百科图象——文本数据集,包括 420 万图象文本对构成的数据,下图1展现了 11 品种其余文章散布情形。

图1英语维基百科种11品种其余文章散布情形
TextTopicNet
咱们提出了一种 TextTopicNet的方式,通过发掘大范围多模态收集文档的大范围语料库(如维基百科文章),以自监视的方法来进修视觉特点。在自监视进修设置下,TextTopicNet可能应用收费可用的非构造化、多模态的内容来进修可区分的视觉特点,并在给定图象的下,通过练习 CNN来猜测可能插图的语义情况。咱们的方式表示图以下图 2 所示,该方式采取一个文本嵌入算法来获得文本部份的向量表征,而后将该表征作为 CNN视觉特点进修的一种监视信号。咱们进一步应用多品种其余文档以及词级(word-level)的文本嵌入方式,发明通过 LDA主题模子框架发明的暗藏语义构造,可能在主题层面最好地展示文本信息。

图2 方式概览。维基百科文章包括一个主题的文本描写,这些文章同时也附有支撑文本的插图。文本嵌入框架可能与文本信息相干的全局高低文表征。而整篇文章的这类文本表征向量被用于为 CNN的练习供给自监视信号
如图 3 所示,作为主题层面的语义描写器,须要大批可用的对于特定种别或细粒度种别的视觉数据。固然在咱们搜集的数据中,这类数据十分无限,然而这很轻易在更普遍的目的种别(如哺乳植物)中找到充足多的、有代表性的图象。因而,在给定的目的主题情形下,咱们的方式可能进修到冀望的视觉特点,这类特点是通用的,即一样实用于其余特定的盘算机视觉义务。

图 3 描写特定实体的维基百科文章。如 (a) 中“羚羊”或 (b) 中的“马”,每个实体平日包括五张图象。对于一些特定实体,如 (c)中的“食草哺乳植物”,相干的图象很轻易就到达数百或成千上万张。
咱们还练习一个 CNN模子,它可能直接将图象投影到文本的语义空间,而 TextTopicNet不但可能在无需任何标注信息的情形下重新开端进修数据的视觉特点,还能够以天然的方法停止多模态的检索,而无需额定的解释或进修本钱。
试验
咱们通过大批的试验来展现 TextTopicNet模子所进修到的视觉特点品质。权衡的尺度是所习得的视觉特点存在充足好的可区分性和鲁棒性,并能进一步实用于那些未见过的种别数据。
起首,为了验证图象—文本对的自监视进修,咱们比拟了种种文本嵌入方式。其次,咱们在 PASCAL VOC 2007 数据集的图象分类义务中对 TextTopicNet模子每层的特点停止基准剖析,以找到了 LDA模子的最好主题数目。而后,咱们分辨在 PASCAL、SUN397和 STL⑽数据集的图象分类和检测义务中进一步与以后最好的自监视方式和无监视方式停止了比拟。最后,咱们应用维基百科检索数据集对咱们的方式停止了图象检索和文本查问试验。
自监视视觉特点进修的文本嵌入算法比拟
在自监视视觉特点进修的设置下,咱们对 word2vec,GloVe,FastText,doc2vec及 LDA算法停止了比拟剖析。对于每种文本嵌入方式,咱们都将练习一个 CNN模子并应用收集差别层取得的特点信息去进修一个一对多的SVM (one-vs-all SVM)。下表1表现了在 PASCAL VOC2007数据会合,应用差别文本嵌入方式,模子所展示的分类机能。咱们视察到在自监视的视觉特点进修义务中,基于嵌入的 LDA方式展示了最好全局表示。
表1:应用差别文本嵌入方式的 TextTopicNet模子在 PASCAL VOC2007数据集图象分类义务上的机能表示(%mAP)

LDA模子的超参数设置
咱们用 ImageCLEF Wikipedia数据集上 35582 篇文章练习了一个 LDA 模子,以肯定 LDA模子的主题数目。下图4展现了试验成果,咱们能够看到具有 40 个主题数的 LDA模子可能取得最好的 SVM验证正确性。

图4跟着 LDA主题数目的变更,PASCAL VOC2007数据集上 One vs. Rest线性 SVM所获得的验证正确性(%mAP)
图象分类和图象检测
咱们分辨在 PASCAL、SUN397和 STL⑽数据集停止图象分类和检测义务,比拟并剖析 TextTopicNet以及以后最好的自监视和无监视模子的表示。下表 2、3和4 分辨展现各模子在 PASCAL VOC 2007、SUN397和 STL⑽数据集上的分类表示,表 5 展现了在 PASCAL VOC 2007数据集上模子的检测机能。
表 2 PASCAL VOC2007数据集上各模子的分类表示(%mAP)

表 3 SUN397数据集上各模子的分类表示(%mAP)

表 4 STL⑽数据集上各模子的分类表示(%mAP)

表 5 PASCAL VOC 2007数据集上各模子的检测表示(%mAP)

图象检索和文本查问
咱们还在多模态检索义务中评价所习得的自监视视觉特点:(1)图象查问与文本数据库; (2)文本查问与图象数据库。咱们应用维基百科检索数据集,由2,866 个图象文档对构成,包括 2173 和 693 对练习和测试数据。每个图象--文本对数据都带有其语义标签。下表 6 展现了监视和无监视进修方式在多模态检索义务中的表示,此中监视进修的方式可能应用与种别相干的每个图象--文本对信息,而无监视进修方式则不能。
表 8维基数据集上各监视进修和无监视进修方式的表示(%mAP)

图 4 表现了与给定查问图象(最左边)最濒临的 4 张图象,此中每行应用的是 TextTopicNet模子差别档次取得的特点,从上到下:prob,fc7,fc6,pool5层。这些查问图象是从 PASCAL VOC 2007中随机抉择的,且从未在练习时呈现过。

图4与查问图象(最左边)最邻近的4张图象
图 5表现了在 TextTopicNet主题空间中,与给定查问文本最濒临的 12 个查问内容。能够看到,对于第一条查问文本(“飞机”),所检索到的图象列表几近是其雷同的同义词,如“flight”,“airway”或“aircraft”。应用文本的语义信息,咱们的方式可能进修多义词的图象表现。另外,TextTopicNet模子还可能处置语义文本查问,如检索(“飞机”+ “战役机”或“飞翔”+“天空”)等。

图 5与差别文本查问最濒临的12个查问内容
论断
在本文中,咱们提出了一种自监视进修方式,用于进修 LDA模子的文本主题空间。该方式 TextTopicNet可能在无监视设置下,应用多模态数据的上风,进修并练习盘算机视觉算法。将文章插图中的笔墨视为噪声图象标注信息,咱们的方式可能通过视觉特点的进修,练习 CNN模子并猜测在特定的高低文语义中最可能呈现的插图。
咱们通过试验证实咱们方式的无效性,并能够扩大到更大、更多样化的练习数据集。另外,TextTopicNet模子学到了视觉特点不但实用于普遍的主题,并且还能将其利用到更详细、庞杂的盘算机视觉义务,如图象分类,物体检测和多模态检索。与现有的自监视或无监视方式比拟,咱们方式的表示更优。
更多内容阅读推荐:跑步机润滑油怎么加
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

无图版|手机版|计算机技术论坛 JSJBBS.CN @ 2008-2024 ( 鲁ICP备17021708号 )

技术支持 : 北京康盛新创科技有限责任公司

快速回复 返回顶部 返回列表