关注即可获取arXiv每日论文自动推送;
如果您有任何问题或建议,请公众号留言。
[如果您觉得本公众号对你有帮助,就是我们最大的荣幸] 今日 cs.CV方向共计41篇文章。[h2]检测(3篇)[/h2][1]:End-to-End Multi-View Fusion for 3D Object Detection in LiDAR Point Clouds
标题:激光雷达点云三维目标检测的端到端多视图融合
作者:Yin Zhou, Pei Sun, Yu Zhang, Dragomir Anguelov, Jiyang Gao, Tom Ouyang, James Guo, Jiquan Ngiam, Vijay Vasudevan
备注:CoRL2019
链接:https://arxiv.org/abs/1910.06528
摘要:最近在三维物体检测方面的工作提倡在鸟瞰视图中进行点云体素化,在这种视图中,物体保持其物理尺寸,并且是自然分离的。然而,当用这种观点表示时,点云是稀疏的,并且具有高度可变的点密度,这可能会导致探测器难以检测到远处或较小的物体(行人、交通标志等)。另一方面,透视图提供了密集的观察,这可以为此类情况提供更有利的特征编码。本文提出了一种新的端到端多视图融合(MVF)算法,该算法能有效地学习利用两者的互补信息。具体地说,我们介绍了动态体素化,它与现有的体素化方法相比有四个优点:一)消除了预先分配具有固定大小的张量的需要;②克服了由于随机点/体素丢失引起的信息损失;(iii)产生确定的体素嵌入和更稳定的检测结果;iv)建立点和体素之间的双向关系,这为跨视点特征融合奠定了自然基础。通过采用动态体素化,提出的特征融合体系结构可以使每个点学习融合来自不同视图的上下文信息。MVF对点进行操作,可以自然地使用激光雷达点云扩展到其他方法。我们在最新发布的Waymo开放数据集和KITTI数据集上广泛评估了我们的MVF模型,并证明它比可比较的单视图点柱基线显著提高了检测精度。[2]:Building Damage Detection in Satellite Imagery Using Convolutional Neural Networks
标题:基于卷积神经网络的卫星图像建筑物损伤检测
作者:Joseph Z. Xu, Wenhan Lu, Zebo Li, Pranav Khaitan, Valeriya Zaytseva
链接:https://arxiv.org/abs/1910.06444
摘要:在从地震到武装冲突的各类灾害中,救援人员需要准确、及时的数据,如建筑物损坏和人口流离失所等,以便作出有效反应。遥感以前所未有的规模提供了这些数据,但从卫星图像中提取可操作的信息速度慢且劳动密集。在这项工作中,我们使用机器学习自动检测卫星图像中的建筑物损坏。我们比较了四种不同的卷积神经网络模型在2010年海地地震中检测受损建筑物的性能。我们还通过对不同灾难事件的模型进行培训和测试,量化这些模型对未来灾难的概括程度。[3]:Liver segmentation and metastases detection in MR images using convolutional neural networks
标题:卷积神经网络在MR图像肝脏分割和转移检测中的应用
作者:Marille J.A. Jansen, Hugo J. Kuijf, Maarten Niekel, Wouter B. Veldhuis, Frank J. Wessels, Max A. Viergever, Josien P.W. Pluim
链接:https://arxiv.org/abs/1910.06635
摘要:原发性肿瘤很可能在肝脏发生转移,早期发现这些转移对患者的预后至关重要。提出了一种基于卷积神经网络(CNN)的肝转移检测方法。首先,利用腹部动态对比增强(DCE)的六期MR图像自动分割肝脏。接下来,DCE-MR和弥散加权(DW)MR图像被用于肝内转移瘤的检测。与手工标注相比,肝脏分割的骰子相似度中值为0.95。转移瘤检测方法的灵敏度为99.8%,平均每张图像有2个假阳性。两种MR序列在双通道网络中的结合对肝转移瘤的检测具有重要价值。总之,可以获得高质量的肝脏分割,从而成功地检测出肝转移瘤。[h2]分割(6篇)[/h2][1]:SegSort: Segmentation by Discriminative Sorting of Segments
标题:SegSort:通过区分段排序来分割
作者:Jyh-Jing Hwang, Stella X. Yu, Jianbo Shi, Maxwell D. Collins, Tien-Ju Yang, Xiao Zhang, Liang-Chieh Chen
备注:In ICCV 2019. Webpage & Code:this https URL
链接:https://arxiv.org/abs/1910.06962
摘要:几乎所有现有的深度学习方法的语义分割解决这一任务作为像素的分类问题。然而,人类对场景的理解并不是基于像素,而是通过将其分解为感知的组和结构,这些组和结构是识别的基本组成部分。这促使我们提出一种端到端像素度量学习方法来模拟这一过程。在我们的方法中,最优的视觉表示确定了单个图像中的正确分割,并将图像中具有相同语义类的片段关联起来。因此,核心视觉学习问题是最大化片段内的相似性并最小化片段之间的相似性。给定一个这样训练的模型,通过提取像素级的嵌入和聚类来一致地进行推理,语义标签由注释集上最近邻的多数投票决定。因此,我们提出了SegSort,作为第一次尝试使用深度学习进行无监督的语义分割,实现了其监督对应的$76\%$性能。当监控可用时,SegSort显示出与基于像素级softmax训练的传统方法相比的一致性改进。此外,我们的方法可以产生更精确的边界和一致的区域预测。所提出的SegSort进一步产生了一个可解释的结果,因为每个标签的选择都可以从检索到的最近的段中容易地理解。[2]:Learning to Predict Layout-to-image Conditional Convolutions for Semantic Image Synthesis
标题:语义图像合成中布局预测的条件卷积学习
作者:Xihui Liu, Guojun Yin, Jing Shao, Xiaogang Wang, Hongsheng Li
备注:Code will be available soon atthis https URL
链接:https://arxiv.org/abs/1910.06809
摘要:语义图像合成的目的是从语义布局中生成真实感图像。先前的条件生成对抗网络(GAN)的方法显示了这项任务的最新性能,它要么将语义标签映射作为输入馈送给生成器,要么使用它们通过仿射变换来调节规范化层中的激活。我们认为,在生成图像时,生成器中的卷积核应该知道不同位置的不同语义标签。为了更好地利用图像生成器的语义布局,我们提出了基于语义标签映射的卷积核预测,从噪声映射中生成中间特征映射,并最终生成图像。此外,我们还提出了一种特征金字塔语义嵌入鉴别器,它比以往的多尺度鉴别器在增强生成图像和输入语义布局之间的细节和语义对齐方面更有效。我们在各种语义分割数据集的定量度量和主观评价上都取得了最新的结果,证明了我们的方法的有效性。[3]:Background Segmentation for Vehicle Re-Identification
标题:车辆再识别的背景分割
作者:Mingjie Wu, Yongfei Zhang, Tianyu Zhang, Wenqi Zhang
链接:https://arxiv.org/abs/1910.06613
摘要:车辆再识别(re id)是智能交通和视频监控领域的重要研究内容,以往的研究主要集中在从车辆的视觉外观中提取识别特征或利用视觉时空信息。车辆再识别中的背景干扰尚未此http URL实际的大尺度时空场景中,同一车辆通常出现在不同的背景中,而不同车辆可能出现在同一背景中,这将严重影响重新识别的性能。据我们所知,本文首先考虑了车辆再识别中的背景干扰问题。我们构建了一个车辆分割数据集,并开发了一个带有背景干扰消除(BIR)机制的车辆re-id框架,以提高车辆re-id在大规模时空场景中的性能和对复杂背景的鲁棒性。大量的实验证明了我们提出的框架的有效性,与最先进的车辆re-id算法相比,maP的平均增益为9%。[4]:Target-Oriented Deformation of Visual-Semantic Embedding Space
标题:面向目标的视觉语义嵌入空间变形
作者:Takashi Matsubara
备注:8 pages
链接:https://arxiv.org/abs/1910.06514
摘要:多模态嵌入是跨模态理解、数据挖掘和翻译的重要研究课题。许多研究试图从给定的实体中提取表示,并在共享的嵌入空间中对齐它们。然而,由于不同模式中的实体表现出不同的抽象层次和特定于模式的信息,因此不足以将相关实体紧密地嵌入到一起。在本研究中,我们提出目标导向变形网路(TOD Network),这是一个新的模组,它会在给定的条件下,不断地将嵌入空间变形成新的空间,从而调整实体之间的相似性。不同于基于跨模态注意的方法,TOD Net是应用于现有嵌入系统所学习的嵌入空间的后处理,并且提高了它们的检索性能。特别是,当与前沿模型相结合时,TOD Net获得了与mscoo数据集相关联的最先进的跨模式检索模型。定性分析表明,TOD网成功地强调实体特定的概念,并通过处理比现有模型更高级别的多样性来检索不同的目标。[5]:End-to-End Adversarial Shape Learning for Abdomen Organ Deep Segmentation
标题:腹部器官深度分割的端到端对抗性形状学习
作者:Jinzheng Cai, Yingda Xia, Dong Yang, Daguang Xu, Lin Yang, Holger Roth
备注:Accepted to International Workshop on Machine Learning in Medical Imaging (MLMI2019)
链接:https://arxiv.org/abs/1910.06474
摘要:利用医学影像自动分割腹部器官在临床工作流程中有许多潜在的应用。近年来,利用卷积神经网络(CNN)等深度学习模型实现了器官分割的最新研究成果。然而,传统的基于CNN的器官形状和拓扑的分割模型难以训练。在这项工作中,我们通过引入一种新的端到端形状学习架构——器官点网络来解决这个问题。它以深度学习特征为输入,以位于器官表面的点来生成器官形状表示。之后,我们提出了一个新的对抗性形状学习目标函数来优化点网络以更好地获取形状信息。我们以多任务的方式将点网络与基于CNN的分割模型结合起来训练,使得共享的网络参数可以从形状学习和分割任务中获益。我们用三个具有挑战性的腹部器官,包括肝脏、脾脏和胰腺来演示我们的方法。点网络生成具有细粒度细节的表面点,这对改进器官分割至关重要。因此,通过引入形状学习对深度分割模型进行了改进,因为在脾脏和胰腺分割中观察到了明显更好的骰子分数。[6]:FireNet: Real-time Segmentation of Fire Perimeter from Aerial Video
标题:FireNet:从空中视频实时分割火线
作者:Jigar Doshi, Dominic Garcia, Cliff Massey, Pablo Llueca, Nicolas Borensztein, Michael Baird, Matthew Cook, Devaki Raj
备注:Published at NeurIPS 2019; Workshop on Artificial Intelligence for Humanitarian Assistance and Disaster Response(AI+HADR 2019)
链接:https://arxiv.org/abs/1910.06407
摘要:在本文中,我们分享了从空中全运动红外视频中实时分割火周的方法。我们首先从人道主义援助和救灾的角度来描述这个问题。具体来说,我们解释了这个问题的重要性,它目前是如何解决的,以及我们的机器学习方法是如何改进它的。为了测试我们的模型,我们在领域专家的指导下注释了一个40万帧的大规模数据集。最后,我们分享了我们目前部署在生产中的方法,推理速度为每秒20帧,精度为92(F1分数)。[h2]分类、识别(5篇)[/h2][1]:Human Action Recognition with Multi-Laplacian Graph Convolutional Networks
标题:基于多Laplacian图卷积网络的人体动作识别
作者:Ahmed Mazari, Hichem Sahbi
链接:https://arxiv.org/abs/1910.06934
摘要:卷积神经网络在不同的模式识别问题上取得了巨大的成功。这些学习模型基本上是为了处理图像等矢量数据而设计的,但它们对非矢量和半结构化数据(即具有可变大小的图形、拓扑结构等)的扩展仍然是一个重大挑战,尽管目前正在出现一些有趣的解决方案。本文介绍了一种新的谱多重拉普拉斯图卷积网络MLGCN。这种方法的主要贡献在于一种新的设计原理,它将图拉普拉斯学习为其他基本拉普拉斯的凸组合,每个基本拉普拉斯都专用于输入图的特定拓扑。我们还引入了一种新的图上池算子,它分两步进行:上下文相关的节点扩展,然后是全局平均池;这两步过程的优点在于它能够在实现置换不变性的同时保持节点的区分能力。在SBU和UCF-101数据集上进行了实验,验证了该方法对具有挑战性的动作识别任务的有效性。[2]:A Compact Neural Architecture for Visual Place Recognition
标题:一种紧凑的视觉位置识别神经网络结构
作者:Marvin Chancán, Luis Hernandez-Nunez, Ajay Narendra, Andrew B. Barron, Michael Milford
备注:Submitted to RA-L with ICRA 2020 presentation option, 8 pages, 13 figures
链接:https://arxiv.org/abs/1910.06840
摘要:State-of-the-art algorithms for visual place recognition can be broadly split into two categories: computationally expensive deep-learning/image retrieval based techniques with minimal biological plausibility, and computationally cheap, biologically inspired models that yield poor performance in real-world environments. In this paper we present a new compact and high-performing system that bridges this divide for the first time. Our approach comprises two key components: FlyNet, a compact, sparse two-layer neural network inspired by fruit fly brain architectures, and a one-dimensional continuous attractor neural network (CANN). Our FlyNet+CANN network combines the compact pattern recognition capabilities of the FlyNet model with the powerful temporal filtering capabilities of an equally compact CANN, replicating entirely in a neural network implementation the functionality that yields high performance in algorithmic localization approaches like SeqSLAM. We evaluate our approach and compare it to three state-of-the-art methods on two benchmark real-world datasets with small viewpoint changes and extreme appearance variations including different times of day (afternoon to night) where it achieves an AUC performance of 87%, compared to 60% for Multi-Process Fusion, 46% for LoST-X and 1% for SeqSLAM, while being 6.5, 310, and 1.5 times faster respectively.[3]:Being the center of attention: A Person-Context CNN framework for Personality Recognition
标题:作为注意中心:一个人背景CNN人格识别框架
作者:Dario Dotti, Mirela Popa, Stylianos Asteriadis
链接:https://arxiv.org/abs/1910.06690
摘要:本文提出了一种利用不同场景的视频数据进行人格识别的新方法。我们的目标是将非言语行为线索与上下文信息结合起来,建立一个健壮的、多场景的人格识别系统。因此,我们建立了一个新的多流卷积神经网络框架(CNN),它考虑了多个信息源。从给定的场景中,我们从场景中的每个个体中提取时空运动描述符,编码社会群体动力学的时空运动描述符,以及用于编码与周围环境的交互的proxemics描述符。所有提出的描述子都映射到相同的特征空间,以便于整体学习。在两个公共数据集上的实验表明,联合建模的有效性,在两种不同的场景下,都优于当前的人格识别结果。最后,我们给出了每个人格特质的CNN类激活图,揭示了与人格特质相关的行为模式。[4]:Building Information Modeling and Classification by Visual Learning At A City Scale
标题:基于视觉学习的城市建筑信息建模与分类
作者:Qian Yu, Chaofeng Wang, Barbaros Cetiner, Stella X. Yu, Frank Mckenna, Ertugrul Taciroglu, Kincho H. Law
备注:33rd Conference on Neural Information Processing Systems (NeurIPS 2019), Vancouver, Canada
链接:https://arxiv.org/abs/1910.06391
摘要:在本文中,我们提供了两个案例来说明人工智能是如何赋予土木工程权力的。在第一个案例中,提出了一个机器学习辅助的城市建筑信息建模框架BRAILS。建筑信息模型(BIM)是描述建筑的一种有效方法,对建筑、工程和建筑都是必不可少的。该框架利用深度学习技术从卫星/街景图像中提取建筑物的视觉信息。此外,还提出了一种新的基于机器学习(ML)的统计工具SURF,用于发现构建元数据时的空间模式。
第二个案例是关于软层建筑分类的任务。软层建筑是一种在中、重度地震中容易倒塌的建筑类型。因此,在当前的防震工作中,识别和改造此类建筑物至关重要。针对这项任务,我们提出了一种基于深度学习的自动识别方法,用于从区域范围内的街景图像中识别软层建筑。我们还创建了一个大型建筑图像数据库和一个半自动图像标记方法,有效地注释新的数据库条目。通过大量的计算实验,证明了该方法的有效性。[5]:Quantifying Classification Uncertainty using Regularized Evidential Neural Networks
标题:基于正则化证据神经网络的分类不确定性量化
作者:Xujiang Zhao, Yuzhe Ou, Lance Kaplan, Feng Chen, Jin-Hee Cho
备注:Presented at AAAI FSS-19: Artificial Intelligence in Government and Public Sector, Arlington, Virginia, USA
链接:https://arxiv.org/abs/1910.06864
摘要:传统的深度神经网络(NNs)在各种应用中都表现出了最先进的分类性能。然而,NNs并没有考虑与类概率相关的任何类型的不确定性,以最小化现实生活中由于不确定性下的错误分类而导致的风险。与贝叶斯神经网络通过权值不确定性间接推断不确定性不同,最近有人提出证据神经网络(ENNs)来支持类概率不确定性的显式建模。它将神经网络的预测视为主观观点,并通过从数据中收集确定性神经网络导致这些观点的证据来学习其功能。然而,ENN被训练成一个黑匣子,没有明确考虑不同类型的固有数据不确定性,例如真空性(由于缺乏证据而产生的不确定性)或不一致性(由于相互冲突的证据而产生的不确定性)。本文提出了一种新的方法,称为{em正则化ENN},它基于与固有数据不确定性的不同特征相关的正则化来学习ENN。通过对合成数据集和真实数据集的实验,我们证明了所提出的正则化ENN能够更好地学习用于分类任务的类概率中不同类型不确定性的ENN模型。[h2]人体姿态估计、位姿估计(1篇)[/h2][1]:Trajectorylet-Net: a novel framework for pose prediction based on trajectorylet descriptors
标题:轨迹网:一种新的基于轨迹描述符的姿态预测框架
作者:Xiaoli Liu, Jianqin Yin, Jin Tang, Zhicheng Zhang
链接:https://arxiv.org/abs/1910.06583
摘要:姿态预测是计算机视觉和机器人学中一个越来越有趣的课题。在本文中,我们提出了一个新的网络,轨迹网,以预测未来的姿态。与大多数现有的方法相比,我们的模型侧重于建模共同出现的长期信息和时空相关性。特别地,引入了一种新的描述子Trajectorylet来描述输入姿态序列的静态和动态信息。然后,提出了一种时空耦合的学习模式来生成轨迹描述子,该描述子可以同时捕获人体的局部结构和输入序列的全局共现时间信息。最后,我们建议通过逐渐收集轨迹描述子来预测未来的姿势。大量实验表明,该方法在G3D和FNTU两个基准上都达到了最新的性能,证明了该方法的有效性。[h2]行为/动作识别、手势识别(3篇)[/h2][1]:Generating Human Action Videos by Coupling 3D Game Engines and Probabilistic Graphical Models
标题:三维游戏引擎与概率图形模型耦合生成人体动作视频
作者:César Roberto de Souza, Adrien Gaidon, Yohann Cabon, Naila Murray, Antonio Manuel López
备注:Pre-print of the article accepted for publication in the Special Issue on Generating Realistic Visual Data of Human Behavior of the International Journal of Computer Vision (IJCV). arXiv admin note: substantial text overlap witharXiv:1612.00881
链接:https://arxiv.org/abs/1910.06699
摘要:深部视频动作识别模型近年来取得了很大的成功,但需要大量的人工标注数据,获取成本高、难度大。在这项工作中,我们研究了用于视频动作识别的合成训练数据的生成,因为合成数据已经成功地用于监控各种其他计算机视觉任务的模型。我们提出了一个基于程序生成、物理模型和现代游戏引擎其他组件的可解释的人类动作视频参数生成模型。利用该模型,我们生成了一个多样的、真实的、物理上可信的人类动作视频数据集,称为“程序性人类动作视频”的PHAV。PHAV总共包含39982个视频,35个动作类别中的每一个都有1000多个例子。我们的视频生成方法不局限于现有的运动捕获序列:这35个类别中的14个是程序定义的合成动作。此外,每个视频用6种不同的数据模式表示,包括RGB、光流和像素级语义标签。这些模式几乎同时生成使用多渲染目标功能的现代GPU。为了利用PHAV,我们引入了一个深度多任务(即考虑多个数据集的动作类)表示学习架构,该架构能够同时从合成和真实视频数据集学习,即使它们的动作类别不同。我们在UCF-101和HMDB-51基准上的实验表明,将我们的大型合成视频集与小型真实数据集相结合可以提高识别性能。我们的方法也明显优于由微调最先进的无监督视频生成模型生成的视频表示。[2]:Seeing and Hearing Egocentric Actions: How Much Can We Learn?
标题:看和听以自我为中心的行为:我们能学到多少?
作者:Alejandro Cartas, Jordi Luque, Petia Radeva, Carlos Segura, Mariella Dimiccoli
备注:Accepted for the Fifth International Workshop on Egocentric Perception, Interaction and Computing (EPIC) at the International Conference on Computer Vision (ICCV) 2019
链接:https://arxiv.org/abs/1910.06693
摘要:我们与世界的互动是一种内在的多模态体验。然而,对人与物之间相互作用的理解历来都集中在单一的情态上。特别是,为实现这一目的,考虑将视听模式结合起来的作品数量有限。在这项工作中,我们提出了一个多模式的方法,以自我为中心的行动识别厨房环境,依赖于音频和视频信息。我们的模型将稀疏时间采样策略与音频、空间和时间流的后期融合结合起来。在EPIC Kitchens数据集上的实验结果表明,多模态集成比单模态方法有更好的性能。特别是,我们在动词分类方面比目前的水平提高了5.18%。[3]:Stereo-based Multi-motion Visual Odometry for Mobile Robots
标题:基于立体视觉的移动机器人多运动视觉里程测量
作者:Qing Zhao, Bin Luo, Yun Zhang
备注:5 pages, 5 figures
链接:https://arxiv.org/abs/1910.06607
摘要:随着计算机视觉的发展,视觉里程计被越来越多的移动机器人所采用。然而,我们发现,机器人不仅要有自己的姿态,而且其他运动物体的姿态也对机器人的决策至关重要。此外,当一个重要的运动物体出现时,视觉里程计会受到很大的干扰。本文提出了一种基于立体视觉的多运动视觉里程测量方法来获取机器人和其他运动物体的姿态。为了同时获得姿态信息,在传统的视觉里程测量流水线中引入了连续运动分割模块和坐标转换模块。因此,可以获取所有运动物体的姿态,并将其转换为地面坐标系。实验结果表明,提出的多运动视觉里程表能有效地消除运动物体对视觉里程表的影响,并能实现每个运动物体位置10cm,方向3°RMSE(均方根误差)。[h2]时序动作检测、视频相关(2篇)[/h2][1]:Tiny Video Networks
标题:微型视频网络
作者:AJ Piergiovanni, Anelia Angelova, Michael S. Ryoo
链接:https://arxiv.org/abs/1910.06961
摘要:视频理解是一个具有挑战性的问题,它对自主主体在现实世界中的工作能力有很大的影响。然而,到目前为止,解决方案都是计算密集型的,最快的算法在强大的GPU上每段视频运行超过半秒。我们提出了一种新的视频架构学习思想-微型视频网络-自动设计高效的视频理解模型。微型视频模型在CPU上以低至37毫秒的速度运行,在标准GPU上以低至10毫秒的速度运行。[2]:Integrating Temporal and Spatial Attentions for VATEX Video Captioning Challenge 2019
标题:整合时空关注,迎接2019年VATEX视频字幕挑战
作者:Shizhe Chen, Yida Zhao, Yuqing Song, Qin Jin, Qi Wu
备注:ICCV 2019 VATEX challenge
链接:https://arxiv.org/abs/1910.06737
摘要:本文介绍了我们在VATEX视频字幕挑战中的模型。为了捕获视频中的多层次信息,我们提出将时间和空间两方面的注意结合起来进行视频字幕制作。时间注意模块侧重于全局动作移动,而空间注意模块则能够描述更细粒度的对象。考虑到这两类注意模块是互补的,因此我们通过一种后期融合策略来融合它们。该模型明显优于基线,在测试集上达到73.4苹果酒分数,在2019年VATEX视频字幕挑战排行榜上排名第二。[h2]Networks(5篇)[/h2][1]:Real-time monitoring of driver drowsiness on mobile platforms using 3D neural networks
标题:基于3D神经网络的移动平台驾驶员睡意实时监测
作者:Jasper S. Wijnands, Jason Thompson, Kerry A. Nice, Gideon D. P. A. Aschwanden, Mark Stevenson
备注:13 pages, 2 figures, 'Online First' version. For associated mp4 files, see journal website
链接:https://arxiv.org/abs/1910.06540
摘要:司机昏昏欲睡会增加撞车风险,每年都会造成严重的道路创伤。困倦感的检测方法已经得到了相当的重视,但是很少有研究在手机上实现一种检测方法。手机应用程序减少了对专业硬件的需求,因此能够在驾驶人群中经济高效地推广这项技术。虽然已经证明三维(3D)操作更适合时空特征学习,但目前的睡意检测方法通常使用基于帧的多步骤方法。然而,在计算上昂贵的技术在动作识别基准(如3D卷积、光流提取)上取得了优异的结果,为移动设备上实时、安全的关键应用创造了瓶颈。在这里,我们展示了如何将可分离的三维卷积与空间和时间信息的早期融合相结合,在高预测精度和实时推理要求之间取得平衡。特别是,当评估需要运动信息时(例如,当太阳镜遮住眼睛时),可以提高准确性。此外,一个定制的基于TensorFlow的智能手机应用程序展示了各种方法对推理时间的真实影响,并展示了基于样本外数据的实时监控的有效性,以提醒昏昏欲睡的驾驶员。我们的模型在ImageNet和动力学上进行了预训练,并在公开的驾驶员睡意检测数据集上进行了微调。对大型自然驾驶数据集进行微调可以进一步提高精度,以获得稳健的车内性能。总的来说,我们的研究是朝着实际的深度学习应用迈出的一步,有可能预防微睡眠和减少道路创伤。[2]:Restoration of marker occluded hematoxylin and eosin stained whole slide histology images using generative adversarial networks
标题:利用生成性对抗网络恢复苏木精和伊红染色的全玻片组织学图像
作者:Bairavi Venkatesh, Tosha Shah, Antong Chen, Soheil Ghafurian
链接:https://arxiv.org/abs/1910.06428
摘要:病理学家通常用标记物直接在玻片上标注组织的特定区域,如肿瘤。尽管在组织学全幻灯片数字化出现之前,这种做法是有帮助的,但由于数字病理成像技术的最新进展,它常常掩盖了与免疫肿瘤学日益相关的重要细节。目前的研究使用具有循环丢失的生成性对抗网络来移除这些注释,同时通过解决图像到图像的转换问题来保持组织的底层结构。我们使用标记墨水对我们的网络进行多达300张完整的幻灯片图像的训练,显示70%的校正后的图像块无法从最初未受污染的图像组织中区分给人类专家。当我们用一个深度残差网络替换人类专家时,这个部分增加了97%。通过计算图像梯度幅度之间的相关性,证明了该方法对原始图像的保真度。我们观察到在我们的数据集中,每张幻灯片有多达94000个细胞核复活,其中大部分位于组织边界。[3]:The Local Elasticity of Neural Networks
标题:神经网络的局部弹性
作者:Hangfeng He, Weijie J. Su
备注:11 pages
链接:https://arxiv.org/abs/1910.06943
摘要:本文提出了神经网络中的一种现象,我们称之为“局部弹性”。粗略地说,如果一个分类器在特征向量$\bx'$处的预测在通过(标记的)特征向量$\bx$处的随机梯度下降(在某种意义上是{dissimilar}到$\bx'$处)更新后,被认为是局部弹性的。通过对真实数据集和合成数据集的大量仿真,证明了这种现象在具有非线性激活函数的神经网络中依然存在,而在线性分类器中则没有发现这种现象。此外,我们还使用神经切线核{jacot2018neural}对局部弹性进行了几何解释。在局部弹性的基础上,我们得到了特征向量之间的成对相似性度量,该度量可以与$k$-均值一起用于聚类。聚类算法对MNIST和CIFAR-10数据集的有效性反过来证实了神经网络对真实数据的局部弹性假设。最后,我们讨论了局部弹性对深层神经网络几个有趣方面的启示。[4]:Neural Approximation of an Auto-Regressive Process through Confidence Guided Sampling
标题:自回归过程的神经逼近
作者:YoungJoon Yoo, Sanghyuk Chun, Sangdoo Yun, Jung-Woo Ha, Jaejun Yoo
链接:https://arxiv.org/abs/1910.06705
摘要:我们提出了一个通用的基于置信度的近似,可以插入并简化自回归生成过程,并证明了收敛性。我们首先假设未来样本的先验值可以用一个有效的预测器以独立和同分布(i.i.d.)的方式产生。在给定过去样本和未来先验的情况下,母AR模型可以对先验进行后处理,而伴随的置信预测器决定当前样本是否需要重采样。由于i.i.d.假设,后处理可以以并行方式更新每个样本,这显著加快了母模型的速度。在不同的数据域(包括序列和图像)上的实验表明,该方法能够在保持数据序列关系的同时,以较低的计算代价成功地捕获数据的复杂结构,生成有意义的未来样本。[5]:State of Compact Architecture Search For Deep Neural Networks
标题:深层神经网络的紧结构状态搜索
作者:Mohammad Javad Shafiee, Andrew Hryniowski, Francis Li, Zhong Qiu Lin, Alexander Wong
备注:6 pages
链接:https://arxiv.org/abs/1910.06466
摘要:设计紧凑的深层神经网络是使深层神经网络在现实世界中得到广泛应用的关键任务,特别是对于边缘和移动场景。由于人工设计紧凑型深层神经网络的耗时性和挑战性,近年来人们对自动搜索紧凑型网络结构的算法产生了极大的研究兴趣。一类特别有趣的紧凑型架构搜索算法是由基线网络架构指导的算法。这类算法被证明比非制导方法具有更高的计算效率。在这项研究中,我们通过对四种不同的最新紧凑结构搜索算法的理论和经验分析,探索了深层神经网络的紧凑结构搜索的现状:i)群套索正则化,ii)变分丢失,iii)变形网,以及iv)生成综合。我们基于许多不同的因素,如效率、有效性和可伸缩性,详细研究了这些方法。此外,还进行了实证评估,以比较这些紧凑型架构搜索算法在三个著名基准数据集上的效率。虽然这并不是一个详尽的探索,但我们希望这项研究能够帮助我们深入了解这一相对较新的研究领域在多样性和在建筑设计改进方面已经取得的实际成果方面的有趣状况。此外,希望这项研究将有助于推动对话朝着更深入的理论和经验理解的方向发展,研究界目前正站在紧凑型建筑的角度寻找深层神经网络,以及在利用这些方法进行操作使用方面的实际挑战和考虑。[h2]自动驾驶、SLAM、双目视觉、立体视觉(1篇)[/h2][1]:Multi-Frame GAN: Image Enhancement for Stereo Visual Odometry in Low Light
标题:多帧GAN:微光立体视觉里程计的图像增强
作者:Eunah Jung, Nan Yang, Daniel Cremers
备注:Accepted by the 3rd Conference on Robot Learning, Osaka, Japan (CoRL 2019). The first two authors contributed equally to this paper
链接:https://arxiv.org/abs/1910.06632
摘要:我们提出了多帧GAN(MFGAN)的概念,并证明了它在弱光条件下作为立体视觉里程计图像序列增强的潜力。我们的方法基于一个可逆的对抗网络,在不需要昂贵的成对数据集的情况下,将明亮照明场景的有益特征转移到弱照明的序列中。为了保持翻译序列的相干几何线索,提出了一种新的网络结构和基于光流估计的时间和立体一致性相结合的损失项。我们证明,增强序列提高了最新的基于特征的直接立体视觉里程测量方法在复杂光照下对合成和真实数据集的性能。我们还表明,在视觉里程计方面,MFGAN比其他最先进的图像增强和样式传输方法有很大的优势。[h2]数据集(1篇)[/h2][1]:Mitigating the Effect of Dataset Bias on Training Deep Models for Chest X-rays
标题:数据集偏差对胸部X射线深部模型训练的影响
作者:Yundong Zhang, Hang Wu, Huiye Liu, Li Tong, May D Wang
备注:9 pages, 4 figures
链接:https://arxiv.org/abs/1910.06745
摘要:深度学习在CAD(计算机辅助诊断)应用中,特别是生物医学成像分析中得到了极大的关注。我们分析了三个大规模的可公开获取的胸片数据集,发现诊断常见胸片疾病的深层模型的常规训练会受到数据集偏差的影响,导致在看不见的测试集上进行评估时性能严重下降。在这项工作中,我们将此问题定义为多源域泛化任务,并对处理数据集偏差做出了两个贡献:1。对经典的最大裕度损失函数进行了改进,使其更具一般性和光滑性;我们提出了一个新的训练框架MCT(multi-layer Cross-gradient training,多层交叉梯度训练),用于不可见数据的论证。实证研究表明,该方法显著提高了模型的泛化能力和对数据集偏差的鲁棒性。[h2]其他(14篇)[/h2][1]:DeepGCNs: Making GCNs Go as Deep as CNNs
标题:深度GCN:让GCN和CNN一样深入
作者:Guohao Li, Matthias Müller, Guocheng Qian, Itzel C. Delgadillo, Abdulellah Abualshour, Ali Thabet, Bernard Ghanem
备注:First two authors contributed equally. This work is a journal extension of our ICCV'19 paperarXiv:1904.03751
链接:https://arxiv.org/abs/1910.06849
摘要:卷积神经网络(CNNs)在解决目标分类与检测、语义分割、活动理解等多种计算机视觉任务方面取得了很大的成功。他们出色表现的一个关键促成因素是训练深度CNN的能力。尽管CNN在许多任务中取得了巨大的成功,但它在处理非欧几里德数据方面并不好,这在许多实际应用中非常普遍。图卷积网络(GCNs)提供了一种选择,允许非欧氏数据作为类似CNNs的神经网络的输入。虽然GCN已经取得了令人鼓舞的成果,但由于训练过程中梯度消失,它们目前仅限于2-4层的浅层架构。这项工作将诸如剩余/稠密连接和扩展卷积等概念从CNNs转移到GCNs,以便成功地训练非常深的GCNs。我们展示了在不同的数据集和任务中使用多达112层的深度GCNs的好处。具体来说,我们在点云上的部分分割和语义分割以及跨生物蛋白质-蛋白质相互作用(PPI)图的蛋白质功能节点分类方面取得了最新的性能。我们相信,这项工作中的见解将为今后对全球通信网络的研究开辟许多途径,并转移到本工作未探讨的进一步任务。此工作的源代码可用于Pythorch和Tensorflow,网址分别为此https URL和此https分别是URL。[2]:Learning Generalisable Omni-Scale Representations for Person Re-Identification
标题:学习泛化的人再认全尺度表示
作者:Kaiyang Zhou, Xiatian Zhu, Yongxin Yang, Andrea Cavallaro, Tao Xiang
备注:Extension of conference version:arXiv:1905.00953. Source code:this https URL
链接:https://arxiv.org/abs/1910.06827
摘要:有效的人员重新识别(re-id)模型应该学习特征表示,这些特征表示既有区别性,又能区分外观相似的人员,而且是可推广的,可以跨数据集部署而无需任何调整。在本文中,我们开发了新的CNN架构来解决这两个挑战。首先,我们提出了一个称为全尺度网络(OSNet)的CNN,它不仅可以捕捉不同的空间尺度,而且可以封装多个尺度的协同组合,即全尺度特征。基本构建块由多个卷积流组成,每个卷积流在一定的尺度上检测特征。对于全尺度特征学习,提出了一种统一的聚合门,将多尺度特征与信道权值动态融合。OSNet是轻量级的,因为它的构建块包含分解卷积。其次,为了改进通用特征学习,我们在OSNet中引入实例规范化(in)层来处理跨数据集的差异。此外,为了确定这些层在体系结构中的最佳位置,我们提出了一种有效的可微体系结构搜索算法。广泛的实验表明,在传统的相同数据集设置中,OSNet实现了最先进的性能,尽管比现有的Rid模型小得多。在更具挑战性和实用性的跨数据集设置中,OSNet击败了最新的无监督域自适应方法,而不需要任何目标数据来进行模型自适应。我们的代码和模型在这个https URL上发布。[3]:Cortical-inspired Wilson-Cowan-type equations for orientation-dependent contrast perception modelling
标题:皮层激发的Wilson-Cowan型方向相关对比知觉模型
作者:Marcelo Bertalmío, Luca Calatroni, Valentina Franceschi, Benedetta Franceschiello, Dario Prandi
备注:This is the extended invited journal version of the SSVM 2019 conference proceedingarXiv:1812.07425
链接:https://arxiv.org/abs/1910.06808
摘要:我们考虑了文献[9,6]中提出的进化模型来描述由周围方位引起的错觉对比知觉现象。首先,我们强调了它与广泛使用的Wilson-Cowan方程[48]的相似和不同之处,主要是在有效表示性质方面。然后,为了显式地对局部方向信息进行编码,我们利用了文献[20]中提出并在过去几年中大量用于解决几个图像处理问题的初级视觉皮层V1模型[24,38,28]。该模型能够同时描述同化和对比视觉偏差,主要的创新点在于它对局部图像方向的明确依赖。我们报告了一些数值试验,显示了模型解释特别是与方向相关的现象的能力,如光栅感应和一种改进的Poggendorff错觉。对于后一个例子,我们经验表明存在一组阈值参数区分从修复到感知型重建,描述长距离连接在不同的超列在初级视皮层。[4]:Depth Completion from Sparse LiDAR Data with Depth-Normal Constraints
标题:具有深度法向约束的稀疏激光雷达数据深度完成
作者:Yan Xu, Xinge Zhu, Jianping Shi, Guofeng Zhang, Hujun Bao, Hongsheng Li
备注:Accepted to ICCV 2019
链接:https://arxiv.org/abs/1910.06727
摘要:深度完成旨在从稀疏的深度测量中恢复密集的深度图。它对汽车的自主驾驶越来越重要,越来越受到视觉界的关注。大多数现有的方法直接训练网络学习从稀疏深度输入到密集深度图的映射,这在利用3D几何约束和处理实际传感器噪声方面有困难。本文提出了一个统一的CNN框架,它1)在扩散模块中模拟深度和表面法向之间的几何约束,2)预测稀疏激光雷达测量的置信度,以减轻噪声的影响,从而使深度完成规则化,提高对噪声的鲁棒性。具体来说,我们的编解码骨干同时预测表面法线、粗略深度和激光雷达输入的置信度,然后输入到我们的扩散细化模块中,以获得最终的完成结果。在KITTI深度完成数据集和NYU-Depth-V2数据集上的大量实验表明,我们的方法达到了最先进的性能。进一步的烧蚀研究和分析为该方法提供了更深入的见解,并证明了模型的泛化能力和稳定性。[5]:A Method to Generate Synthetically Warped Document Image
标题:一种综合变形文档图像的生成方法
作者:Arpan Garai, Samit Biswas, Sekhar Mandal, Bidyut. B. Chaudhuri
链接:https://arxiv.org/abs/1910.06621
摘要:数码相机拍摄的文档图像常常由于不同的相机角度或文档表面而扭曲变形。为了解决这种失真问题,需要一种稳健的技术。由于基准公共数据集的有限可用性,文档的脱蜡研究受到了限制。近年来,基于深度学习的方法被用来精确地解决问题。为了训练大多数的深层神经网络,需要大量的文档图像,而手工生成如此大量的文档图像是困难的。本文提出了一种从平铺扫描文档图像中生成合成扭曲图像的方法。它通过使用两个扭曲位置参数(WPP)和八个扭曲控制参数(WCP)计算每个像素位置的扭曲因子来完成。这些参数可以根据需要指定,具体取决于所需的扭曲。通过定性和定量的方法,将结果与相似的真实图像进行了比较。[6]:IMMVP: An Efficient Daytime and Nighttime On-Road Object Detector
标题:IMMVP:一种高效的昼夜道路目标检测系统
作者:Cheng-En Wu, Yi-Ming Chan, Chien-Hung Chen, Wen-Cheng Chen, Chu-Song Chen
链接:https://arxiv.org/abs/1910.06573
摘要:在各种光照条件下,很难检测到道路上的物体。为了提高分类器的质量,采用了三种技术。我们定义子类来分离白天和晚上的样本。然后我们跳过训练集中类似的样本,以防止过度拟合。借助于外部训练样本,提高了检测精度。为了检测边缘设备Nvidia Jetson TX2平台中的目标,我们使用了轻量级的resNet-18FPN作为主干特征提取器。FPN(feature Pyramid Network,特征金字塔网络)生成了在不同尺度上检测目标的良好特征。利用级联r-CNN技术,对边界盒进行迭代优化,以获得更好的结果。[7]:Exploring Overall Contextual Information for Image Captioning in Human-Like Cognitive Style
标题:探索类人认知方式中图像字幕的整体语境信息
作者:Hongwei Ge, Zehang Yan, Kai Zhang, Mingde Zhao, Liang Sun
备注:ICCV 2019
链接:https://arxiv.org/abs/1910.06475
摘要:图像字幕是将卷积神经网络(CNN)和长短期记忆(LSTM)相结合的编解码模型取得良好效果的研究热点。尽管取得了重大进展,但这些模型生成的句子与人类认知风格不同。现有的模型往往会产生一个完整的句子,从第一个单词到结束,而不考虑下列单词对整个句子生成的影响。本文探讨了一种类人的认知方式,即对要描述的图像和要构造的句子建立整体认知,以增强计算机对图像的理解。本文首先提出了一种双向LSTMs(MaBi-LSTMs)的互助网络结构,用于获取全局上下文信息。在训练过程中,前向和后向LSTMs以互补的方式同时构造整个句子,将后继词和前向词编码成各自的隐藏状态。在字幕过程中,LSTM隐式地利用隐藏状态中包含的后续语义信息。事实上,MaBi-LSTMs可以在正向和反向生成两个句子。为了弥补跨域模型之间的差距,生成质量更高的句子,我们进一步开发了跨模态注意机制,通过融合句子的显著部分和图像的显著区域来修饰句子。在microsoftcoo数据集上的实验结果表明,该模型提高了编译码模型的性能,取得了最新的结果。[8]:Tell-the-difference: Fine-grained Visual Descriptor via a Discriminating Referee
标题:区别:通过一个有辨别力的裁判来描述细粒度的视觉描述
作者:Shuangjie Xu, Feng Xu, Yu Cheng, Pan Zhou
链接:https://arxiv.org/abs/1910.06426
摘要:本文研究了一个在自然语言中区分图像对的新问题。与以往的单一图像字幕方法相比,从两个独立的视觉信息中提取语言表示是一个挑战。为此,我们提出了一种有效的基于超卷积网络的编解码字幕框架。此外,本文还介绍了一系列新颖的特征融合技术,并提出了一个判别判断器来评价流水线的性能。由于缺乏合适的数据集来支持这项任务,我们使用Amazon Mechanical Turk(AMT)收集并注释了一个新的大型数据集,用于以成对方式生成标题(总共有14764个图像和26710个图像对)。数据集是相对差异标题任务中第一个提供免费语言描述的数据集。我们在两个现场数据集上评估了我们的模型的有效性,并在很大程度上优于最新方法。[9]:Deep learning for Aerosol Forecasting
标题:气溶胶预报的深度学习
作者:Caleb Hoyne, S. Karthik Mukkavilli, David Meger
备注:Machine Learning and the Physical Sciences Workshop at the 33rd Conference on Neural Information Processing Systems (NeurIPS 2019), Vancouver, Canada
链接:https://arxiv.org/abs/1910.06789
摘要:再分析数据集将数值物理模型和有限的观测数据结合起来,生成地球系统中变量的综合估计,容易对地面真实性产生偏差。美国宇航局现代研究和应用回顾分析第2版(MERRA-2)气溶胶光学深度(AOD)数据集与先前研究中的气溶胶机器人网络(AERONET)地面测量数据对比发现的偏差,推动了基于深度学习的全球AOD预测模型的发展。这项研究结合了卷积神经网络(CNN)和MERRA-2,对所有的航空网站点进行了测试。与仅使用MERRA-2再分析相比,新的基于CNN的混合模型提供了更好的估计值。[10]:Self Driving RC Car using Behavioral Cloning
标题:基于行为克隆的自动驾驶RC车
作者:Aliasgar Haji, Priyam Shah, Srinivas Bijoor
备注:4 pages, 8 figures
链接:https://arxiv.org/abs/1910.06734
摘要:自动驾驶汽车技术是一种无需人类传导就能自我引导的汽车。第一款真正意义上的自主汽车出现在20世纪80年代,由国防高级研究计划署(DARPA)资助。从那时起,随着计算机视觉和机器学习领域的进步,许多事情都发生了变化。我们利用行为克隆的概念,利用深度学习技术,将一辆普通的rc模型车转换成一辆自主车。[11]:SafeCritic: Collision-Aware Trajectory Prediction
标题:安全评论家:碰撞感知轨迹预测
作者:Tessa van der Heiden, Naveen Shankar Nagaraja, Christian Weiss, Efstratios Gavves
备注:To Appear as workshop paper for the British Machine Vision Conference (BMVC) 2019
链接:https://arxiv.org/abs/1910.06673
摘要:安全地驾驭复杂的城市环境是实现完全自治系统的关键。因此,预测行人和骑自行车者等弱势道路使用者的未来位置,近年来受到了广泛关注。虽然之前的工作已经解决了与静态(障碍)和动态(人类)环境代理的建模交互,但我们解决了轨迹预测方面的一个重要空白。我们提出了SafeCritic,一个协同生成性对抗网络生成多个“真实”轨迹和强化学习生成“安全”轨迹的模型。鉴别器根据生成的候选者是否与观察到的输入一致来评估它们。批评家网络是环境意识到修剪轨迹是在碰撞或违反环境。自动编码丢失可以稳定训练并防止模式崩溃。我们在两个大型数据集上展示了结果,与最新的数据集相比有了相当大的改进。我们也证明了批评家能够对轨道的安全性进行分类。[12]:Topological Navigation Graph
标题:拓扑导航图
作者:Povilas Daniusis, Shubham Juneja, Lukas Valatka, Linas Petkevicius
链接:https://arxiv.org/abs/1910.06658
摘要:在这篇文章中,我们着重讨论了反应式轨迹模拟控制器在目标导向移动机器人导航中的应用。我们提出了一个拓扑导航图(TNG),这是一个基于模拟学习的框架,用于在具有相交轨迹的环境中导航。TNG框架将环境表示为由深层神经网络组成的有向图。图的每个顶点对应一个轨迹,并由轨迹识别分类器和轨迹模拟控制器表示。对于轨迹跟踪,我们提出了一种新的神经对象检测结构。TNG的边缘对应于轨迹之间的交点,并且都由分类器表示。我们在模拟和真实环境中对所提出的导航框架及其组件进行了实证评估,证明TNG允许我们使用非目标定向、模拟学习方法进行目标定向自主导航。[13]:Training CNNs faster with Dynamic Input and Kernel Downsampling
标题:利用动态输入和核降采样快速训练CNNs
作者:Zissis Poulos, Ali Nouri, Andreas Moshovos
备注:12 pages, 4 figures
链接:https://arxiv.org/abs/1910.06548
摘要:在卷积网络(CNNs)中,我们使用一种方法来减少训练时间,这种方法对于一些小批量:a)通过下采样来降低输入图像的分辨率,b)通过在卷积滤波器上汇集来减少前向通过操作。训练是以交错的方式进行的;有些批次使用原始网络参数进行常规的前向和后向传播传递,而另一些批次则使用共用滤波器和下采样输入进行前向传递。由于池是可微的,因此池过滤器的梯度会传播到原始网络参数以进行标准参数更新。后一阶段需要较少的浮点运算和较少的存储,因为特征映射和过滤器中的空间维度减少了。关键的想法是,这个阶段导致更小的和近似的更新,因此学习速度较慢,但在显著降低的成本,其次是通过使用原始网络参数作为细化阶段。决定下映射发生的频率和批次可以是随机的,也可以是确定的,并且可以定义为训练超参数本身。在残差结构上的实验表明,在保证验证精度的前提下,我们可以减少23%的训练时间。[14]:Real-time Data Driven Precision Estimator for RAVEN-II Surgical Robot End Effector Position
标题:RAVEN-II手术机器人末端执行器位置的实时数据驱动精度估计
作者:Haonan Peng, Xingjian Yang, Yun-Hsuan Su, Blake Hannaford
备注:6 pages, 10 figures, ICRA2020(under review)
链接:https://arxiv.org/abs/1910.06425
摘要:手术机器人由于其高灵敏度、小体积和遥控性,在过去几十年中被引入手术室。许多手术机器人的电缆驱动特性使系统灵巧轻便,直径低至5毫米。然而,由于缆绳的松弛和拉长以及齿轮的齿隙,不可避免地存在不确定性。由于所报告的手术机器人(如RAVEN-II)的末端执行器位置是使用电机编码器测量和正向运动学直接计算的,因此它可能包含相当大的误差,最大可达10毫米,而腹部手术中引入的半自主功能要求位置误差不超过1毫米。为了解决这一问题,提出了一种经济、实时、数据驱动的机器人末端执行器位置精度估计流水线,并在RAVEN-II上进行了测试。分析表明,在没有高分辨率运动跟踪器的情况下,末端执行器在整个机器人工作空间中的位置误差得到了改善,约为1mm RMS。中文来自机器翻译,仅供参考。
扫描二维码
获取更多精彩
arXiv Daily |
|