[Human Parsing] Papers
Human Parsing
一些主要矛盾:
- scale不同
- 降采样导致像素损失
常见的方法
- 联合姿态估计(关节什么的)
ATR
将人体图像分解为语义时尚/身体区域。作者将其表述为一种主动模板回归(ATR)问题,其中每个时尚/身体项的归一化掩码表示为学习的掩码模板的线性组合,然后通过包括每个语义区域的位置、比例和可见性的主动形状参数变形为更精确的掩码。掩码模板系数和主动形状参数共同可以生成人体解析结果,并因此称为人体解析的结构输出。深度卷积神经网络(CNN)用于构建输入人体图像和人体解析结构输出之间的端到端关系。更具体地说,结构输出由两个单独的网络预测。第一个CNN网络带有最大池化,并设计用于预测每个标签掩码的模板系数,而第二个网络没有最大池化以保留对标签掩码位置的敏感性并准确预测主动形状参数。对于新图像,两个网络的结构输出被融合以生成每个像素的每个标签的概率,最后使用超像素平滑来细化人体解析结果。在大型数据集上进行全面评估,充分证明了ATR框架相对于其他人体解析技术的显着优越性。特别是,我们的ATR框架通过F1分数达到64.38%,显着高于基于最先进算法[28]的44.76%

M-CNN
Matching-CNN Meets KNN: Quasi-Parametric Human Parsing是一篇关于人体解析的论文,由Si Liu等人在2015年发表于IEEE CVPR上。该论文提出了一种基于KNN的准参数人体解析框架,该框架利用Matching Convolutional Neural Network (M-CNN)来预测测试图像中与KNN图像中特定语义区域最佳匹配区域的匹配置信度和位移。该框架的目标是将传统的非参数方法和参数方法相结合,既能从注释数据中获得监督,又能灵活地使用新注释的数据。该论文在大型数据集上进行了全面评估,并证明了准参数模型相对于现有技术的显著性能提升

Co-CNN
该论文提出了一种新的Contextualized Convolutional Neural Network (Co-CNN)架构,该架构将跨层上下文、全局图像级上下文、超像素内部上下文和超像素交叉邻域上下文集成到一个统一的网络中,用于解决人体解析任务。Co-CNN能够在端到端的方式下对输入的人体图像进行像素级别的分类,并取得了优秀的性能

SCHP
该论文提出了一种名为Self-Correction for Human Parsing (SCHP)的噪声容忍方法,用于逐步提高监督标签和学习模型的可靠性和准确性。SCHP是一种模型无关的方法,可以应用于任何人体解析模型以进一步提高其性能

SLRS
该论文提出了一种名为Self-Learning with Rectification (SLR)的方法,用于解决人体解析任务中样本不足的问题。SLR方法通过自学习策略生成伪标签来重新训练模型,但直接使用噪声伪标签会导致误差放大和积累。因此,SLR方法引入了一种循环学习调度程序来推断更可靠的伪标签,并设计了一种去噪学习和半监督学习相结合的策略,以进一步提高模型性能


PCNet
PCNet方法主要由三个模块组成,包括部分类别模块、关系聚合模块和关系分散模块。其中,部分类别模块用于生成部分类别特定的特征图,关系聚合模块用于聚合全局和局部上下文信息,而关系分散模块则用于将全局和局部上下文信息分散到各个部位
AOG
该论文提出了一种名为Attribute And-Or Grammar (A-AOG)的模型,用于在带有属性的解析图中联合推断人体姿势和人体属性。与当前文献中其他流行方法训练单独的姿势和个体属性分类器不同,该模型将属性增强到分层表示中的节点中,从而实现了对人体姿势、部位和属性的联合解析
- Phrase structure grammar: 表示人体从整体到部分的层次分解
- Dependency grammar: 通过身体姿态的运动图来建模几何关节
- Attribute grammar: 考虑不同部分兼容性关系,使得他们遵循一致风格
PGN
不要检测部分了
两个部分:1) 语义部分分割,将每个像素分配为人类的一个部分(如脸部、手臂);2) 实例意识的边缘检测,将语义部分分成不同的人物实例
之后两者互相完善

MuLA
这篇论文提出了一种新的 Mutual Learning to Adapt 模型 (MuLA) 用于联合人体解析和姿态估计。它有效地利用了两个任务之间的相互利益,同时提高了它们的性能。与现有的后处理或基于多任务学习的方法不同,MuLA 通过反复利用其并行任务的指导信息来预测动态任务特定模型参数。因此,MuLA 可以快速适应解析和姿态模型,通过将其对应部分的信息纳入更强大的表示中,提供更强大、更健壮和更准确的结果。MuLA 是使用卷积神经网络实现的,并且是端到端可训练的。在基准 LIP 和扩展 PASCAL-Person-Part 上进行了全面实验,证明了所提出的 MuLA 模型具有优越的性能,优于现有的基准模型

HAZN
适应不同局部规模的物体或部分
HAZN是两个“Auto-Zoom Nets”的组合,使用FCN完成两个任务:
- 预测目标的位置和规模
- 为预测的目标区域估计部分分数
LG-LSTM

MH-Parser
MH-Parser使用新的Graph-GAN模型以自下而上的方式同时生成全局解析映射和人物实例掩码

不是很懂
SS-JPPNet(LIP)(SSL)
我们将关节结构损失作为分割损失的权重,分割损失成为我们的结构敏感损失。
\[
L_{Joint} = \frac{1}{2N}\sum_{i=1}^n||c_i^p-c_i^{gt}||_2^2 \\
L_{Structure} = L_{Joint}\cdot L_{Parsing}
\]
好奇怪,为什么损失函数是直接乘起来?
RefineNet
通用多路径优化网络,明确地利用下采样过程中的所有可用信息,使用远程残留连接实现高分辨率预测
引入了链式残差池化
比较图:

RefineNet:

Holistic, Instance-level Human Parsing
关于多人的

Cross-Domain Human Parsing via Adversarial Feature and Label Adaptation
我们提出了一种新的、高效的跨领域人类解析模型,以弥合跨领域在视觉外观和环境条件方面的差异,充分利用跨领域的共性。
To this end, we propose a novel and efficient cross-domain human parsing model to bridge the cross-domain differences in terms of visual appearance and environment conditions and fully exploit commonalities across domains.
什么是cross-domain? A: 似乎就是应用于情况不大一样的场景比如背景很不一样什么的
A discriminative feature adversarial network: 一个特征判别对抗网络,对特征补偿进行监督,减小了两个域特征分布的差异
A structured label adversarial network: 一个结构化标签对抗网络,引导目标域的分割结果遵循域间共享的结构化标签的高阶关系(???说人话)

呃呃,这篇文章完全不懂
JPPNet

MMAN
宏观-微观对抗网络
其中一个识别器Macro D作用于低分辨率的标签地图,并惩罚语义不一致,例如,错位的身体部位。另一个鉴别器Micro D侧重于高分辨率标签地图的多个补丁,以解决局部不一致性,如模糊和空洞
开源 https://github.com/RoyalVane/MMAN

NAN(MHP dataset)
NAN由三个类似生成对抗网络(Generative Adversarial Network, GAN)的子网组成,分别执行语义显著性预测、实例不可知解析和实例感知聚类。
NAN consists of three Generative Adversarial Network (GAN)-like sub-nets, respectively performing semantic saliency prediction, instance-agnostic parsing and instance-aware clustering.
这些子网形成了一个嵌套的结构,并经过精心设计,以端到端方式共同学习

(???)
CE2P
在本文中,我们确定了几个有用的属性,包括特征解析、全局上下文信息和边缘细节,并进行严格的分析,以揭示如何利用它们来帮助人工解析任务

我对边缘检测还不是很了解,不知道为什么可以这样
SPReID

JointMPE
共同解决姿势估计和语义部分分割
训练了两个FCN:Pose FCN and Part FCN提供对姿势关节和语义的初始估计。然后用fully-connected conditional random field(FCRF)来融合它们,这里面一个全新的语义-关节平滑操作被实施来提升两者的consistency。
为了refine part segments,被上面refine过后的东西被第二个part FCN融合。为了减小FCRF的complexity,引入了人体检测框加速。

CorrPM
人体的语义边缘和关键点位置如何共同提升human parsing
相比特征拼接,揭示相关性似乎更好
提出CorrPM来揭示这种相关性,使用heterogeneous non-local block 来从边缘、姿势和parsing的特征映射中揭示空间相关性
CDCL
我们提出的方法利用真实数据的丰富和真实变化,以及合成数据的易于获得的标签,在没有任何人类标注标签的情况下,学习对真实图像的多人部分分割。

DPC
用meta-learning(???)
跟deeplab有关系
SNT
一种树结构,multiple semantic sub-regions in a hierarchical way
然后用semnatic aggregation module 来 combine multiple hierarchical features

NPPNet
结合human parsing and pose estimation

CNIF-PRHP
分析三种相关的过程:
- direct inference
- bottom-up inference
- top-down inference
assimilating generic message-passing networks with their edge-typed, convolutional counterparts

BGNet
BGNet exploits the inherent hierarchical structure of a human body and the relationship of different human parts by means of grammar rules in both cascaded and paralleled manner.
We also design a Part-aware Convolutional Recurrent Neural Network (PCRNN) to pass messages which are generated by grammar rules.

GWNet
在前面那个上加了一个Wavelet Prediction Module

WSHP
pose 结构
transfer
