[ECCV2020]论文翻译:Character Region Attention For Text Spotting

作者&投稿：莘国（若有异议请与网页底部的电邮联系）

场景文本检测器由文本检测和识别模块组成。已经进行了许多研究，以将这些模块统一为端到端的可训练模型，以实现更好的性能。典型的结构将检测和识别模块放置在单独的分支中，并且RoI pooling通常用于让分支共享视觉特征。然而，当采用识别器时，仍然有机会在模块之间建立更互补的连接，该识别器使用基于注意力的解码器和检测器来表示字符区域的空间信息。这是可能的，因为两个模块共享一个共同的子任务，该任务将查找字符区域的位置。基于这些见解，我们构建了紧密耦合的单管道模型。通过使用检测输出作为识别器输入,并在检测阶段传播识别损失来形成此结构。字符得分图的使用有助于识别器更好地关注字符中心点，并且识别损失传播到检测器模块会增强字符区域的定位。此外，增强的共享阶段允许对任意形状的文本区域进行特征校正和边界定位。大量实验证明了公开提供的直线和曲线基准数据集的最新性能。

场景文本定位，包括文本检测和识别，由于在即时翻译，图像检索和场景解析中的各种应用，最近引起了广泛的关注。尽管现有的文本检测器和识别器在水平文本上很有效，但是在场景图像中发现弯曲的文本实例时，仍然是一个挑战。

为了在图像中发现弯曲的文本，一种经典的方法是将现有的检测和识别模型进行级联，以管理每一侧的文本实例。检测器[32、31、2]尝试通过应用复杂的后处理技术来捕获弯曲文本的几何属性，而识别器则应用多向编码[6]或采用修正模块[37、46、11]来增强弯曲文本上识别器的准确性。

随着深度学习的发展，已经进行了将检测器和识别器组合成可共同训练的端到端网络的研究[14，29]。拥有统一的模型不仅可以提高模型的尺寸效率和速度，还可以帮助模型学习共享功能，从而提高整体性能。为了从该属性中受益，还尝试使用端到端模型[32、34、10、44]处理弯曲文本实例。但是，大多数现有的工作仅采用RoI pooling 在检测和识别分支之间共享底层特征。在训练阶段，不是训练整个网络，而是使用检测和识别损失来训练共享特征层。

如图1所示，我们提出了一种新颖的端到端字符区域注意文本定位模型，称为CRAFTS。而不是将检测和识别模块隔离在两个单独的分支中，我们通过在模块之间建立互补连接来建立一个单一的pipline。我们观察到，使用基于注意力的解码器的识别器[1]和封装字符空间信息的检测器[2]共享一个公用的子任务，该子任务用于定位字符区域。通过将两个模块紧密集成，检测级的输出可帮助识别器更好地识别字符中心点，并且从识别器传播到检测器级的损失会增强字符区域的定位。而且，网络能够使在公共子任务中使用的特征表示的质量最大化。据我们所知，这是构建紧密耦合损失的首个端到端工作。
我们的贡献总结如下:
（1）我们提出了一种可以检测和识别任意形状的文本的端到端网络。
（2）通过利用来自修正和识别模块上检测器的空间字符信息，我们在模块之间构造互补关系。
（3）通过在整个网络的所有特征中传播识别损失来建立单个pipline。
（4）我们在包含大量水平，弯曲和多语言文本的IC13，IC15，IC19-MLT和TotalText [20、19、33、7]数据集中实现了最先进的性能。

文本检测和识别方法
检测网络使用基于回归的[16、24、25、48]或基于分割的[9、31、43、45]方法来生成文本边界框。诸如[17，26，47]之类的一些最新方法将Mask-RCNN [13]作为基础网络，并通过采用多任务学习从回归和分割方法中获得了优势。就文本检测的单元而言，所有方法还可以依赖单词级别或字符级别[16，2]预测的使用进行子分类。

文本识别器通常采用基于CNN的特征提取器和基于RNN的序列生成器，并按其序列生成器进行分类。连接主义的时间分类（CTC）[35]和基于注意力的顺序解码器[21、36]。 检测模型提供了文本区域的信息，但是对于识别器而言，要提取任意形状的文本中的有用信息仍然是一个挑战。 为了帮助识别网络处理不规则文本，一些研究[36、28、37]利用 空间变换器网络（STN） [18]。而且，论文[11，46]通过迭代执行修正方法进一步扩展了STN的使用。这些研究表明，递归运行STN有助于识别器提取极端弯曲文本中的有用特征。在[27]中，提出了循环RoIWarp层, 在识别单个字符之前对其进行裁剪。这项工作证明，找到字符区域的任务与基于注意力的解码器中使用的注意力机制密切相关。

构造文本定位模型的一种方法是依次放置检测和识别网络。众所周知的两阶段结构将TextBox ++ [24]检测器和CRNN [35]识别器耦合在一起。简单来说，该方法取得了良好的效果。

端到端的使用基于RNN的识别器
EAA [14]和FOTS [29]是基于EAST检测器[49]的端到端模型。这两个网络之间的区别在于识别器。 FOTS模型使用CTC解码器[35]，而EAA模型使用注意力解码器[36]。两项工作都实现了仿射变换层来合并共享功能。提出的仿射变换在水平文本上效果很好，但在处理任意形状的文本时显示出局限性。 TextNet [42]提出了一种在特征池化层中具有透视RoI变换的空间感知文本识别器, 网络保留RNN层以识别2D特征图中的文本序列，但是由于缺乏表现力的四边形，在检测弯曲文本时，网络仍然显示出局限性。

Qin等[34]提出了一种基于Mask-RCNN [13]的端到端网络。给定box proposals，从共享层合并特征，并使用ROI遮罩层过滤掉背景杂波。提出的方法通过确保注意力仅在文本区域中来提高其性能。Busta等提出了Deep TextSpotter [3]网络，并在E2E-MLT [4]中扩展了他们的工作。该网络由基于FPN的检测器和基于CTC的识别器组成。该模型以端到端的方式预测多种语言。

端到端的使用基于CNN的识别器
在处理任意形状的文本时，大多数基于CNN的模型在识别字符级文本都具有优势。 MaskTextSpotter [32]是使用分割方法识别文本的模型。尽管它在检测和识别单个字符方面具有优势， 但由于通常不会在公共数据集中提供字符级别的注释，因此很难训练网络。 CharNet [44]是另一种基于分割的方法，可以进行字符级预测。该模型以弱监督的方式进行训练，以克服缺乏字符级注释的问题。在训练期间，该方法执行迭代字符检测以创建伪ground-truths。

尽管基于分割的识别器已经取得了巨大的成功，但是当目标字符的数量增加时，该方法会受到影响。随着字符集数量的增加，基于分割的模型需要更多的输出通道，这增加了内存需求。journal版本的MaskTextSpotter [23]扩展了字符集以处理多种语言，但是作者添加了基于RNN的解码器，而不是使用他们最初提出的基于CNN的识别器。 基于分割的识别器的另一个限制是识别分支中缺少上下文信息。 由于缺少像RNN这样的顺序建模，在嘈杂的图像下，模型的准确性下降。

TextDragon [10]是另一种基于分割的方法，用于定位和识别文本实例。但是， 不能保证预测的字符段会覆盖单个字符区域。为了解决该问题，该模型合并了CTC来删除重叠字符。 该网络显示出良好的检测性能，但是由于缺少顺序建模而在识别器中显示出局限性。

由于CRAFT检测器[2]具有表示字符区域语义信息的能力，因此被选作基础网络。 CRAFT网络的输出表示字符区域以及它们之间的连接的中心概率。由于两个模块的目标是定位字符的中心位置，我们设想此字符居中信息可用于支持识别器中的注意模块。 在这项工作中，我们对原始的CRAFT模型进行了三处更改；骨干替换，连接表示和方向估计。

骨干置换
最近的研究表明，使用ResNet50可以捕获检测器和识别器定义的明确的特征表示[30，1]。因此，我们将骨干网络由VGG-16 [40]换成ResNet50 [15]。

连接表示
垂直文本在拉丁文本中并不常见，但是在东亚语言（例如中文，日语和韩语）中经常出现。在这项工作中，使用二进制中心线连接顺序字符区域。进行此改变的原因是，在垂直文本上使用原始的亲和力图经常会产生不适定的透视变换，从而生成无效的框坐标。为了生成 ground truth连接图，在相邻字符之间绘制一条粗细为t的线段。这里，t ＝ max（（d 1 + d 2）/ 2 *α，1），其中d 1和d 2是相邻字符盒的对角线长度，α是缩放系数。使用该方程式可使中心线的宽度与字符的大小成比例。我们在实现中将α设置为0.1。

方向估计
重要的是获取文本框的正确方向，因为识别阶段需要定义明确的框坐标才能正确识别文本。为此，我们在检测阶段增加了两个通道的输出,通道用于预测字符沿x轴和y轴的角度。为了生成定向图的 ground truth.

共享阶段包括两个模块：文本纠正模块和字符区域注意力（ character region attention: CRA）模块。为了纠正任意形状的文本区域，使用了薄板样条（thin-plate spline:TPS）[37]转换。受[46]的启发，我们的纠正模块结合了迭代式TPS，以更好地表示文本区域。通过有吸引力地更新控制点，可以改善图像中文本的弯曲几何形状。 通过实证研究，我们发现三个TPS迭代足以校正。

典型的TPS模块将单词图像作为输入，但是我们提供了字符区域图和连接图，因为它们封装了文本区域的几何信息。我们使用二十个控制点来紧密覆盖弯曲的文本区域。为了将这些控制点用作检测结果，将它们转换为原始输入图像坐标。我们可以选择执行2D多项式拟合以平滑边界多边形。迭代TPS和最终平滑多边形输出的示例如图4所示。

识别阶段的模块是根据[1]中报告的结果形成的。识别阶段包含三个组件：特征提取，序列建模和预测。由于特征提取模块采用高级语义特征作为输入，因此它比单独的识别器更轻便。

表1中显示了特征提取模块的详细架构。提取特征后，将双向LSTM应用于序列建模，然后基于注意力的解码器进行最终文本预测。

在每个时间步，基于注意力的识别器都会通过屏蔽对特征的注意力输出来解码文本信息。尽管注意力模块在大多数情况下都能很好地工作，但是当注意点未对齐或消失时，它无法预测字符[5，14]。图5显示了使用CRA模块的效果。适当放置的注意点可以进行可靠的文本预测。

用于训练的最终损失L由检测损失和识别损失组成，取L = Ldet + Lreg。识别损失的总体流程如图6所示。损失在识别阶段流经权重，并通过字符区域注意模块传播到检测阶段。
另一方面，检测损失被用作中间损失，因此使用检测和识别损失来更新检测阶段之前的权重。

English datasets IC13 [20]数据集由高分辨率图像组成，229张图像用于训练和233张图像用于测试。矩形框用于注释单词级文本实例。 IC15 [20]包含1000个训练图像和500个测试图像。四边形框用于注释单词级文本实例。 TotalText [7]
拥有1255个训练图像和300张测试图像。与IC13和IC15数据集不同，它包含弯曲的文本实例，并使用多边形点进行注释。

Multi-language dataset IC19 [33]数据集包含10,000个训练和10,000个测试图像。数据集包含7种不同语言的文本，并使用四边形点进行注释。

我们联合训练CRAFTS模型中的检测器和识别器。为了训练检测阶段，我们遵循[2]中描述的弱监督训练方法。通过在每个图像中进行批随机采样的裁剪单词特征来计算识别损失。每个图像的最大单词数设置为16，以防止出现内存不足错误。检测器中的数据增强应用了诸如裁剪，旋转和颜色变化之类的技术。对于识别器来说，ground truth框的角点在框的较短长度的0％到10％之间的范围内受到干扰。

该模型首先在SynthText数据集[12]上进行了50k迭代训练，然后我们进一步在目标数据集上训练了网络。使用Adam优化器，并应用在线困难样本挖掘On-line Hard Negative Mining(OHEM) [39]来在检测损失中强制使用正负像素的1：3比例。微调模型时，SynthText数据集以1：5的比例混合。我们采用94个字符来覆盖字母，数字和特殊字符，对于多语言数据集则采用4267个字符。

水平数据集（IC13，IC15）
为了达到IC13基准，我们采用在SynthText数据集上训练的模型，并在IC13和IC19数据集进行微调。在;推理过程中，我们将输入的较长边调整为1280。
结果表明，与以前的最新技术相比，性能显着提高。

然后在IC15数据集上对在IC13数据集上训练的模型进行微调。在评估过程中，模型的输入大小设置为2560x1440。请注意，我们在没有通用词汇集的情况下执行通用评估。表2中列出了IC13和IC15数据集的定量结果。

使用热图来说明字符区域图和连接图，并且在HSV颜色空间中可视化了加权的像素角度值。
如图所示，网络成功定位了多边形区域并识别了弯曲文本区域中的字符。左上角的两个图显示成功识别了完全旋转和高度弯曲的文本实例。

由字符区域注意辅助的注意力
在本节中，我们将通过训练没有CRA的单独网络来研究字符区域注意（CRA）如何影响识别器的性能。

表5显示了在基准数据集上使用CRA的效果。没有CRA，我们观察到在所有数据集上性能均下降。特别是在远景数据集（IC15）和弯曲数据集（TotalText）上，我们观察到与水平数据集（IC13）相比，差距更大。这意味着在处理不规则文本时，送入字符注意力信息可以提高识别器的性能。(?表格中的实验数据是对远景文本更有效,不知道这个结论如何得出来的?)

方向估计的重要性
方向估计很重要，因为场景文本图像中有许多多方向文本。我们的逐像素平均方案对于识别器接收定义良好的特征非常有用。当不使用方向信息时，我们比较模型的结果。在IC15数据集上，性能从74.9％下降到74.1％（-0.8％），在TotalText数据集上，h-mean值从78.7％下降到77.5％（-1.2％）。 结果表明，使用正确的角度信息可以提高旋转文本的性能。

推理速度
由于推理速度随输入图像大小而变化，因此我们在不同的输入分辨率下测量FPS，每个分辨率的较长边分别为960、1280、1600和2560。测试结果得出的FPS分别为9.9、8.3、6.8和5.4。对于所有实验，我们使用Nvidia P40 GPU和Intel®Xeon®CPU。与基于VGG的CRAFT检测器的8.6 FPS [2]相比，基于ResNet的CRAFTS网络在相同大小的输入上可获得更高的FPS。而且，直接使用来自修正模块的控制点可以减轻对多边形生成进行后期处理的需要。

粒度差异问题
我们假设 ground-truth与预测框之间的粒度差异导致IC15数据集的检测性能相对较低。 字符级分割方法倾向于基于空间和颜色提示来概括字符连接性，而不是捕获单词实例的全部特征。 因此，输出不遵循基准测试要求的框的注释样式。图9显示了IC15数据集中的失败案例，这证明了当我们观察到可接受的定性结果时，检测结果被标记为不正确。

在本文中，我们提出了一种将检测和识别模块紧密耦合的端到端可训练单管道模型。共享阶段中的字符区域注意力充分利用了字符区域图，以帮助识别器纠正和更好地参与文本区域。此外，我们设计了识别损失通过在检测阶段传播并增强了检测器的字符定位能力。此外，共享阶段的修正模块可以对弯曲的文本进行精细定位，并且无需开发手工后期处理。实验结果验证了CRAFTS在各种数据集上的最新性能。

ECCV 2020 目标检测论文大盘点(49篇论文)
计算机视觉Daily团队启动了对ECCV 2020的全面论文梳理，本文作为系列的第一部分，聚焦于2D目标检测的各个方面，如端到端检测、旋转目标检测、视频目标检测、弱监督和域适应等。论文亮点包括DETR，它利用Transformer进行端到端目标检测；BorderDet，通过边界特征提升密集对象检测的精确度；以及Corner Proposal Netwo...

ECCV2020论文DeepSFM介绍
在ECCV2020会议上，一篇名为“DeepSFM: Structure From Motion Via Deep Bundle Adjustment”的论文引起了广泛关注，该论文由谷歌、Nuro和复旦大学的研究人员共同完成。DeepSFM的方法灵感来源于传统的Bundle Adjustment (BA)技术，通过深度学习模型引入两个cost volume，分别对应于深度图估计和姿态估计。系统框图...

DETR系列大盘点|端到端Transformer目标检测算法汇总
Transformer在计算机视觉领域的革新引领了目标检测算法的革新，我们来一起梳理几种基于Transformer的端到端检测方法：DETR基础DETR（ECCV2020），作为Transformer检测的开山之作，通过全局集预测和二分匹配简化了检测流程，虽然在COCO上表现良好，但训练时间较长。它以CNN主干和Transformer编码器-解码器架构为核心...

[ECCV2020]论文翻译:Character Region Attention For Text Spotting_百 ...
(3)通过在整个网络的所有特征中传播识别损失来建立单个pipline。 (4)我们在包含大量水平,弯曲和多语言文本的IC13,IC15,IC19-MLT和TotalText [20、19、33、7]数据集中实现了最先进的性能。文本检测和识别方法检测网络使用基于回归的[16、24、25、48]或基于分割的[9、31、43、45]方法来生成文本边界框。诸...

eccv作为研究基础行不行
eccv作为研究基础行ECCV(欧洲计算机视觉大会)虽然竞争加剧，接收率不断降低，百度AI的ECCV 2020之行依然取得骄人战绩，共入选10篇论文，其中1篇Oral和1篇Spotlight论文，涵盖了自动驾驶识别&定位、声源定位&场景识别、目标跟踪、多模态&度量学习等众多领域，彰显了AI领军者的风范和深厚的技术底蕴以及持续创新...

GPT-3不算机器学习算法创新?2020年AI顶会最佳论文榜单引发激烈争论...
ECCV 2020最佳论文：RAFT RAFT提出了新的光流深度网络架构，通过提取每个像素的特征和为所有像素对建立多尺度的4D相关卷，迭代更新流场，实现了在KITTI和Sintel数据集上的性能提升，同时展示了跨数据集的泛化能力和高效的推理时间、训练速度和参数数量。ICRA 2020最佳论文：Preference-Based Learning for ...

基于感知能力的点云实例分割
孙裕道的论文《Instance-Aware Embedding for Point Cloud Instance Seg》在ECCV2020上发表，探讨了如何在三维点云中进行实例分割，以实现更精细的物体识别。该研究专注于通过实例感知模块提升实例分割的精度和效率，与传统方法相比有显著优势。论文主要贡献包括：提出了一种新的实例感知模块，有效编码了与实例...

...和CondConv得出的高效权值生成结构 | ECCV 2020
SENet将激活向量用于加权特征层，而CondConv则将激活向量用于加权候选卷积核参数。借鉴上面两种方法，WeightNet在激活向量后面添加一层分组全连接，直接产生卷积核的权值，在计算上十分高效，并且可通过超参数的设置来进行准确率和速度上的trade-off。。在全连接层中，原子是全部连接的...

NeRF代码解读-相机参数与坐标系变换
NeRF：Representing Scenes as Neural Radiance Fields for View Synthesis这篇论文因其在ECCV2020获得荣誉提名，成为研究热点。该论文通过神经辐射场（NeRF）实现场景图像的重建，并优化新视角合成效果。众多研究人员开始跟进这一领域，近两年涌现了大量改进和拓展工作。为何撰写本文？尽管网上有众多NeRF介绍文章...

eccv平均什么分可以过
eccv平均6分可以过。根据2020年11月12日发布的文章显示，ICLR2021初审结果在官网公布,eccv想被接收平均分要6分以上，才可以被接收，中稿概率才高。

化德县17679897434： SCI论文翻译 - ？
贸贤美素： 需要纯英文撰写的SCI论文对于许多科研人员而言是十分困难的.国内科研人员常见的写作方式便是先撰写中文论文而后再翻译成为英文.然后由专业的翻译公司进行翻译和润色,这样就大大增加了投稿的成功性.做好SCI论文翻译的关键就是一定要有相应的SCI翻译经验.因此,最好找专业的翻译公司.翻译达人上有很多的翻译人员,其中也有在SCI论文翻译、润色方面有着丰富经验的译员,帮助了不少科研人员成功地投稿.

化德县17679897434： 快速把英文论文翻译成中文的方法? - ？
贸贤美素： 如果要保证速度和质量的话,建议可以找我们专业的论文翻译译员.我们对于需要翻译的论文都会先确定论文所涉及到的领域,然后在该领域翻译组的译员中挑选专业强、翻译质量高的译员,确保论文翻译做到准确到位.

化德县17679897434： 已发表的中文论文能翻译成英文发表吗 - ？
贸贤美素： 已发表的中文论文能翻译成英文发表吗 Published Chinese papers can be translated into English

化德县17679897434： 怎么把中文论文翻译成英文? - ？
贸贤美素： The art of aesthetic value and evaluation, aesthetic evaluation of the utilitarian, aesthetic evaluation is the unity of objective and subjective, aesthetic experience has two distinctive characteristics of the human spirit is a kind of aesthetic activity to ...

化德县17679897434： 论文摘要翻译 - ？
贸贤美素： 论文包括中文摘要和英文摘要两个部分.至今没搞懂,为什么要在中文摘要的下面再做一个英文摘要,感觉就是为了逼格.那么翻译的时候可以采用直译法,对着中文字符一个一个译下去也未尝不可,毕竟摘要部分字数不多,出错概率会少很多.翻译达人,论文翻译、润色.遇到不懂的地方,可以直接查找资料、词典,句法时态这些也可以去请教你的老师或者同学.

化德县17679897434： 论文翻译要注意些什么 - ？
贸贤美素： 在论文翻译时要注意相关的内容格式、内容所表达的事项、技巧等等.一个符号可能所代表的意义就不一样,因此大家要将语句的意思以及作者的中心思想和所表达的事务进行掌握,对于论文翻译中的问题,大家可以来期刊目录网看看.

化德县17679897434： 中译英:请计算机专业的英语比较好的人帮忙翻译下论文摘要部分. - ？
贸贤美素： In recent years,with the rapid growing up of the Internet,it has been becoming the best way of colllecting and providing information,meanwhile,it gradually step into the traditional circulation domain.As a result,the e-business begins to be widely used,...

化德县17679897434： 论文题目翻译 - ？
贸贤美素： 首先我们先把题目里的每个单词翻译出来,这些单词均是CNKI翻译助手翻译的,CNKI翻译助手非常专业,每个词语的翻译均是各种论文中出现频率最高的那个词:奥运公园:Olympic Park 设计:Design OR Designing 传统:Traditional 山水画...

化德县17679897434： 论文翻译报价 - ？
贸贤美素： 正常的价格一般在200上下/每千中文字.如果论文字数较多,那么单价会在此基础上有一定比例的降低.论文严谨性较高,尤其是针对SCI等国际期刊,一定要确保质量.因此建议提前找翻译公司,给予充足的时间,由单一译员从头翻译到尾,以确保用词和逻辑的统一性.尽量不要加急处理.一旦加急处理,势必会有诸多译员共同完成一篇论文的翻译任务,前后逻辑较难统一,在一定程度上会影响文章的连贯和一致性.

化德县17679897434： 毕业论文英文翻译 - ？
贸贤美素： Principal Components Analysis 主成分分析 When a researcher is beginning to think about analyzing a new data set, several questions about the data should be considered. Important questions include these: (1) Are there any aspects of the data ...

你可能想看的相关专题

星空见康网

[ECCV2020]论文翻译:Character Region Attention For Text Spotting

你可能想看的相关专题