加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动!
 
    同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。关注 极市平台 公众号 ,回复 加群,立刻申请入群~
 
   
 
   
 
   
 
   来源: CSIG文档图像分析与识别专委会
 
   
 
   
 
    
    本文总结了2012年以来在场景文本检测领域的70篇代表性论文、21个常用数据集、15份开源代码,包含176个实验结果以及超过1300条统计信息。 
    Github资源链接见文末。 
    
    
   一、前言
 
   
 
    
    许多自然场景中包含着丰富的文本信息,对于理解自然场景图像有着十分重要的作用。 
    随着互联网和移动互联网技术飞速发展,许多新型的应用场景都需要利用自然场景中的丰富的文本信息,例如车牌检测和自动驾驶等。 
    场景文本的分析与处理越来越成为计算机视觉领域的研究热点之一。 
    
    
    
    OCR(Optical Character Recognition) , 光学字符识别,是指对输入的扫描文档图像进行分析处理,检测并识别出该图像当中的文本信息; 而自然场景中的文本,不同于传统的扫描图像,因其文字展现形式丰富,背景复杂,分辨率和亮度不一,容易受到环境噪声等因素的影响,使得对其的分析与处理难度远高于传统的扫描文档图像。 
    场景文本检测(Scene Text Detection),即准确定位自然场景中文本的位置,是场景文本分析与处理的基石。 
    近年来,随着深度学习的发展,场景文本检测取得了突破性的进展。 
    
    
   二、场景文本检测数据集
 
    
    
    本文总共整理了21个场景文本检测数据集,根据数据集的形式和应用场景可以按如下标准划分: 
    
   1.  Horizontal-Text Datasets:
 
    
    ICDAR 2003、 ICDAR 2011、ICDAR 2013; 
    
    
    2.  Arbitrary-Quadrilateral-Text Datasets:  
    
 
    
    
    USTB-SV1K、SVT、SVT-P、ICDAR 2015、COCO-Text、MSRA-TD500、MLT 2017、MLT 2019、CTW、RCTW-17、ReCTS; 
    
    
    3.  Irregular-Text Datasets:  
     
    
    
    CUTE80、Total-Text、SCUT-CTW1500、LSVT、ArT; 
      
    
    
    
   详细对比内容如表1所示,其中包括语种、图片以及文本数量(训练/测试)、标注类型等,更多内容详见资源链接。
 
   
 
   表1 场景文本检测数据集对比
 
   
 
   ![]()
 
    
   三、场景文本检测方法总结
 
    
    本小节整理并对比了场景文本检测中70篇重要论文(发表于TPAMI、TIP等期刊以及CVPR,ICCV等CCF A类会议),对比内容包括代码是否开源、方法分类、适用场景、出处、时间以及创新点等。 
    
 
    
    
   本文将场景文本检测方法分为四类:
 
   
 
   (a) Traditional methods;
 
   
 
   (b) Segmentation-based methods;
 
   
 
   (c) Regression-based methods;
 
   
 
   (d) Hybrid methods.
 
    
    
    详细对比见表2-5以及资源链接。 
    注: 
    表格中Hori,Quad和Irreg分别代表水平文本,任意四边形文本以及不规则文本。 
    
    
    
    
   表2 传统场景文本检测方法对比
 
   
 
   ![]()
 
   
 
   2. Segmentation-based methods
 
   
 
   表3 基于分割的场景文本检测方法对比
 
   
 
    
    
    
     3. Regression-based methods 
     
    
    
   表4 基于回归的场景文本检测方法对比
 
   
 
    
   
 
   4. Hybrid methods
 
   
 
   表5 场景文本检测的集成方法对比 
 
   
 
   ![]()
 
    
   四、场景文本检测结果汇总
 
   本小节整理了70篇场景文本检测重要论文的在不同类型数据集上的评估结果。部分截图如下表,详细内容请见资源链接。(注:P、R、F 分别代表Precision、Recall和F-measure。)
 
   
 
    
    1.  Detection Results on Horizontal-Text Datasets 
    
    
    
   
 
   2.  Detection Results on Arbitrary Quadrilateral Text Datasets
 
   
 
    
    
    
    3. Detection Results on Irregular-Text Datasets 
     
    
    
    
    
   五、小结
 
    
    本文总结了2012年以来在场景文本检测领域的70篇重要论文、21个常用数据集、15份论文开源代码、176个实验结果以及超过1300条统计信息。 
    此外,我们还总结了近年来场景文本检测评估标准的相关论文和部分企业提供的OCR服务。 
    详细内容见下面的Github链接。 
    
   
 
   Github资源链接
 
    
   
 
   
 
   -完-
 
   
 
    
   
 
   
 
   添加极市小助手微信(ID : cv-mart),备注:研究方向-姓名-学校/公司-城市(如:目标检测-小极-北大-深圳),即可申请加入目标检测、目标跟踪、人脸、工业检测、医学影像、三维&SLAM、图像分割等极市技术交流群,更有每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流,一起来让思想之光照的更远吧~
 
   
 
   
 
   ![]()
 
   △长按添加极市小助手
 
   
 
   ![]()
 
   △长按关注极市平台
 
   
 
   觉得有用麻烦给个在看啦~  ![]()