當前位置:首頁 > 關于訊飛 > 新聞中心 > 訊飛動態 > 正文
關于訊飛

喜報 | 科大訊飛包攬ICPR MTWI圖文識別挑戰賽三項冠軍

發布時間:2018-08-22 來源: 點擊次數: 打印 作者:

字號:

      近日,在第24屆國際模式識別大會(ICPR 2018)舉辦的MTWI圖文識別挑戰賽中,科大訊飛與中科大語音及語言國家工程實驗室聯合團隊以絕對實力包攬了全部三項任務的冠軍,進一步彰顯了科大訊飛在圖文識別技術上的業界領先地位。


任務一:網絡圖像的文本行(列)識別(Text Line Recognition of Web Images),共有70支隊伍參賽


任務二:網絡圖像的文本檢測(Text Detection of Web Images),共有193支隊伍參賽


任務三:網絡圖像的端到端文本檢測和識別(End-to-End Text Detection and Recognition of Web Images),共有26支隊伍參賽



      ICPR MTWI挑戰賽是什么?


      MTWI(Multi-Type Web Images,多樣式網絡圖像)識別挑戰賽由模式識別領域的國際盛會ICPR(International Conference on Pattern Recognition)舉辦,吸引了三星中國研究院、商湯科技、網易、清華大學、北京大學、中科院等眾多產業界和學術界的著名研究機構參與。

      此次比賽共分為三個子任務:

      任務一(文本行識別)要求參賽者識別出給定的文本行圖像中的文字;


      任務二(文本檢測)要求參賽者在給定的網絡圖像中檢測出文本行所在的位置;


      任務三(端到端文本檢測和識別)則需要同時對文本行進行檢測并識別。


      MTWI挑戰賽使用的數據集是由華南理工大學聯合阿里巴巴共同收集和標注的淘寶商品類圖像,其中訓練集和測試集各有一萬張圖像,每支參賽隊伍有三次機會提交測試集的測試結果,由比賽舉辦方評測得分,并按照每支隊伍的最優成績排名。


數據集示例


      新的難題,新的算法

      作為亞太地區最大的智能語音與人工智能上市公司,科大訊飛不僅在智能語音、自然語言處理等領域碩果累累,也在圖文識別領域深耕多年,并成功將文字文檔識別技術應用在移動終端輸入法、教育考試、司法輔助等領域。為了在其他場景中驗證圖文識別技術的有效性和領先性,科大訊飛與NELSLIP(National Engineering Laboratory for Speech and Language Information Processing,中科大語音及語言國家工程實驗室)的杜俊教授、戴禮榮教授團隊聯合參加了此次場景更為復雜多變的MTWI識別挑戰賽。

      科大訊飛在圖文識別領域的多年經驗主要集中在教育、司法、輸入法等場景下,已形成一套完備的基于深度神經網絡模型的文檔圖像分析識別的系統。然而,與這些應用場景不同,網絡圖像識別的主要難點在于其字體變化多樣、存在幾個到幾百像素字號、多種版式,并且還包含較多干擾背景。另外,在本次比賽中,相較于英文和其他字符,結構更復雜的漢字占很大比例,且統計發現在訓練集中有75%的漢字出現不到50次,這無疑給識別和檢測都帶來了很大的困難。

      針對上述現象,在識別任務中,科大訊飛與NELSLIP聯合團隊基于Encoder-Decoder思想,提出了一種新的結構分析算法,該算法將中文拆成多個部件、英文單詞拆成單個字符后借助Attention進行識別,在準確識別出多個部件后再利用動態規劃策略進行重組,從而得到最終的輸出結果,這種依賴分析結構的方法,可以有效地解決字體多樣、結構復雜帶來的識別率低下的問題。除此之外,還使得模型具備了識別低頻詞和集外詞的能力。在檢測任務中,為了解決文字尺度變化大、文本行朝向不一致的問題,科大訊飛與NELSLIP聯合團隊對輸入圖像構建空間金字塔,在各個尺度上預測各種朝向文本行所在的任意四邊形的頂點,從而完成文本行的準確定位。

      圖文識別用于現實場景

      在手寫識別應用方向,科大訊飛AI研究院圖文識別團隊具有行業內領先的在線和離線手寫識別系統,可以進行中文、英文、數學公式等多種應用場景下的在線和離線文字字符識別,相關的技術已經成功在訊飛輸入法、教育評測、智能輔助評卷等應用場景獲得實用;面向公檢法等應用場景的文檔圖像分析與識別系統,目前也已經在自動編目、輔助判案等場景、智慧城市中的文檔信息結構化處理等應用場景獲得實用。

      在訊飛語記、訊飛閱讀、訊飛有聲等app中,也有圖文識別系統的應用。日常的工作學習中,紙質文獻、PDF、老師板書等再也不需要拍下來再逐字敲進文檔,比如用訊飛語記就可以將圖片中的文字直接轉成可編輯的文本,大大提高工作學習效率。


      計算機視覺的發展,特別是文檔圖像的分析與識別應用,和智能語音、智能交互、大數據信息分析等多方面的綜合應用一樣具有十分廣闊的前景。依托科大訊飛的“平臺+賽道”的AI落地戰略,通過訊飛開放平臺,必將使得各項AI能力更好地為改變信息的交流以及互聯互通,創造更大價值。

關 閉
十一选五走势辽宁