數(shù)理化公式識(shí)別軟件(數(shù)理化公式識(shí)別方法)
1簡(jiǎn)介
OCR(OpticalCharacterRecognition,光學(xué)字符識(shí)別)是一種將圖片信息(漢字、字母、數(shù)字等)轉(zhuǎn)換為可編輯的電子文本的技術(shù)。隨著人工智能的不斷發(fā)展,基于深度學(xué)習(xí)的OCR技術(shù)在教育行業(yè)得到廣泛應(yīng)用;智能批改、助教輸入等場(chǎng)景都依賴于OCR技術(shù)?,F(xiàn)階段,基于深度學(xué)習(xí)的OCR技術(shù)對(duì)于簡(jiǎn)單的一維文本識(shí)別可以達(dá)到較高的識(shí)別精度,但對(duì)于數(shù)學(xué)、物理公式等二維結(jié)構(gòu)的識(shí)別精度較低。針對(duì)這個(gè)技術(shù)痛點(diǎn),本文提出了一種可以識(shí)別數(shù)學(xué)和物理公式的技術(shù)。該技術(shù)可以識(shí)別矩陣、方程、分?jǐn)?shù)、根式等二維結(jié)構(gòu)信息,識(shí)別準(zhǔn)確率可以達(dá)到95%+。
2技術(shù)路線
數(shù)學(xué)公式識(shí)別是將公式圖像信息數(shù)字化的技術(shù)。該技術(shù)利用Seq2Seq網(wǎng)絡(luò)架構(gòu)來(lái)達(dá)到識(shí)別二維結(jié)構(gòu)的目的。技術(shù)路線如圖1所示,模型輸入為:公式圖片,模型輸出為:公式圖片對(duì)應(yīng)的Latex公式序列。
圖1數(shù)學(xué)公式識(shí)別模型概述
2.1、數(shù)據(jù)準(zhǔn)備
為了獲得魯棒的深度學(xué)習(xí)公式識(shí)別模型,訓(xùn)練數(shù)據(jù)的準(zhǔn)備至關(guān)重要。本文采用人才為本的策略來(lái)收集數(shù)據(jù):(1)通過(guò)分析真實(shí)場(chǎng)景中公式數(shù)據(jù)的特征,采用合成數(shù)據(jù)方法,合成真實(shí)場(chǎng)景數(shù)據(jù);(2)利用數(shù)據(jù)增強(qiáng)來(lái)擴(kuò)大數(shù)據(jù)的多樣性;(3)通過(guò)公式識(shí)別置信度收集badcase,迭代收集公式數(shù)據(jù),增強(qiáng)模型的泛化能力。
2.2、Latex公式歸一化
由于Latex的數(shù)學(xué)物理公式表達(dá)并不唯一,如圖2所示,這種一對(duì)多的公式表達(dá)方式很容易導(dǎo)致訓(xùn)練損失函數(shù)不收斂,從而增加模型的學(xué)習(xí)難度。因此,必須采用歸一化策略來(lái)達(dá)到一個(gè)符號(hào)只有一個(gè)表達(dá)方式,降低模型學(xué)習(xí)難度的目的。
圖2Latex表達(dá)式不唯一
2.3、Seq2Seq網(wǎng)絡(luò)架構(gòu)
Seq2Seq模型是機(jī)器翻譯中引入的第一個(gè)概念。該模型由編碼器(Encoder)和解碼器(Decoder)組成。可以更好地學(xué)習(xí)數(shù)學(xué)公式的結(jié)構(gòu)特征,例如上下結(jié)構(gòu)公式和周圍結(jié)構(gòu)。公式等
2.3.1.編碼器
編碼器就是提取公式圖片的特征圖。編碼器結(jié)構(gòu)借鑒了Inception-ResNet-V2的網(wǎng)絡(luò)框架。詳細(xì)的網(wǎng)絡(luò)框架如圖3所示。其中,(1)采用多個(gè)感受野的Inception結(jié)構(gòu),有利于學(xué)習(xí)不同字體大小的公式特征;(2)介紹PositionEmbedding方法可以有利于獲得字符之間的位置關(guān)系特征。
圖3編碼器網(wǎng)絡(luò)架構(gòu)圖
獲得公式圖片的特征圖后,為了很好地進(jìn)行序列化學(xué)習(xí),將特征圖重塑為一維結(jié)構(gòu)特征向量(語(yǔ)義編碼)。由于PositionEmbedding方法的引入,將特征圖重塑為一維結(jié)構(gòu)后,還可以很容易地保存各個(gè)特征向量之間的位置關(guān)系。
2.3.2.解碼器
解碼器的作用是將語(yǔ)義編碼向量解碼成相應(yīng)的識(shí)別結(jié)果。通過(guò)編碼器獲得公式圖片對(duì)應(yīng)的一維結(jié)構(gòu)特征向量后,使用LSTM(長(zhǎng)短期記憶)來(lái)學(xué)習(xí)公式圖片對(duì)應(yīng)的Latex公式。序列,LSTM是一種時(shí)間循環(huán)神經(jīng)網(wǎng)絡(luò),專門為解決一般RNN的長(zhǎng)期依賴問題而設(shè)計(jì)。其中,在解碼器階段,還使用了Attention機(jī)制。注意力機(jī)制是一種加權(quán)機(jī)制,關(guān)注編碼層獲得的語(yǔ)義編碼中的哪個(gè)分量對(duì)于當(dāng)前的預(yù)測(cè)更重要。詳細(xì)的解碼器網(wǎng)絡(luò)架構(gòu)圖如圖4所示。
圖4解碼器網(wǎng)絡(luò)架構(gòu)圖
2.4、Seq2Seq模型的訓(xùn)練階段
在訓(xùn)練階段,由于模型一開始的預(yù)測(cè)極不穩(wěn)定,如果將前一個(gè)時(shí)間片的預(yù)測(cè)作為當(dāng)前時(shí)間片的輸入,模型將很難收斂。因此,為了達(dá)到模型快速收斂的目的,我們使用標(biāo)簽序列作為序列預(yù)測(cè)的輸入,如圖5所示。
圖5模型訓(xùn)練階段示意圖
2.5、Seq2Seq模型的推理階段
在推理階段,由于測(cè)試樣本沒有標(biāo)簽序列,所以我們使用當(dāng)前時(shí)間片的輸出作為下一個(gè)時(shí)間片的輸入,一般使用GreedySearch算法或BeamSearch算法進(jìn)行解碼。其中,GreedySearch算法是BeamSearch算法的特例(beamsize=1)。集束搜索是尋找全局最優(yōu)值和搜索時(shí)間之間的折衷。它計(jì)算當(dāng)前時(shí)間片內(nèi)所有假設(shè)的概率,然后選擇最高的組成一組,然后基于這組假設(shè),計(jì)算下一個(gè)時(shí)間片中概率最大的一組,并依此類推,直到最后一個(gè)時(shí)間片結(jié)束。下圖展示了beamsize=3的搜索過(guò)程,紅線是選擇的假設(shè)。
圖6模型推理階段示意圖
2.6、后處理操作(Post-Processing)
通過(guò)解碼器可以很好地學(xué)習(xí)Latex公式的序列特征。然而,在實(shí)際場(chǎng)景中,會(huì)出現(xiàn)很多種情況。例如,0、o等相似字符就不容易正確識(shí)別。因此,后處理操作可以發(fā)揮作用。錦上添花的是根據(jù)先驗(yàn)知識(shí)進(jìn)行修正,比如將1o修正為10。在測(cè)試集上測(cè)試后,后處理操作可以在不影響識(shí)別性能的情況下提高準(zhǔn)確率1%左右。
2.7、識(shí)別結(jié)果
數(shù)學(xué)公式識(shí)別模型可以直接將公式圖片轉(zhuǎn)換成其對(duì)應(yīng)的Latex公式。識(shí)別樣本如圖7所示(為了方便直觀比較,通過(guò)XeLatex和ImageMagick將Latex公式可視化):
圖7識(shí)別結(jié)果
3結(jié)論
數(shù)學(xué)物理公式識(shí)別模型可以很好地解決二維結(jié)構(gòu)的公式識(shí)別問題,平均準(zhǔn)確率可以達(dá)到95%+。但對(duì)于結(jié)構(gòu)非常復(fù)雜的公式(對(duì)應(yīng)的Latex公式很長(zhǎng)),識(shí)別精度仍然需要提高。問題出在時(shí)間序列解碼階段。雖然LSTM和Attention機(jī)制都可以很好地緩解長(zhǎng)序列解碼的長(zhǎng)期依賴,但都無(wú)法從根本上解決。未來(lái)我們將探索使用圖模型來(lái)求解長(zhǎng)序列結(jié)構(gòu)的公式。找出問題所在。
作者:劉騰龍
相關(guān)資訊
- 壓力壓強(qiáng)浮力 常考題型(物理壓強(qiáng)和浮力的公式)_重復(fù)
- 初中物理電功率公式如何應(yīng)用(初中物理 電功率)
- 本田希望利用聯(lián)網(wǎng)汽車來(lái)識(shí)別和報(bào)告危險(xiǎn)路況信息(本田希望利用聯(lián)網(wǎng)汽車來(lái)識(shí)別和報(bào)告危險(xiǎn)路況的英文)
- 奧數(shù)常用公式,奧數(shù)常用公式大全
- 一個(gè)冷門的數(shù)學(xué)公式是什么(一個(gè)冷門的數(shù)學(xué)公式有哪些)
- 初中數(shù)學(xué)解一元二次方程的方法(初中數(shù)學(xué)解一元二次方程公式法)_重復(fù)
- 中考物理口訣記憶法(中考物理口訣順口溜)
- 小學(xué)奧數(shù)排列組合,小學(xué)奧數(shù)排列組合公式