噪聲去除:對(duì)于不同的文檔,我們對(duì)噪聲的定義可以不同,根據(jù)噪聲的特征進(jìn)行去噪,就叫做噪聲去除傾斜較正:由于一般用戶,在拍照文檔時(shí),都比較隨意,因此拍照出來(lái)的圖片不可避免的產(chǎn)生傾斜,這就需要文字識(shí)別軟件進(jìn)行較正。版面分析:將文檔圖片分段落,分行的過程就叫做版面分析,由于實(shí)際文檔的多樣性,復(fù)雜性,因此,目前還沒有一個(gè)固定的,的切割模型。

對(duì)比數(shù)據(jù)庫(kù):當(dāng)輸入文字算完特征后,不管是用統(tǒng)計(jì)或結(jié)構(gòu)的特征,都須有一比對(duì)數(shù)據(jù)庫(kù)或特征數(shù)據(jù)庫(kù)來(lái)進(jìn)行比對(duì),數(shù)據(jù)庫(kù)的內(nèi)容應(yīng)包含所有欲識(shí)別的字集文字,根據(jù)與輸入文字一樣的特征抽取方法所得的特征群組。對(duì)比識(shí)別這是可充分發(fā)揮數(shù)算理論的一個(gè)模塊,根據(jù)不同的特征特性,選用不同的數(shù)學(xué)距離函數(shù),較有名的比對(duì)方法有,歐式空間的比對(duì)方法、松弛比對(duì)法(Relaxation)、動(dòng)態(tài)程序比對(duì)法(Dynamic Programming,DP),以及類神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)庫(kù)建立及比對(duì)、HMM(Hidden Markov Model)…等的方法,為了使識(shí)別的結(jié)果更穩(wěn)定,也有所謂的專家系統(tǒng)(Experts System)被提出,利用各種特征比對(duì)方法的相異互補(bǔ)性,使識(shí)別出的結(jié)果,其信心度特別的高。