OCR (Optical Character Recognition,光學(xué)字符識別)是指電子設(shè)備(例如掃描儀或數(shù)碼相機(jī))檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計(jì)算機(jī)文字的過程;即,針對印刷體字符,采用光學(xué)的方式將紙質(zhì)文檔中的文字轉(zhuǎn)換成為黑白點(diǎn)陣的圖像文件,并通過識別軟件將圖像中的文字轉(zhuǎn)換成文本格式,供文字處理軟件進(jìn)一步編輯加工的技術(shù)。如何除錯(cuò)或利用輔助信息提高識別正確率,是OCR的課題,ICR(Intelligent Character Recognition)的名詞也因此而產(chǎn)生。衡量一個(gè)OCR系統(tǒng)性能好壞的主要指標(biāo)有:拒識率、誤識率、識別速度、用戶界面的友好性,產(chǎn)品的穩(wěn)定性,易用性及可行性等。

從影像到結(jié)果輸出,須經(jīng)過影像輸入、影像前處理、文字特征抽取、比對識別、后經(jīng)人工校正將認(rèn)錯(cuò)的文字更正,將結(jié)果輸出。影像輸入欲經(jīng)過OCR處理的標(biāo)的物須透過光學(xué)儀器,如影像掃描儀、傳真機(jī)或任何攝影器材,將影像轉(zhuǎn)入計(jì)算機(jī)??萍嫉倪M(jìn)步,掃描儀等的輸入裝置已制作的愈來愈精致,輕薄短小、品質(zhì)也高,對OCR有相當(dāng)大的幫助,掃描儀的分辨率使影像更清晰、掃除速度更增進(jìn)OCR處理的效率。