OCR (Optical Character Recognition,光學(xué)字符識別)是指電子設(shè)備(例如掃描儀或數(shù)碼相機)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機文字的過程;即,針對印刷體字符,采用光學(xué)的方式將紙質(zhì)文檔中的文字轉(zhuǎn)換成為黑白點陣的圖像文件,并通過識別軟件將圖像中的文字轉(zhuǎn)換成文本格式,供文字處理軟件進一步編輯加工的技術(shù)。如何除錯或利用輔助信息提高識別正確率,是OCR的課題,ICR(Intelligent Character Recognition)的名詞也因此而產(chǎn)生。衡量一個OCR系統(tǒng)性能好壞的主要指標有:拒識率、誤識率、識別速度、用戶界面的友好性,產(chǎn)品的穩(wěn)定性,易用性及可行性等。

圖像輸入、預(yù)處理:圖像輸入:對于不同的圖像格式,有著不同的存儲格式,不同的壓縮方式,目前有OpenCV,CxImage等開源項目 。預(yù)處理:主要包括二值化,噪聲去除,傾斜較正等二值化:對攝像頭拍攝的圖片,大多數(shù)是彩像,彩像所含信息量巨大,對于圖片的內(nèi)容,我們可以簡單的分為前景與背景,為了讓計算機更快的,更好的識別文字,我們需要先對彩進行處理,使圖片只前景信息與背景信息,可以簡單的定義前景信息為黑色,背景信息為白色,這就是二值化圖了。

白條、黑條的寬度不同,相應(yīng)的電信號持續(xù)時間長短也不同.但是,由光電轉(zhuǎn)換器輸出的與條形碼的條和空相應(yīng)的電信號一般僅10mV左右,不能直接使用,因而先要將光電轉(zhuǎn)換器輸出的電信號送放大器放大.放大后的電信號仍然是一個模擬電信號,為了避免由條形碼中的疵點和污點導(dǎo)致錯誤信號,在放大電路后需加一電路,把模擬信號轉(zhuǎn)換成數(shù)字電信號,以便計算機系統(tǒng)能準確判讀。