捷速ocr文字識別對于一些經(jīng)常處理圖片文字的朋友們應(yīng)該很熟悉,小編在之前也介紹了捷速ocr文字識別軟件的使用方法,捷速ocr文字識別軟件的過程包含幾個步驟,下面小編就詳細介紹捷速ocr文字識別軟件的識別過程吧。
第一步:
是指通過輸入設(shè)備將文檔輸入到計算機中,也就是實現(xiàn)原稿的數(shù)字化,F(xiàn)在用得比較普遍的設(shè)備是掃描儀。文檔圖像的掃描質(zhì)量是OCR軟件正確識別的前提條件。恰當(dāng)?shù)剡x擇掃描分辨率及相關(guān)參數(shù),是保證文字清楚、特征不丟失的關(guān)鍵。此外,文檔盡可能地放置端正,以保證預(yù)處理檢測的傾斜角小,在進行傾斜校正后,文字圖像的變形就小。這些簡單的操作,會使系統(tǒng)的識別正確率有所提高。反之,由于掃描設(shè)置不當(dāng),文字的斷筆過多可能會分檢出半個文字的圖像。文字?jǐn)喙P和筆畫粘連會造成有些特征丟失,在將其特征與特征庫比較時,會使其特征距離加大,識別錯誤率上升。
第二步:
掃描一幅簡單的印刷文檔的圖像,將每一個文字圖像分檢出來交給識別模塊識別,這一過程稱為圖像預(yù)處理。預(yù)處理是指在進行文字識別之前的一些準(zhǔn)備工作,包括圖像凈化處理,去掉原始圖像中的顯見噪聲(干擾)。主要任務(wù)是測量文檔放置的傾斜角,對文檔進行版面分析,對選出的文字域進行排版確認(rèn),對橫、豎排版的文字行進行切分,每一行的文字圖像的分離,標(biāo)點符號的判別等。這一階段的工作非常重要,處理的效果直接影響到文字識別的準(zhǔn)確率。
第三步:
單字識別是體現(xiàn)OCR文字識別的核心技術(shù)。從掃描文本中分檢出的文字圖像,由計算機將其圖形、圖像轉(zhuǎn)變成文字的標(biāo)準(zhǔn)代碼,是讓計算機“認(rèn)字”的關(guān)鍵,也就是所謂的識別技術(shù)。就像人腦認(rèn)識文字是因為在人腦中已經(jīng)保存了文字的各種特征,如文字的結(jié)構(gòu)、文字的筆畫等。要想讓計算機來識別文字,也需要先將文字的特征等信息儲存到計算機里,但要儲存什么樣的信息及怎樣來獲取這些信息是一個很復(fù)雜的過程,而且要達到非常高的識別率才能符合要求。通常采用的做法是根據(jù)文字的筆畫、特征點、投影信息、點的區(qū)域分布等進行分析。
第四步:
后處理是指對識別出的文字或多個識別結(jié)果采用詞組方式進行上下匹配,即將單字識別的結(jié)果進行分詞,與詞庫中的詞組進行比較,以提高系統(tǒng)的識別率,減少誤識率。