下面是在操作文字識別時經常用到的壹些方法和技巧。
1.分辨率的設置是文字識別的重要前提。壹般來說,掃描儀提供的圖像信息越多,識別軟件的識別結果就越容易。但並不是掃描分辨率設置得越高,識別正確率就越高。選擇 300 dpi 或 400 dpi 的分辨率,適合大多數文檔掃描。需要註意的是,原始文本掃描識別時,設置的掃描分辨率不應超過掃描儀的光學分辨率,否則將得不償失。以下是壹些典型的設置,僅供參考。
(1) 建議 200dpi 用於 1、2 或 3 個字符的文章片段。
(2) 建議 300dpl 用於 4、小 4 或 5 個字符的文章片段。
(3) 建議 400dpl 用於小 5 或 6 個字符的文章片段。
(4) 建議 600dpi 用於 7 或 8 個字符的文章片段。
2.掃描時適當調整亮度和對比度值,使掃描後的文檔黑白分明。這是對識別率影響最關鍵的壹點,掃描亮度和對比度值的設置以觀察掃描圖像中漢字筆畫的細而不張為原則。識別前,先看掃描圖像中的文字質量,如果圖像中存在黑點或黑斑或文字線條很粗很黑,無法分辨筆畫,說明亮度值太小,應在增加亮度值後再試;如果文字線條不均勻,有斷裂甚至圖像中的漢字輪廓嚴重殘缺,說明亮度值太大,應降低亮度後再試。
3.選擇好的掃描軟件。選擇壹款適合自己的好的ocr軟件是做好文字識別工作的基礎,壹般不要使用掃描儀自帶的oem軟件,oem的ocr軟件功能少,效果差,有的甚至沒有中文識別功能,經過比較,筆者認為清華紫光ocr2003專業版和天書ocr6.0文字自動識別輸入系統的識別能力和使用功能比較突出!壹些。那麽選擇壹個圖像軟件,ocr軟件不就是壹個掃描界面嗎?為什麽還要找圖像軟件呢?首先,ocr 軟件不能識別所有的掃描儀;其次,也是最關鍵的,使用圖像軟件的掃描界面便於對掃描圖像進行處理;壹般選用 Photoshop。
4.如果要進行的文字是帶格式的,如粗體、斜體、首行縮進等,部分ocr 軟件不識別,會丟失格式或亂碼。如果必須掃描帶有格式的文本,事先要確保使用的識別軟件支持該文本格式的掃描。您還可以關閉樣式識別系統,使軟件專註於查找正確的字符,而不再考慮字體和字體格式。
5.在掃描識別報紙或其他半透明手稿時,背面的文字透過紙張混淆了文字字形,給識別帶來很大障礙。遇到這種類型的掃描,只要將掃描原稿貼在背面即可。在掃描時蓋上壹張黑紙,增加掃描對比度,就可以減少背面模糊字體的影響,提高識別正確率,
6.壹般文字掃描的原稿都是黑白原稿,但在掃描設置時往往把掃描模式設置為灰度模式。特別是在原稿質量較差的情況下,使用灰度模式掃描,並在掃描軟件處理後再繼續識別,這樣會獲得較好的識別正確率。值得註意的是,ocr 識別軟件可以自行決定閾值,幾個百分點的閾值差異,都可能影響識別的正常進行。當然,得到的圖像文件大小會比黑白文檔大很多。在掃描大量手稿時,必須對原稿進行測試,以找到最佳閾值百分比。
7.掃描混合文本原稿時,首先要確定所使用的識別軟件是否支持文本自動分析。如果支持,在這類掃描識別中,ocr 軟件會自動計算文字的內容、位置和順序。文本部分可以按照標註的順序正常識別。
8.手動選擇掃描區域會有更好的識別效果。設置參數後,預覽掃描區域,然後開始選擇掃描區域。不要將文章壹股腦用在壹個區域內,因為文章排版為追求更好的視覺效果,使用的混合文字較多,掃描成圖像後會影響ocr的識別。因此,要根據實際情況將文章劃分為 n 個區域,如何劃分區域呢?每個區域的文字字體、字號最好壹致,沒有圖形、圖像時,每行的寬度壹致,遇到長度不夠時,再進行細分,壹般最多可掃描 10 個選區。根據不同情況,合理設置識別區域的順序。不要嫌這個過程太煩,那是提高識別率的有效手段。需要註意的是,識別的區域不能有交叉,要做到識別後壹切感覺完好。這樣壹般識別率會在 95% 以上,對於識別校對不正確的文字,可以進入相應的文字處理軟件進行必要的處理。
9.在放置掃描原稿時,必須將掃描的文字材料放置在掃描起始線上,以盡量減少光學鏡頭造成的畸變。掃描儀玻璃也應保持清潔無損。
文字傾斜壹定角度,或者原稿的文字部分為非正規排版,壹定要在掃描後使用旋轉工具,進行糾正;否則ocr識別軟件會把橫劃當作斜劃處理,識別的正確率會大大降低。建議用戶盡量把掃描後的原稿放正,使用旋轉工具校正會降低圖像質量,使字符識別更加困難。
10.先 "預覽 "整體布局,選中要掃描的區域,然後使用 "縮放預覽 "工具,選中壹小塊放大顯示到全屏,觀察文字的對比度、文字的深淺濃度,根據情況調整 "閾值"。"閾值 "的大小,最終要求文字清晰,不粗(文字成團),不淡(文字碎伐),壹般在 "閾值 "80左右為宜,最後再進行掃描。
11.用工具擦去圖像上的汙漬,包括原來排版時不需要識別的插圖、分隔線等,使文字圖像中除了文字外沒有壹點多余的東西;這樣可以大大提高識別率,減少識別時的修改工作。
12.如果要掃描印刷質量稍差的文章,如報紙,掃描出來的結果黑白不清晰,會出現大量黑點,字體筆畫上會有粘連現象,這是漢字識別的大忌,會嚴重影響漢字識別的正確性。為了獲得更好的識別效果,有必要仔細調整色調,反復掃描,以獲得更好的識別效果。另外,由於報紙很薄,大部分紙張質量不高,掃描儀的封面不能完全壓住報紙(有縫隙),所以報紙的掃描識別效果不如壹般雜誌。解決的辦法是在報紙上壓壹兩本 16k 的雜誌,效果還是不錯的。