0922406311-0  
1.通過HTTP 抓包工具抓取正常請求所(GET,POST)的資料
2.利用 .net 類庫 HTTPrequest 或 HTTPclient 做類比提交操作。
注:一些 qq資訊檢視器,手機充值類比提交軟體,投票程式等,原理差不多。
具體實現不是本文重點要介紹的,下一次再寫關於這個方面的吧。我們接下來還是主要來看OCR 。

 

一.OCR簡介 參見HTTP://baike.baidu.com/view/17761.htm?fr=ala0_1 大家參照,我第一次也是這麼瞭解的,呵呵。高手見笑
現在市面上好多OCR 引擎,不過大多是收費的,價格不菲呀。。不適合我們學習研究。
而今天我們談到的Tesseract 是開源的產品,比較適合大家的口味吧。並且Tesseract 也是目前識別率較高的OCR,並不比其他引擎
差勁。網上介紹Tessnet2也是當時時間排名第三的識別引擎,只是後來慢慢不維護了,目前是Google在維護,大家都知道Google
在搞電子圖書館,每天都有不同類目的書被掃描成電子版,而下一步工作是什麼。。。大家可以聯想。




Tessnet2 是用vc ++ 開發的,最中是生成Tessnet2.dll ,我們可以通過.net 來調用內部具體類庫實現識別。
Tessnet2的使用:
1.將Tessnet2.dll 添加到vs bin目錄,和添加.net程式集一樣。 點選連結下載Tessnet2.dll
2.用Tessnet2進行識別

 

Bitmap image = new Bitmap("eurotext.tif");//識別圖像
tessnet2.Tesseract ocr = new tessnet2.Tesseract();//聲明一個OCR類
ocr.SetVariable("tessedit_char_whitelist", "0123456789"); //設置識別變數,當前只能識別數位。
ocr.Init(@"c:\temp", "fra", false); //應用當前語言包。注,Tessnet2是支援多國語的。語言包下載連結:HTTP://code.google.com/p/tesseract-ocr/downloads/list
List<tessnet2.Word> result = ocr.DoOCR(image, Rectangle.Empty);//執行識別操作
foreach (tessnet2.Word word in result) //遍歷識別結果。
Console.WriteLine("{0} : {1}", word.Confidence, word.Text);
看看 使用很簡單吧。給大家個實例(點擊下載)用來測試。

 

我的使用總結:
我前一陣沒事在搞驗證碼識別,對於普通的網站驗證碼識別基本識別率能達到100%,但對於比較正規的網站例如 通訊,itput等等網站 識別率極低。
大概也是我研究不夠深入吧,呵呵。
大家互相探討學習,此文只是給大家一個參考。
創作者介紹
創作者 shadow 的頭像
shadow

資訊園

shadow 發表在 痞客邦 留言(0) 人氣()