清风居-清风博客-专注于计算机技术

2025年12月
一	二	三	四	五	六	七
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31	1	2	3	4

2025年
03月 11月

2024年
03月 04月 05月

2021年
01月 02月 11月 12月

2020年
02月 03月 04月 05月 06月 07月
09月

2018年
09月

2017年
01月 02月 07月

2016年
01月 04月 07月 08月 11月 12月

2015年
01月 02月 03月 05月 09月 10月
11月

2014年
01月 02月 03月 04月 05月 06月
07月 08月 09月 10月 11月 12月

2013年
01月 02月 03月 04月 05月 06月
07月 08月 09月 10月 11月 12月

2012年
01月 02月 03月 04月 05月 06月
07月 08月 09月 10月 11月 12月

2011年
01月 02月 03月 04月 05月 06月
07月 08月 09月 10月 11月 12月

2010年
01月 02月 03月 04月 05月 06月
07月 08月 09月 10月 11月 12月

2009年
03月 04月 05月 06月 07月 08月
09月 10月 11月 12月

项目地址：http://code.google.com/p/tesseract-ocr/
最简单的应用示例代码：

#include <allheaders.h>
#include <baseapi.h>
#include <strngs.h>
#include <publictypes.h>

#pragma comment(lib,"liblept168.lib")
#pragma comment(lib,"libtesseract302.lib")

int test_ocr(char* img_path)
{
    tesseract::TessBaseAPI tessApi;
    int ret = tessApi.Init(
        "<tessdata所在的目录>",
        "eng", // 中文："chi_sim" 
        tesseract::OEM_DEFAULT,
        NULL,
        0,
        NULL,
        NULL,
        false);
    if(ret != 0)
    {
        return ret;
    }

    tessApi.SetPageSegMode(
          static_cast<tesseract::PageSegMode>(
                 tesseract::PageSegMode::PSM_SINGLE_BLOCK));
        
    STRING text_out;
    if (!tessApi.ProcessPages(img_path, NULL, 0, &text_out))
    {
        return -1;
    }

    // 返回的字符是UTF-8编码
    // text_out.string();
    
    return 0;
}

// 这里的test.jpg是经过处理得到的二值化单行文本。
test_ocr("C:\test.jpg");

程序的目录结构：
test.exe
tessdata
liblept168.dll
libtesseract302.dll

参考：
http://blog.csdn.net/yasi_xi/article/details/8763385
http://www.cnblogs.com/baizx/archive/2010/08/23/1806136.html
http://club.excelhome.net/thread-897117-1-1.html

本文链接地址：开源OCR引擎Tesseract的基本应用
https://blog.qingfengju.com/index.asp?id=376

分类：Win32/C++ 查看次数：12122 发布时间：2014/8/29 21:39:31

博客日历

存档

开源OCR引擎Tesseract的基本应用