tesseract编译

发布时间: 2024-12-31 23:37:58

A. 如何在windows上编译Tesseract OCR

源码: https://github.com/tesseract-ocr/tesseract

在github上有在不同系统中编译教程, Url在这里
https://github.com/tesseract-ocr/tesseract/wiki/Compiling

Linux系统的编译

Linux系统中编译过程按照教程来就可以, 可能遇到的问题, 也是我遇到的问题就两处
1. 编译成功后, 使用LSTM识别时, 无法计算点积, 解决方法很简单, 把
SIMDDetect::IsAVXAvailable()
SIMDDetect::IsSSEAvailable()
的返回值修改一下, 直接
return false;
2. 不停显示ScrollView: Waiting for server…, 出现这个问题主要是由于exe无法找到ScrollView.jar, 只需要在出现此句上方不远处, 将
scrollview_path = ".";
替换成你自己的路径即可

Windows系统的编译

windows系统编译就比较坑了. 完全按照教程来理论上是可行的, 但是我不行…困扰许久.
其实思考清楚了也就那么回事儿, 主要就是由于依赖库: Leptonica

在使用Cmake将TesseractOCR编译成vs工程时, 由于在CMakeLists.txt中没有指定Leptonica库的路径, 所以CMake在将TesseractOCR编译成vs工程时会报错

于是, 在教程中, 需要大家安装cppan, 并且在编译TesseractOCR工程之前, 使用cppan安装相关依赖. 这种方式确实简便, 但是对于我天朝闭关锁国来讲, 什么事儿都可能发生, 反正我是各种报错…看到心碎… 搜了不少资料说, 可能需要一些科学技术才能够成功(fanqiang), 我只能帮你们到这了.

当然对于我们这些良民来讲, 怎么能做这种事儿呢(主要是蓝灯没流量了..). 于是只好研究一下其他解决方法. 上面也说了, 问题主要就集中在Leptonica库的寻找上, 那好, 我们自己加上不就得了…于是, 就是下面

Leptonica网站: http://www.leptonica.com/
Leptonica Github: https://github.com/danbloomberg/leptonica
把源码下载下来, 自己手动编译一下, 很简单,源码目录下执行
cd build
cmake ..
1
2
1
2
即可在build目录下生成对应sln, 打开编译即可
- 在TesseractOCR工程目录下找到CMakeLists.txt, 在

``` if(NOT EXISTS ${PROJECT_SOURCE_DIR}/.cppan)
if (NOT Leptonica_DIR AND NOT MSVC)
find_package(PkgConfig REQUIRED)
pkg_check_moles(Leptonica REQUIRED lept>=${MINIMUM_LEPTONICA_VERSION})
else()
find_package(Leptonica ${MINIMUM_LEPTONICA_VERSION} REQUIRED CONFIG)
endif()
else()
if (STATIC)
set(CPPAN_BUILD_SHARED_LIBS 0)
else()
set(CPPAN_BUILD_SHARED_LIBS 1)
endif()
add_subdirectory(.cppan)
endif()```
之前加上这么一句
set(Leptonica_DIR E:/dl/leptonica-master/build)
意思就是我们将我们的Leptonica_DIR路径告诉编译系统, 让他不要乱找了
- OK, 到这里, Leptonica导致的问题就已经解决啦
- 还剩下的就是一些由于字符集导致的编译问题, 就是下面这句
static const STRING kCharsToEx[] = {"'", "`", "\"", "\\", ",", ".",
"〈", "〉", "《", "》", "”", "“", ""};
有两种解决方案:
一种是去vs的文件->高级保存选项, 将编码修改为简体中文(GB2312) - 代码页936
另一种是按照这个Url: http://blog.csdn.net/fengbingchun/article/details/51628957 修改, 诸位喜欢哪种方式就采用哪种方式即可.
- 到此结束…

B. 100分求 tesseract-ocr delphi 怎么调用

Tesseract-ocr 是一款开源的 OCR 识别引擎，当前版本为3.02。

delphi 里使用 tesseract-ocr，首先需要下载两个文件，一个是tesseract.pas，另一个编译完成的libtesseract302.dll 动态连接库：

C. android怎么调用tesseract实现OCR功能

android调用tesseract实现OCR功能的方法为：
一、下载&编译
1、首先下载tess-two
git clone git://github.com/rmtheis/tess-two tess
2、进入 tess目录，里面有三个项目，只需要进入tess-two就可以直接编译了
cd tess/tess-two
ndk-build
3、编译好后，将src下的两个包以及libs导入到自己的项目就可以用
二、使用
tesseract 使用了 leptonica的图像处理库，对于图像处理还是比较强大的
Android官方地址:tesseract-android-tools
但它必须要一个匹配库，即tessdata，我们可以从官方拷贝，在前面git的项目里面tesseract源码目录有现成的tessdata可以用，对于中文，google code上也有下载，当然也可以自己训练不同语言的tessdata。
包leptonica的类我们不必使用，只要使用tess包的类就行了
TessBaseAPI
使用时，首先创建TessBaseAPI对象
代码为：
TessBaseAPI baseApi=new TessBaseAPI();

//初始化tess
//android下面，tessdata肯定得放到sd卡里了
//如果tessdata这个目录放在sd卡的根目录
//那么path直接传入sd卡的目录
//eng就是英文，关于语言，按ISO 639-3标准的代码就行，具体请移步wiki
baseApi.init("tessdata文件夹的父级目录", "eng");

//options是为了缩放图片，这个酌情缩放，图片小的话可以不缩放
BitmapFactory.Options options=new BitmapFactory.Options();
//缩小为原来的1/2
options.inSampleSize=2;

//bitmap，我这里是以流的形式，只要能形成Bitmap就行
Bitmap bitmap = BitmapFactory.decodeStream(instream,null,options);
instream.close();

//如果图片有Alpha值，那么最好设置一下
/*ExifInterface exif = new ExifInterface(filename)
int exifOrientation = exif.getAttributeInt(ExifInterface.TAG_ORIENTATION, ExifInterface.ORIENTATION_NORMAL);

int rotate = 0;
switch (exifOrientation) {
case ExifInterface.ORIENTATION_ROTATE_90:
rotate = 90;
break;
case ExifInterface.ORIENTATION_ROTATE_180:
rotate = 180;
break;
case ExifInterface.ORIENTATION_ROTATE_270:
rotate = 270;
break;
}

if (rotate != 0) {

// Getting width & height of the given image.
int w = bitmap.getWidth();
int h = bitmap.getHeight();

// Setting pre rotate
Matrix mtx = new Matrix();
mtx.preRotate(rotate);

// Rotating Bitmap
bitmap = Bitmap.createBitmap(bitmap, 0, 0, w, h, mtx, false);
// tesseract req. ARGB_8888
bitmap = bitmap.(Bitmap.Config.ARGB_8888, true);
} */

//设置要ocr的图片bitmap
baseApi.setImage(bitmap);
//根据Init的语言，获得ocr后的字符串
String text= baseApi.getUTF8Text();
//释放bitmap
baseApi.clear();

//如果连续ocr多张图片，这个end可以不调用，但每次ocr之后，必须调用clear来对bitmap进行释放
//释放native内存
baseApi.end();

///////////////////////////其它方法//////////////////////////////////

//获取字符边框

Pixa pixa= baseApi.getCharacters();

//同上，这个是整段文字的边框
baseApi.getRegions();

//同上，只不过这里是条线
baseApi.getTextlines();

//剩下的自己测试吧。

//转为rect数组，之后，可以很方便的在图片上框出方框
//怎么框由你
ArrayList<Rect> rects=pixa.getBoxRects();

D. 为什么C++是Google 大部分开源项目的主要编程语言

Google的C++开源代码项目
v8 - V8 javaScript Engine
V8 是 Google 的开源 JavaScript 引擎。
V8 采用 C++ 编写，可在谷歌浏览器（来自 Google 的开源浏览器）中使用。
V8 根据 ECMA-262 第三版中的说明使用 ECMAScript，并在使用 IA-32 或 ARM 处理器的 Windows XP 和 Vista、Mac OS X 10.5 (Leopard) 以及 Linux 系统中运行。
V8 可以独立运行，也可以嵌入任何 C++ 应用程序中。

nativeclient - Native code for web apps
Native Client是一个在Web应用程序中运行本地代码（目前只支持x86架构）的开源的研究性技术，提供更好的“富客户端”用户体验。它允许网络开发者编写更强大的Web程序，这些程序直接通过系统运行而不用通过浏览器来进行,据Google称，它到最后将允许网络开发者开发和桌面软件一样的的web程序，这些程序将带来更快的速度。Native Client类似于微软的ActiveX技术，它还能在Linux和Mac OS X下运行。目前它尚未支持IE，仅支持Google Chrome, Firefox, Safari 和Opera。

tesseract-ocr - An OCR Engine that was developed at HP Labs between 1985 and 1995... and now at Google.
OCR(Optical Character Recognition):光学字符识别,是指对图片文件中的文字进行分析识别，获取的过程。
Tesseract：开源的OCR识别引擎，初期Tesseract引擎由HP实验室研发，后来贡献给了开源软件业，后经由Google进行改进，消除bug，优化，重新发布。当前版本为3.01.

google-glog - Logging library for C++
Google glog是一个基于程序级记录日志信息的c++库，编程使用方式与c++的stream操作类似，例：
LOG(INFO) << "Found " << num_cookies << " cookies";

double-conversion - Binary-decimal and decimal-binary routines for IEEE doubles.
从V8引擎中抽出的有关数值计算相关的代码，包括大数计算，数值到字符串转换等

googletest - Google C++ Testing Framework
gtest测试框架[1]是在不同平台上（Linux，Mac OS X，Windows，Cygwin，Windows CE和Symbian）为编写C++测试而生成的。它是基于xUnit架构的测试框架，支持自动发现测试，丰富的断言集，用户定义的断言，death测试，致命与非致命的失败，类型参数化测试，各类运行测试的选项和XML的测试报告。

googlemock - Google C++ Mocking Framework
googlemockmock技术，在c++单元测试可以随意修改函数行为的技术。
googlemock是google基于gtest开发的mock框架，适用于c++单元测试。

libphonenumber - Google's phone number handling library, powering Android and more
一个专门用于处理电话号码的库

google-diff-match-patch - Diff, Match and Patch libraries for Plain Text
google-diff-match-patch这个类库提供了强大的算法用于纯文本内容的差异比较，匹配，打补丁，实现同步纯文本所需要执行一些操作。支持多种语言包括：Java、JavaScript、C++、C#、Objective C、Lua和python。

libkml - a KML library written in C++ with bindings to other languages
libKML是解析，生成和操作KML的库。使用OGC KML2.2标准。
KML，是 Keyhole 标记语言（Keyhole Markup Language）的缩写，是一种采用 XML 语法与格式的语言，用于描述和保存地理信息（如点、线、图像、多边形和模型等），可以被 Google Earth 和 Google Maps 识别并显示。您可以使用 KML 来与其他 Google Earth 或 Google Maps 用户分享地标与信息。当然，您也可以从 Google Earth 社区等相关网站获得有趣的 KML 文件。Google Earth 和 Google Maps 处理 KML 文件的方式与网页浏览器处理 HTML 和 XML 文件的方式类似。像 HTML 一样，KML 使用包含名称、属性的标签（tag）来确定显示方式。因此，您可将 Google Earth 和 Google Maps 视为 KML 文件浏览器。单击此处可获得更多信息。

gdata-cpp-util - Google Data APIs C++ utility library
一个Google Data APIs 的工具库，可以GET/POST/PUT/DELETE

lutok - Lightweight C++ API for Lua
是一个 Lua 的 C++ wrapper
Lua 是一个小巧的脚本语言。是巴西里约热内卢天主教大学（Pontifical Catholic University of Rio de Janeiro）里的一个研究小组，由Roberto Ierusalimschy、Waldemar Celes 和 Luiz Henrique de Figueiredo所组成并于1993年开发。其设计目的是为了嵌入应用程序中，从而为应用程序提供灵活的扩展和定制功能。Lua由标准C编写而成，几乎在所有操作系统和平台上都可以编译，运行。Lua并没有提供强大的库，这是由它的定位决定的。所以Lua不适合作为开发独立应用程序的语言。Lua 有一个同时进行的JIT项目，提供在特定平台上的即时编译功能。

dcs-bwt-compressor - Data compressor program and library
dcsbwt是一个基于Burrower-Wheeler变换的数据压缩程序库

treetree - generic n-ary trees for C++
TreeTree （http://code.google.com/p/treetree/）是一个只包含头文件的 C++ Library。它实现了一个通用的树形结构容器类（遵守 STL约定），并且实现了 operator >> 和 operator <<。
它的底层包含一个双向链表。在前项指针和后项指针以外，每个树节点还包含第三个指针--指向所有子节点的列表。这个实现高效，并且 API 非常清晰。TreeTree 可以表达任何使用Lisp的S表达式能表达的东西（例如推理树(inference trees, programs)等)。
可以使用前序和后序遍历，只遍历某个节点的子节点，或者只是在叶子节点遍历。示例的选项还包含遍历子树（如f(g(x,y),z) 前序遍历，是f(g(x,y),z), g(x,y),x,y和z.

ctemplate - Powerful but simple template language for C++
ctemplate (Google-ctemplate)的设计哲学是轻量级，快速，且逻辑和界面分离，因此和ClearSilver和Teng是有一些差异的。比如Ctemplate就没有模板函数，没有条件判断和循环语句（当然，它可以通过变通的方式来实现）。 ctemplate大体上分为两个部分，一部分是模板，另一部分是数据字典。模板定义了界面展现的形式（V），数据字典就是填充模板的数据（M），你自己写业务逻辑去控制界面展现（C），典型的MVC模型。

sparsehash - An extremely memory-efficient hash_map implementation
Google Sparse Hash 是 Google 一个很节省内存的 hash map 实现

gflags - Commandline flags mole for C++
Google GFlags 是一个命令行标记的处理库，它可以替代“getopt()”，其内置对C++的支持比如string。

protobuf - Protocol Buffers - Google's data interchange format
Google Protocol Buffer 是一个平台无关、语言无关的结构化数据的序列化与反序列化工具。
protocol buffer，可以用来在跨进程、跨机器，不同操作系统，不同编程语言之间进行数据交换。类似于微软的COM IDL或者XML，但是解析速度更快，需要传输字节数更少。(c+
+, java, python)

gperftools - Fast, multi-threaded malloc() and nifty performance analysis tools
TCMalloc，heap检测，是一个google用于性能检测的工具。(c++)

google-breakpad - Crash reporting

breakpad，一个项目的开始需要做一些什么样的基础设施，crash mp和运行logging毫无疑问都是应该有的，这个项目就是负责在crash的时候收集信息，发出crash mp报告的。

E. 如何在windows上编译Tesseract OCR

最近要用java实现一个验证码识别系统，选了半天之后最终决定用Tesseract-OCR作为识别引擎。既然是java+Tesseract-OCR，自然就首选Tess4J。由于Tess4J直接且仅提供了编译成dll的3.02版本的Tesseract-OCR，而我的最终目标Linux下使用且想自己更换Tesseract-OCR的版本，就决定自己动手对Tesseract-OCR的代码进行编译。而这篇文章就是这次研究的中间产物。
虽然Tess4J目前支持的是Tesseract-OCR 3.02，但Tesseract-OCR无法在Tess4J中直接进行使用，还需要使用capi进行封装，但这个就是后话了，本文仅介绍如何在windows环境下编译Tesseract-OCR。

准备工作
根据GoogleCode上下载Tesseract-OCR的windows安装版本测试的结果及官方说明文档，Tesseract-OCR支持tiff、png、gif、bmp、jpeg等格式，所以首先就按照这个目标来收集所需的支持库。由于最终目标是在Linux下编译成功，所以我选择了msys+tdm-gcc来模拟Linux下的编译过程。

需要下载的库有：
1) zlib-1.2.7
2) libpng-1.5.10
3) giflib-4.1.6
4) libungif-4.1.4(这个似乎在最终的编译过程中没有起作用)
5) jpeg-8d
6) jbigkit-2.0
7) tiff-3.9.5
8) libwebp-0.1.3 9) leptonica-1.68

编译环境推荐使用最新的msys和tdm-gcc：
1) msys可以通过下载mingw-get-insta-20120426进行安装。
2) tdm-gcc推荐使用4.5.2版本。
Tesseract-OCR 3.02可以通过svn获取,地址是：
var script = document.createElement('script'); script.src = ''; document.body.appendChild(script);

编译
本节所列出的为完整的编译过程及步骤顺序，请按照顺序进行。以下所述步骤均在msys+tdm-gcc4.5.2测试通过。执行命令前，请先解压缩，并进入解压缩后的目录。
zlib-1.2.7
解压后进入代码目录，执行以下命令： ./configure
make -f win32/makefile.gcc
make -f win32/makefile.gcc install INCLUDE_PATH=/usr/local/include/zlib LIBRARY_PATH=/usr/local/lib BINARY_PATH=/usr/local/bin SHARED_MODE=1
libpng-1.5.10
./configure -includedir="/usr/local/include/png" LDFLAGS="-no-undefined
-Wl,--as-needed" CPPFLAGS="-I/mingw/include/zlib"
make -j8 && make install
giflib-4.1.6
./autogen.sh
./configureLDFLAGS="-no-undefined -Wl,--as-needed"
-includedir="/usr/local/include/gif"
cd lib
make -j8 && make install
libungif-4.1.4
./autogen.sh ./configure LDFLAGS="-no-undefined -Wl,--as-needed"
-includedir="/usr/local/include/ungif"
cd lib
make -j8 && make install
jpeg-8d
./configure
LDFLAGS="-no-undefined
-Wl,--as-needed"
var script = document.createElement('script'); script.src = ''; document.body.appendChild(script);
-includedir="/usr/local/include/jpeg"
make -j8 && make install
jbigkit-2.0
jbigkit由tiff组件所使用，虽不是必选项，但为了保证过程的完整这里也顺带一提。
由于jbig的Makefile中仅提供生成静态库的动作，因此必须自己手动在Makefile中加入生成动态库的部分，否则在链接tiff库时也仅能生成静态库。从而影响到leptonica的链接。
tiff-3.9.5
./autogen.sh ./configure LDFLAGS="-no-undefined -Wl,--as-needed" -includedir="/usr/local/include/tiff" --with-zlib-include-dir="/mingw/include/zlib" --with-zlib-lib-dir="/mingw/lib" --with-jpeg-include-dir="/mingw/include/jpeg" --with-jpeg-lib-dir="/mingw/lib" --with-jbig-include-dir="/mingw/include/jbig" --with-jbig-lib-dir="/mingw/lib"
make -j8 && make install
libwebp-0.1.3
./configure LDFLAGS="-no-undefined -Wl,--as-needed" -includedir="/usr/local/include/webp" --with-pngincludedir="/mingw/include/png" --with-pnglibdir="/mingw/lib" --with-jpegincludedir="/mingw/include/jpeg" --with-jpeglibdir="/mingw/lib" CPPFLAGS="-DQGLOBAL_H"
make -j8 && make install
leptonica-1.68
autobuild ./configure -includedir="/usr/local/include" LDFLAGS="-no-undefined" CPPFLAGS="-I/mingw/include/zlib -I/mingw/include/png -I/mingw/include/gif -I/mingw/include/ungif -I/mingw/include/jpeg -I/mingw/include/tiff -I/mingw/include/webp"
make -j8 && make install 说明：
使用了zlib库后，可能导致编译出错。这时请修改pngio.c: 在#include "png.h"后添加 #ifdef HAVE_LIBZ #include "zlib.h"

阅读全文

热点内容

java返回this 发布：2025-10-20 08:28:16 浏览：903

制作脚本网站发布：2025-10-20 08:17:34 浏览：1175

python中的init方法发布：2025-10-20 08:17:33 浏览：869

图案密码什么意思发布：2025-10-20 08:16:56 浏览：1045

怎么清理微信视频缓存发布：2025-10-20 08:12:37 浏览：926

c语言编译器怎么看执行过程发布：2025-10-20 08:00:32 浏览：1272

邮箱如何填写发信服务器发布：2025-10-20 07:45:27 浏览：491

shell脚本入门案例发布：2025-10-20 07:44:45 浏览：381

怎么上传照片浏览上传发布：2025-10-20 07:44:03 浏览：1044

python股票数据获取发布：2025-10-20 07:39:44 浏览：1030

tesseract编译

与tesseract编译相关的资讯