光学字符识别(OCR,OpticalCharacterRecognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程.Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一