这篇文章主要介绍了C#版中Tesseract库有什么用,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。
其实在vs中可以直接用NuGet工具进行下载:
打开nuget,搜索tesseract,点安装即可。
源码是vs2015编译的,需要安装vs2015以上版本。
打开项目后如:
我们再添加一个winform项目,画界面如:
实现点击“选择需要识别的图片”,打开一张图片,调用算法并显示结果。比较简单。源码如下:
using System;using System.Collections.Generic;using System.ComponentModel;using System.Data;using System.Drawing;using System.Linq;using System.Text;using System.Threading.Tasks;using System.Windows.Forms;using Tesseract;namespace TesseractDemo{ public partial class Form1 : Form { public Form1() { InitializeComponent(); } //选图片并调用ocr识别方法 private void btnRec_Click(object sender, EventArgs e) { //openFileDialog1.Filter = ""; if (openFileDialog1.ShowDialog() == DialogResult.OK) { var imgPath = openFileDialog1.FileName; pictureBox1.Image=Image.FromFile(imgPath); string strResult = ImageToText(imgPath); if (string.IsNullOrEmpty(strResult)) { txtResult.Text = "无法识别"; } else { txtResult.Text = strResult; } } } //调用tesseract实现OCR识别 public string ImageToText(string imgPath) { using (var engine = new TesseractEngine("tessdata", "eng", EngineMode.Default)) { using (var img = Pix.LoadFromFile(imgPath)) { using (var page = engine.Process(img)) { return page.GetText(); } } } } }}
有一点要注意的是,tesseract的识别语言包要自己下载后包含到项目里面,并设置为始终复制,或者直接把这个文件包放到运行程序目录(bin\debug)下:
eng是英文字符的意思,要识别其他语言字符,需要自己下载:
Tesseract hasunicode (UTF-8) support, and canrecognize more than 100 languages"out of the box".
这个库支持100种语言的识别
字库下载地址为:https://github.com/tesseract-ocr/tessdata
用OpencvSharp先降噪再调OCR识别:
//用opencv进行降噪处理再ocr识别 private void button3_Click(object sender, EventArgs e) { //从网上读取一张图片 string imgUrl = "https://service.cheshi.com/user/validate/validatev3.php"; MemoryStream ms = ReadImgFromWeb(imgUrl); Image img = Image.FromStream(ms); pictureBox1.Image = img; //降噪 Mat simg = Mat.FromStream(ms, ImreadModes.Grayscale); Cv2.ImShow("Input Image", simg); //阈值操作 阈值参数可以用一些可视化工具来调试得到 Mat ThresholdImg = simg.Threshold(29, 255, ThresholdTypes.Binary); Cv2.ImShow("Threshold", ThresholdImg); Cv2.ImWrite("d:\\img.png", ThresholdImg); textBox1.Text= ImageToText("d:\\img.png"); } /// <summary> /// 从网上读取一张图片 /// </summary> /// <param name="Url"></param> public MemoryStream ReadImgFromWeb(string Url) { HttpWebRequest request = (HttpWebRequest)WebRequest.Create(Url); request.Credentials = CredentialCache.DefaultCredentials; // 添加授权证书 request.UserAgent = "Microsoft Internet Explorer"; WebResponse response = request.GetResponse(); Stream s = response.GetResponseStream(); byte[] data = new byte[1024]; int length = 0; MemoryStream ms = new MemoryStream(); while ((length = s.Read(data, 0, data.Length)) > 0) { ms.Write(data, 0, length); } ms.Seek(0, SeekOrigin.Begin); //pictureBox1.Image = Image.FromStream(ms); return ms; }
C#是什么
C#是一个简单、通用、面向对象的编程语言,它由微软Microsoft开发,继承了C和C++强大功能,并且去掉了一些它们的复杂特性,C#综合了VB简单的可视化操作和C++的高运行效率,以其强大的操作能力、优雅的语法风格、创新的语言特性和便捷的面向组件编程从而成为.NET开发的首选语言,但它不适用于编写时间急迫或性能非常高的代码,因为C#缺乏性能极高的应用程序所需要的关键功能。
感谢你能够认真阅读完这篇文章,希望小编分享的“C#版中Tesseract库有什么用”这篇文章对大家有帮助,同时也希望大家多多支持编程网,关注编程网行业资讯频道,更多相关知识等着你来学习!