Một số phần mềm và website hỗ trợ nhận dạng ký tự quang học (OCR) miễn phí!

OCRTopOCR

TopOCR sử dụng những công nghệ mới, mạnh nhất trong nhận dạng ký tự quang học và xử lý chữ ký điện tử để cho kết quả tốt nhất khi nhận dạng ký tự quang học từ ảnh chụp bằng các thiết bị như máy ảnh số hay điện thoại di động. Công nghệ này là kết quả sau nhiều năm nghiên cứu và phát triển tại Mỹ và châu Âu. Không giống như các phần mềm khác được thiết kế cho máy quét, TopOCR được phát triển cho việc nhận dạng ký tự trong các bức ảnh chụp. Cũng có một phiên bản chạy trên Windows Mobile và cũng cung cấp khả năng xử lý ảnh chụp rất tuyệt vời.

SimpleOCR

Đây là phần mềm OCR khá mạnh dùng cho máy quét. Phần mềm này khá phổ biến trên thế giới với hàng trăm ngàn người dùng. Bạn có thể tùy chọn những vùng trong ảnh quét để chương trình bỏ qua không xử lý cùng với nhiều tùy chọn hữu ích khác. Chương trình còn có khả năng nhận dạng chữ viết tay và học từ mới. SimpleOCR cũng cung cấp bộ SDK cho các nhà phát triển để họ sử dụng trong các chương trình của riêng họ. Nếu bạn có máy quét, SimpleOCR là một công cụ rất mạnh để nhận dạng ký tự quang học thay cho việc đánh máy nhàm chán.

MS Office Document Imaging (MODI)


Mặc dù MS Office trên nguyên tắc không phải là phần mềm miễn phí nhưng hầu như có mặt trong mọi chiếc máy tính. MODI là công cụ đi kèm trong MS Office Tools (khởi động thông qua Start > Programs > Microsoft Office > Microsoft Office Tools). Để nhận dạng chữ, bạn mở file ảnh cần nhận dạng ra và bấm vào biểu tượng hình con mắt trên thanh công cụ. Khi đưa chuột lên biểu tượng này, bạn sẽ thấy dòng chữ Recognize Text Using OCR.

FreeOCR.net

Trang web này cung cấp khá nhiều phần mềm OCR như FreeOCR, GOCR, cũng như liên kết tới http://asv.aso.ecei.tohoku.ac.jp/tesseract/, một trang web có khả năng nhận dạng ký tự quang học trong những bức ảnh bạn tải lên, nhờ vào engine Tesseract của Google. FreeOCR là một chương trình .NET, dựa trên Tesseract, nhưng mạnh hơn ở phần quét văn bản và hỗ trợ nhận dạng compressed TIFF mà chính engine Tesseractkhông làm được.

Free-ocr.com

Đây cũng là một trong số các trang web hỗ trợ nhận dạng OCR miễn phí đáng quan tâm. Hệ thống hỗ trợ các loại định dạng file đầu vào: PDF, JPG, GIF, TIFF, BMP

VietOCR

Chương trình này dựa trên Tesseract, có khả năng nhận dạng chữ Việt rất tốt, hỗ trợ giao diện tiếng Việt. Đây là một chương trình nguồn mở Java/.NET, hỗ trợ nhận dạng cho các dạng ảnh tiff, jpeg, gif, png, và bmp.

Tuy nhiên, không phải cứ có một phần mềm tốt là đủ để bạn thực hiện công việc số hóa tài liệu giấy. Điều quan trọng nhất là ảnh quét của bạn phải có chất lượng đủ tốt, khoảng 200 dpi trở lên thì việc nhận dạng mới chính xác được. Việc nhận dạng chữ Việt thường xảy ra lỗi do các chữ tương tự nhau, thiếu dấu hay lầm giữa chữ hoa và chữ thường, vì vậy đòi hỏi bạn phải chỉnh sửa tài liệu sau khi nhận dạng để có kết quả tốt nhất.

Có lẽ bạn sẽ thắc mắc phần mềm nào là tốt nhất? Thật ra tất cả các công cụ trên đều làm rất tốt, bạn hãy thử qua từng phần mềm và tự tìm ra cho mình công cụ phù hợp. Các phần mềm đề cập trong bài viết này có thể tải tại http://aone.ws/url/1.

……

Sưu tầm

VN:F [1.9.22_1171]
Rating: 0.0/5 (0 votes cast)
Share Button


Admin Blog GiaiPhapSo.Info | Với tôi: "Sống là để trải nghiệm và chia sẻ đam mê!" Facebook | Twitter | Linked In | Google+

Advertisement

One Response to “Một số phần mềm và website hỗ trợ nhận dạng ký tự quang học (OCR) miễn phí!”

  1. zorofpt

    Sep 21. 2011

    Số hoá tài liệu tiếng Việt, nhận dạng ký tự tiếng Việt, chuyển đổi từ ảnh quét sang văn bản text. Hỗ trợ hơn 200 ngôn ngữ từ tiếng Việt đến Anh, Trung, Hàn, Nhật, Nga, Đức, Tây Ban Nha, Ả rập, …. Chính xác trên 99%, giải pháp chuyên nghiệp hàng đầu thế giới, sản phẩm và công nghệ của Mỹ. Giữ nguyên chính xác cấu trúc, style, bảng biểu, đồ thị, hình ảnh… của tài liệu gốc, không phải dàn trang căn chỉnh lại. Hỗ trợ mọi loại ảnh đầu vào phổ biến (màu, đen trắng, xám): TIFF, BMP, JPEG, PDF, PNG. Kết xuất đầu ra đa dạng: PDF, WORD, RTF, EXCEL, TXT, CSV, XML, HTML…

    Liên hệ: 0985938585

    (Tag: Nhận dạng ký tự, Nhận dạng ký tự tiếng Việt, Ảnh thành văn bản, Nhận dạng ký tự tiếng Trung, Nhận dạng ký tự tiếng Hàn, Nhận dạng ký tự tiếng Đức, Nhận dạng ký tự tiếng Nga, Nhận dạng ký tự tiếng Nhật, Số hoá tài liệu, Nhận dạng chữ viết, Nhận dạng ảnh quét, Nhận dạng chữ in, Số hoá văn bản, Số hoá tài liệu, Số hoá tiếng Việt, Số hoá tài liệu giấy, Số hoá tài liệu trên giấy)

    Reply to this comment

Leave a Reply