1. Khái niệm
Thuật ngữ OCR : Optical Character Recognition
Dịch qua Tiếng Việt gọi là: Nhận dạng ký tự bằng quang học.
Đây là công nghệ được áp dụng để nhận dạng ký tự trên một định dạng file hình và chuyển nó thành định dạng file text.
2. Phạm vi ứng dụng
OCR thường được ứng dụng như một phần mềm cài đặt trên máy tính hoặc tích hợp đi kèm với phần cứng (cụ thể là máy Scanner) hoặc được thiết lập như một ứng dụng trực tuyến.
Ví dụ:
- ABBYY FineReader là một phần mềm ứng dụng công nghệ OCR nổi tiếng nhất hiện nay
- OmniPage là một ứng dụng đi kèm với dòng máy Kodak ScanMate i1120 giúp nhận dạng văn bản sau khi quét.
- Website www.ocrnow.com là một trang web cung cấp giải pháp OCR trực tuyến giúp người dùng có thể upload trực tiếp file cần OCR lên server và nhận lại kết quả dưới dạng text chỉ sau vài phút.
3. Khó khăn và hạn chế của OCR
Các chương trình hỗ trợ OCR có thể nhận dạng ký tự với tỷ lệ trên 90% đối với chất lượng hình ảnh rõ nét và font chữ thông thường. Đối với hình chất lượng kém, font chữ đặc biệt hoặc chữ viết tay thì kết quả cho ra không mấy khả quan.
Đối với văn bản Tiếng Việt thì tỷ lệ phần trăm chính xác không cao so với các văn bản ngôn ngữ khác.
4. OCR đối với Tiếng Việt
Hiện nay tại Việt Nam đã có chương trình nhận dạng Tiếng Việt có tên là VnDOCR do Phòng nhận dạng và Công nghệ Tri thức – Viện Công nghệ Thông tin nghiên cứu và phát triển. Bên cạnh đó còn có một dự án OCR Tiếng Việt có tên VietOCR (http://vietocr.sourceforge.net). Dự án này được phát triển dựa trên nền tảng mã nguồn mở tesseract-ocr do Google tài trợ.
Tuy nhiên theo đánh giá của cá nhân tôi thì các chương trình này vẫn còn trong giai đoạn khởi đầu, tính năng và chất lượng nhận dạng chỉ ở mức trung bình. Đối với các văn bản viết tay thì hầu như không thể nhận dạng được.
Hy vọng rằng trong các năm tới đây chúng ta sẽ nghiên cứu và phát triển thành công ứng dụng công nghệ OCR cho giải pháp số hoá dữ liệu văn bản Tiếng Việt, góp phần vào sự phát triển chung của nước nhà!.






kata
Jun 25. 2009
Cám ơn Mr Giải Pháp Số đã chia sẻ thông tin khá là thú vị cho anh em tụi mình! Dự định trong tương lai công ty của tôi sẽ số hóa 1 số tài liệu mật .Bởi vì số lượng tài liệu khá là nhiều không thể tự giải quyết nhanh chóng được. Không biết Mr biết công ty nào có thể đảm bảo được vấn đề này không?
Mr. Giải Pháp Số
Jun 27. 2009
Bạn cứ liên hệ trực tiếp với mình qua điện thoại để được tư vấn thêm.
Hiện tại Có một vài Công ty hoạt động trong lĩnh vực số hóa tại Việt Nam tuy nhiên DIGI-TEXX vẫn là một lựa chọn hàng đầu. Cty này đã có một bề dày lịch sử về lĩnh vực số hóa không chỉ trong nước mà còn ở thị trường Châu Âu.
ngthfong
Dec 05. 2009
Cái này hay! Tuy nhiên vẫn còn một số bị lỗi. Nếu anh khắc phục được tính “phỏng đoán” cho ảnh mờ thì đúng là đỉnh đỉnh!
Nguyễn Hồng Khánh
Jan 22. 2010
Cái này hay nhưng cho đến hiện tại thì cần phải cập nhật thêm thông tin rồi!
Xin báo tin vui với mọi người, công nghệ nhận dạng OCR của ABBYY đã hỗ trợ nhận dạng tiếng Việt với độ chính xác rất cao, cỡ 99%.
Ngoài ra, hiện tại ABBYY đã có nhà phân phối chính thức tại Việt Nam, xin mời tham quan http://www.sohoa.com.vn.
Website này còn cho phép thực hiện việc convert tài liệu ảnh sang word trực tiếp trên internet, chỉ cần vào đăng kí tài khoản, đăng nhập là có thể upload các tài liệu ảnh và nhận về các tài liệu dạng word.
Về khả năng và chất lượng nhận dạng tiếng Việt thì công nghệ của ABBYY chắc chắn vượt hẳn so với phần mềm Vndocr4.0 của viện CNTT rồi. Tài liệu sau khi nhận dạng giữ nguyên được kiểu chữ, phông chữ, bảng biểu, cấu trúc, trình bày…
Hiện trang này đang cho dùng thử miễn phí đấy ạ.
Các anh chị vào đấy xem nhé!
MrGiaiPhapSo
Jan 22. 2010
Chào bạn,
Đúng là từ khi nghỉ ở DIGI-TEXX thì mình không còn tập trung nghiên cứu về OCR nữa!
Từ lúc http://www.sohoa.com.vn ra đời là mình đã biết! Và DIGI-TEXX cũng là đại lý bán lẻ cho ABBY.
Tuy nhiên các gói sản phẩm của ABBY khá đắt! không phù hợp đối với các dự án vừa và nhỏ! Do vậy vẫn phải cần những giải pháp khác rẻ tiền hơn, thậm chí là nhập bằng tay!
–
Nhân tiện mình hỏi xem bên Đông Kinh có muốn hợp tác với giaiphapso để Marketing online cho sản phẩm của mình không?
beth
Apr 17. 2010
Anh tiện thể có thể giải thích sơ qua về hoạt động của trang web này không ah. http://docs.google.com/View?id=dfdk49wz_0xvkmbmc7 Điều em thắc mắc là: Họ nhận công việc này thông qua cách thức như thế nào (tức là mối liên hệ của Nhóm này với nguồn nhập liệu như thế nào), còn phần mềm kapchist thực ra là phần mềm như thế nào, do ai viết ra (của việt Nam hay của nước ngoài). Hotmail, Gmail … trả tiền cho họ bằng cách nào … Em băn khoăn quá thưa anh.
MrGiaiPhapSo
Apr 19. 2010
Chào @beth!
Theo như nội dung mà em gửi anh thì đây là một dịch vụ nhập liệu mã Kapcha! (Anh đã từng tham gia và là trưởng nhóm 1 thời gian). Dịch vụ này dùng cho mục đích marketing, đăng ký tài khoản tự động! :-[
Tuy nhiên công việc này chỉ thích hợp để làm partime, không hiệu quả nếu đánh máy chậm, mạng yếu!
Còn về phần mềm Kapchist mà em nói thì đó là một phần mềm bảo mật dùng để ngăn chặn spam khi đăng ký form. Đây là phần mềm của nước ngoài, công ty (website) nào sử dụng thì sẽ phải trả tiền bản quyền… (*)
Hiện nay có nhiều phần mềm, ứng dụng gần giống với nó nhưng không phải chính hãng.
Hy vọng một số thông tin trên giúp em giải tỏa thắc mắc phần nào!
beth
Apr 19. 2010
Ở http://www.giaiphapso.info/about/ đoạn cuối
“Trên bước đường xây dựng và phát triển …. ủng hộ và khích lệ từ phí độc giả, bạn bè, cộng tác viên….”, chữ “phía” bị thiếu mất chữ a ah
Cảm ơn anh đã trả lời, em muốn hỏi thêm là, ví dụ như em không muốn làm cộng tác dưới sự quản lí của các nhóm kia, mà tự lập nhóm nhận dịch vụ của bên Hotmail, yahoo … thì em sẽ tìm hiểu những vấn đề gì ah.
Em còn được biết, chỉ có thể làm ở những thời gian nhất định nào đó, qua khoảng này thì bên server của mấy trang hotmail, yahoo sẽ đóng lại, không cho load captcha nữa. Vậy nghĩa là sao ah! Và đăng tài khoản tự động và marketing theo hình thức này như thế nào ah? có phải là dạng spam mail để quảng cáo dịch vụ của các công ty không ah?
Cảm ơn anh rất nhiều
zorofpt
Sep 17. 2011
Số hoá tài liệu tiếng Việt, nhận dạng ký tự tiếng Việt (hỗ trợ hơn 200 ngôn ngữ, chính xác trên 99%, giải pháp chuyên nghiệp hàng đầu thế giới)
Số hoá tài liệu tiếng Việt, nhận dạng ký tự tiếng Việt, chuyển đổi từ ảnh quét sang văn bản text. Hỗ trợ hơn 200 ngôn ngữ từ tiếng Việt đến Anh, Trung, Hàn, Nhật, Nga, Đức, Tây Ban Nha, Ả rập, …. Chính xác trên 99%, giải pháp chuyên nghiệp hàng đầu thế giới, sản phẩm và công nghệ của Mỹ. Giữ nguyên chính xác cấu trúc, style, bảng biểu, đồ thị, hình ảnh… của tài liệu gốc, không phải dàn trang căn chỉnh lại. Hỗ trợ mọi loại ảnh đầu vào phổ biến (màu, đen trắng, xám): TIFF, BMP, JPEG, PDF, PNG. Kết xuất đầu ra đa dạng: PDF, WORD, RTF, EXCEL, TXT, CSV, XML, HTML…
Liên hệ: 0985938585
(Tag: Nhận dạng ký tự, Nhận dạng ký tự tiếng Việt, Ảnh thành văn bản, Nhận dạng ký tự tiếng Trung, Nhận dạng ký tự tiếng Hàn, Nhận dạng ký tự tiếng Đức, Nhận dạng ký tự tiếng Nga, Nhận dạng ký tự tiếng Nhật, Số hoá tài liệu, Nhận dạng chữ viết, Nhận dạng ảnh quét, Nhận dạng chữ in, Số hoá văn bản, Số hoá tài liệu, Số hoá tiếng Việt)