Lịch Sử OCR và Sự Ra Đời Khái Niệm Vision-First OCR

Bài viết dựa trên tham luận "Mô hình OCR chuyên biệt cho văn bản Khmer hậu Angkor và chữ viết trên lá Buông" — trình bày tại Tọa đàm Đại học Trà Vinh, 28/1/2026.

Phần 1: 110 năm lịch sử OCR

Optical Character Recognition (OCR) là một trong những bài toán lâu đời nhất trong lịch sử điện toán. Nhưng ít người biết rằng hành trình của nó khởi đầu không phải từ máy tính, mà từ một nhu cầu nhân văn: giúp người mù đọc sách.

Giai đoạn 1: Cơ học và điện (1914–1960)

Năm 1914, Emanuel Goldberg — nhà khoa học người Đức gốc Nga — phát triển máy đọc ký tự quang học đầu tiên sử dụng tế bào quang điện. Năm 1931, ông được cấp bằng sáng chế cho "Statistical Machine" — thiết bị có thể nhận dạng văn bản và phân loại tài liệu bằng ánh sáng.

Năm 1951, David Shepard tại Hoa Kỳ xây dựng "Gismo" — máy OCR thương mại đầu tiên, ứng dụng để đọc mã điện báo Morse và văn bản in. Đến cuối thập niên 1950s, ngành bưu điện và ngân hàng bắt đầu thử nghiệm OCR để tự động hóa phân loại thư và đọc séc.

Năm	Cột mốc
1914	Emanuel Goldberg — máy đọc ký tự quang học đầu tiên
1931	Statistical Machine — phân loại tài liệu bằng ánh sáng
1951	Gismo (Shepard) — OCR thương mại đầu tiên
1965	IBM 1287/1288 — ngành bưu chính Mỹ triển khai quy mô lớn

Giai đoạn 2: Pattern Matching (1960–1990)

Thập niên 1960–1980, OCR chuyển từ phần cứng chuyên dụng sang phần mềm. Kỹ thuật chủ đạo là template matching: lưu trữ hình dạng "lý tưởng" của mỗi ký tự, rồi so sánh ký tự trong ảnh với kho mẫu.

Phương pháp này hoạt động tốt với font chữ chuẩn, in rõ — nhưng sụp đổ hoàn toàn khi gặp phông chữ lạ, văn bản bị hỏng, hoặc bất kỳ ngôn ngữ nào không có cấu trúc Latin tuyến tính. Với chữ Khmer — vốn có hệ thống dấu phụ chồng nhiều tầng — template matching thực tế là vô dụng.

Giai đoạn 3: Thống kê và Neural Network thế hệ đầu (1990–2010)

Bước ngoặt lớn đến khi Tesseract — phát triển bởi Hewlett-Packard từ 1985, Google tiếp nhận năm 2006 — trở thành engine OCR mã nguồn mở phổ biến nhất thế giới. Tesseract dùng kết hợp phân tích đặc trưng hình học và mô hình ngôn ngữ N-gram.

Đây là lúc một xu hướng quan trọng được thiết lập: các hệ thống OCR bắt đầu tích hợp mô hình ngôn ngữ để "sửa" kết quả nhận dạng. Với tiếng Anh và các ngôn ngữ châu Âu có corpus lớn, cách này cải thiện đáng kể độ chính xác.

Tesseract — từ HP Labs đến Google (1985–2006)
Ban đầu nghiên cứu tại HP Labs Bristol từ 1985–1994. Google mã nguồn mở hóa năm 2006. Phiên bản 4.0 (2018) tích hợp LSTM và hỗ trợ hơn 100 ngôn ngữ. Dù vậy, khả năng xử lý chữ Khmer cổ vẫn rất hạn chế vì phụ thuộc nặng vào corpus hiện đại.

Giai đoạn 4: Deep Learning (2012–nay)

Năm 2012, AlexNet thắng ImageNet — khoảnh khắc đánh dấu kỷ nguyên deep learning. Từ 2015 trở đi, CNN, RNN/LSTM, và Transformer bắt đầu thay thế hoàn toàn các phương pháp cũ.

Google Vision API, Microsoft Azure OCR, Amazon Textract — tất cả đều đạt độ chính xác rất cao trên văn bản tiếng Anh, tiếng Trung, tiếng Ả Rập. Nhưng với chữ Khmer lịch sử, chúng đều thất bại vì cùng một lý do cốt lõi — điều sẽ được phân tích trong phần tiếp theo.

Phần 2: Vấn đề cốt lõi — Khi OCR "quá thông minh"

Language-First OCR là gì?

Phần lớn hệ thống OCR hiện đại hoạt động theo mô hình hai lớp:

Lớp thị giác — nhận dạng hình dạng ký tự
Lớp ngôn ngữ — hiệu chỉnh kết quả dựa vào từ điển và mô hình xác suất

Lớp thứ hai nghe có vẻ hữu ích. Nhưng đối với văn bản lịch sử, nó là nguồn gốc của một vấn đề nghiêm trọng.

"OCR hiện đại (Google Lens, Cloud OCR) phụ thuộc nặng vào corpus hiện đại. Chúng tự động 'sửa' văn bản cổ về dạng hiện đại, làm mất thông tin gốc — và đây là hành vi không thể chấp nhận trong nghiên cứu lịch sử và bảo tồn di sản."

— Danh Hồng, Tham luận tại Đại học Trà Vinh, 28/1/2026

Tại sao chữ Khmer hậu Angkor là phép thử khắc nghiệt nhất?

Chữ Khmer trải qua ba giai đoạn phát triển chính:

Pre-Angkor: Ảnh hưởng Brahmi-Pallava, chủ yếu ghi Sanskrit trên bia ký, chính tả ổn định và mang tính học thuật cao
Angkor: Song ngữ Khmer-Sanskrit, ít ligature hơn Pallava, spelling vẫn tương đối ổn định. Đáng lưu ý: chỉ duy nhất vua Yasovarman I (889–910) dùng chữ Devanagari — sau đó lại quay về dùng chữ Khmer
Post-Angkor: Chữ viết trở thành phương tiện phổ biến trong Phật giáo Theravada và văn học dân gian. Xảy ra hiện tượng "Khmer hóa spelling" — điều chỉnh cách viết từ vay mượn Sanskrit/Pali theo âm đọc thực tế

Giai đoạn hậu Angkor tạo ra thách thức cực kỳ lớn: một từ có thể có nhiều cách viết tùy vùng miền và thời kỳ. Đây không phải lỗi — đây là đặc điểm lịch sử. Nhưng hệ thống language-first sẽ "sửa" tất cả về một dạng chuẩn duy nhất.

Bằng chứng thực nghiệm — thử nghiệm trên bài hát ái quốc «ចំរៀងយោធាយាត្រា» từ thập niên 1950:

Chính tả gốc (1950s)	Language-First đọc	NextOCR đọc
រមណិយស្ឋាន	រមណីយ ស្ពាន ❌	រមណិយស្ឋាន ✅
ប្រទុសរ៉ាយ	ជ្រុះខុសអើយ ❌	ប្រទុសរ៉ាយ ✅
ស្មគ្រ	ស្មគូ ❌	ស្មគ្រ ✅
ភូមីរណ	ផ្សភូមិវណ ❌	ភូមីរណ ✅

Kết quả: 1 lỗi (NextOCR) vs 20 lỗi (language-first) trên cùng 8 dòng văn bản.

Quan trọng hơn: 20 lỗi đó không phải do nhận dạng thị giác kém — mà do lớp hiệu chỉnh ngôn ngữ áp chính tả hiện đại lên văn bản cổ, hủy hoại giá trị lịch sử.

Thách thức riêng của văn bản lá buông

Ngoài vấn đề spelling, lá buông đặt ra thách thức vật lý:

Ký tự khắc tay không đều về kích thước và khoảng cách
Nền lá có vân, nứt, phai màu qua nhiều thế kỷ
Ảnh chụp thường cong méo
Nội dung chủ yếu là Khmer hậu Angkor, Pali/Sanskrit đã Khmer hóa

Kết luận từ tham luận: "Các hệ thống OCR phổ thông gần như không thể áp dụng."

Phần 3: Sự Ra Đời Khái Niệm Vision-First OCR tại Đại học Trà Vinh

Bối cảnh

Tháng 1 năm 2026, Đại học Trà Vinh tổ chức tọa đàm "Sách lá Buông: Bảo tồn và gìn giữ di sản văn hóa Khmer qua công nghệ số" — sự kiện quy tụ:

GS.TS Phạm Tiết Khánh — Chủ tịch Hội đồng chiến lược ĐH Trà Vinh (đồng chủ tọa)
Ông Thạch Mu Ni — Phó Giám đốc Sở Dân tộc và Tôn giáo tỉnh Vĩnh Long
Thượng tọa Sơn Kene — Chánh VP Hội Đoàn kết sư sãi yêu nước tỉnh Vĩnh Long
TS Ngô Sô Phe — Hiệu trưởng Trường Ngôn ngữ-Văn hóa-Nghệ thuật Khmer Nam bộ (ĐH Trà Vinh)
Đại diện Đại sứ quán Canada tại Việt Nam (đơn vị tài trợ dự án số hóa lá buông)

Tại đây, lần đầu tiên trong một diễn đàn học thuật chính thức, khái niệm Vision-First OCR được đề xuất và trình bày hệ thống — không chỉ là một giải pháp kỹ thuật đơn thuần, mà là một triết học thiết kế riêng biệt.

Định nghĩa Vision-First OCR

Vision-First OCR không phải chỉ là một kiến trúc model cụ thể. Đây là một nguyên tắc thiết kế:

Coi biến thể spelling là dữ liệu lịch sử cần bảo tồn, không phải lỗi cần sửa.

Điều này đòi hỏi:

Huấn luyện trực tiếp trên ảnh thực của lá buông và tài liệu lịch sử — không dùng font chữ tổng hợp
Không áp đặt chuẩn viết hiện đại — output phản ánh trực tiếp những gì có trên trang
Không dùng từ điển hiệu chỉnh — CER được đo trước post-processing, không sau
Tối ưu cho CPU — phù hợp với chùa chiền và viện nghiên cứu có hạ tầng hạn chế

So sánh triết học thiết kế

Tiêu chí	Language-First	Vision-First (NextOCR)
Chính tả cổ	"Sửa" về chuẩn hiện đại ❌	Giữ nguyên gốc ✅
Từ Pali/Sanskrit đã Khmer hóa	Thay bằng từ có trong từ điển ❌	Nhận dạng từ hình ảnh ✅
Văn bản lá buông	Thất bại hoàn toàn ❌	Huấn luyện trên dữ liệu thật ✅
Đo CER	Sau post-processing	Trước post-processing
Triển khai	Cần cloud	CPU-only, on-premise ✅

Phần 4: Kết Quả và Phương Pháp Luận

Chỉ số hiệu năng

CER: 0.07% trong điều kiện tối ưu (đo trực tiếp, không qua hiệu chỉnh từ điển)
1 lỗi vs 20 lỗi trên văn bản Khmer 1950s (8 dòng thơ)
20× ít lỗi hơn so với hệ thống language-first truyền thống

Điểm phương pháp luận quan trọng

Trong cộng đồng OCR, có một thực hành phổ biến nhưng gây hiểu nhầm: công bố CER sau khi đã chạy qua language correction post-processing.

Cách đo này không phản ánh năng lực thực sự của mô hình thị giác — nó phản ánh năng lực của từ điển và mô hình ngôn ngữ. Với văn bản hiện đại, hai thứ này giúp ích. Với văn bản lịch sử, chúng chính là nguồn gốc của lỗi.

NextOCR công bố CER trước post-processing — số liệu phản ánh trực tiếp năng lực nhận dạng thị giác thuần túy.

Phần 5: Ý Nghĩa và Hướng Tương Lai

Tại sao khái niệm này ra đời ở Đồng bằng sông Cửu Long?

Câu hỏi không chỉ là kỹ thuật: tại sao một khái niệm OCR mới lại ra đời không phải tại một hội nghị AI quốc tế, mà tại một tọa đàm bảo tồn di sản ở miền Nam Việt Nam?

Vì chính áp lực thực tế tạo ra câu hỏi đúng.

Tỉnh Trà Vinh có hơn 300.000 người Khmer (chiếm ~32% dân số), 143 chùa Phật giáo Nam tông Khmer, và một kho tàng lá buông với hàng thế kỷ kiến thức y học, luật pháp, văn học, triết học Phật giáo — chưa được số hóa. Các hệ thống OCR lớn của thế giới không thể giải quyết vấn đề này, vì chúng được xây dựng cho corpus hiện đại và ngôn ngữ có tài nguyên lớn.

Khi mục tiêu là bảo tồn trung thực — không phải nhận dạng "đủ dùng" — thì câu hỏi triết học trở nên không thể tránh: OCR nên đọc những gì thực sự có trên trang, hay những gì chúng ta nghĩ nên có?

Vision-First OCR là câu trả lời cho câu hỏi đó.

Từ OCR đến Vision-Language Model lịch sử Khmer

Như được đề xuất trong tham luận, Vision-First OCR là bước nền tảng cho mục tiêu lớn hơn: VLM chuyên biệt cho di sản văn bản Khmer.

Cấu trúc dữ liệu huấn luyện VLM gồm 4 lớp:

Ảnh gốc — scan lá buông, bia ký, tài liệu
Ngữ cảnh lịch sử — thời kỳ, vùng địa lý, thể loại
Văn bản OCR thô (vision-first) — trung thực với spelling gốc
Cách viết hiện đại tương ứng — khi có thể xác định

Chỉ Vision-First OCR mới có thể tạo ra lớp thứ 3 đúng cách. Đây là điểm khởi đầu không thể thay thế.

Kết luận

Trong 110 năm, OCR đi từ máy quang điện cơ học đến deep learning transformer. Nhưng suốt hành trình đó, một giả định ngầm luôn tồn tại: mô hình ngôn ngữ giúp OCR tốt hơn.

Giả định đó đúng với văn bản hiện đại và ngôn ngữ có từ điển lớn. Nó sai với văn bản lịch sử, chữ viết thiểu số, và bất kỳ trường hợp nào mà "đúng" nghĩa là trung thực với gốc — không phải "chuẩn theo từ điển hiện đại".

Vision-First OCR ra đời từ nhận thức đó. Và nó được đặt tên lần đầu tiên không phải tại Silicon Valley hay một hội nghị AI ở Geneva, mà tại một tọa đàm về những trang lá cọ mỏng manh đang dần phai màu trong các chùa Khmer ở Đồng bằng sông Cửu Long.

Thử NextOCR trên tài liệu Khmer của bạn: nextocr.org

Developer API: developer.nextocr.org

Liên hệ: danhhong@gmail.com | Telegram: t.me/hout18