CMC đạt tốp 12 thế giới về nhận dạng văn bản

Mô hình CATI-VLM (Visual Document Understanding) do Viện Ứng dụng công nghệ CMC(CMC ATI) phát triển đã vượt qua nhiều đối thủ quốc tế đạt tốp 12 thế giới và tốp 1 Việt Nam trong bảng xếp hạng vừa được Robust Reading Competition (RRC) công bố tháng 6/2025 tại hạng mục Document Visual Question Answering (DocVQA)

Bảng xếp hạng của RRC trong hạng mục DocVQA 6/2025.
Bảng xếp hạng của RRC trong hạng mục DocVQA 6/2025.

Trong bối cảnh chuyển đổi số và chuyển đổi ứng dụng trí tuệ nhân tạo tại Việt Nam đang diễn ra mạnh mẽ, công nghệ OCR (Nhận dạng ký tự quang học) ngày càng giữ vai trò quan trọng trong việc số hóa tài liệu, tự động hóa quy trình nghiệp vụ, tiết kiệm chi phí và nâng cao hiệu quả quản trị. Tuy nhiên, với đặc thù tiếng Việt có dấu và chữ viết tay, bài toán nhận dạng không chỉ dừng lại ở việc 'đọc chữ', mà đòi hỏi mô hình phải có khả năng hiểu ngữ cảnh toàn diện.

Mới đây, Viện Ứng dụng công nghệ CMC (CMC ATI) đã công bố mô hình CATI-VLM (Visual Document Understanding) - do đội ngũ nghiên cứu phát triển từ kho dữ liệu lớn 5TB, vượt qua nhiều đối thủ quốc tế đạt tốp 12 thế giới và tốp 1 Việt Nam trong bảng xếp hạng vừa được Robust Reading Competition (RRC) công bố tháng 6/2025 tại hạng mục Document Visual Question Answering (DocVQA).

Robust Reading Competition (RRC) là một sân chơi khoa học uy tín, (https://rrc.cvc.uab.es/) được tổ chức bởi Trung tâm Thị giác máy tính (CVC) thuộc Đại học Autònoma de Barcelona (UAB) Tây Ban Nha, một cơ sở nghiên cứu có uy tín của thế giới trong lĩnh vực thị giác máy tính.

Cuộc thi khởi xướng từ năm 2011, được tổ chức thường niên trong khuôn khổ Hội nghị Quốc tế về phân tích và nhận dạng văn bản ICDAR – một trong những diễn đàn hàng đầu thế giới trong lĩnh vực thị giác máy tính. Cuộc thi thu hút đông đảo các nhà nghiên cứu, kỹ sư từ các trường đại học, viện nghiên cứu và các tập đoàn công nghệ lớn như Đại học Thanh Hoa, Hyundai Motor Group, Tencent… Các bài toán của RRC được thiết kế để thúc đẩy tiến bộ công nghệ, gắn chặt với bài toán thực tiễn từ dịch thuật, quản trị dữ liệu doanh nghiệp đến phân tích đô thị và xử lý tài liệu lịch sử.

Tiến sĩ Đặng Minh Tuấn, Viện trưởng CMC ATI chia sẻ: "Chúng tôi rất vui mừng khi năng lực nghiên cứu của đội ngũ CMC được khẳng định qua một sân chơi uy tín toàn cầu như RRC. Chỉ trong thời gian ngắn, đội ngũ nghiên cứu đã đạt thứ hạng cao, cho thấy năng lực cạnh tranh quốc tế với các tên tuổi lớn từ các quốc gia phát triển. Quan trọng hơn, đây là minh chứng rõ ràng cho khả năng làm chủ công nghệ để giải quyết các bài toán đặc thù của tiếng Việt và các lĩnh vực chuyên ngành tại Việt Nam."

z6764757325423-eeef2a0ed90465644555dcab3096c25c.jpg
Tiến sĩ Đặng Minh Tuấn, Viện trưởng CMC ATI.

CATI-VLM khác biệt so với OCR truyền thống ở chỗ không chỉ trích xuất ký tự, mà còn hiểu nhiều lớp thông tin: nội dung văn bản, yếu tố phi văn bản (ô tick, checkbox, biểu đồ, chữ ký, công thức), bố cục (cấu trúc trang, bảng biểu, form mẫu) và phong cách (font chữ, phần highlight…). Mô hình có thể trả lời câu hỏi trực quan đặt ra trên hình ảnh tài liệu, tương tự ChatGPT, mà không cần học trước từng form cụ thể.

Đáng chú ý, trên bảng xếp hạng RRC, CATI-VLM chỉ với 3 tỷ tham số nhưng đạt độ chính xác cao nhất ở 4/7 bộ dữ liệu, vượt trội nhiều mô hình Big Tech như Deepseek (27 tỷ tham số), GPT-4 Vision Turbo + Amazon Textract OCR (tốp 34) hay Baidu (tốp 22).

Thành tích cũng cho thấy cách tiếp cận thực chất, tập trung làm chủ lõi công nghệ, tối ưu hóa mô hình phù hợp với điều kiện hạ tầng của Việt Nam thay vì chạy theo quy mô tham số.

hinh-2.jpg
Ví dụ mẫu đơn tuyển sinh Đại học
hinh-3.jpg
Văn bản đã được nhận dạng từ chữ viết tay ở hình trên.

Ông Nguyễn Trung Chính, Chủ tịch Hội đồng quản trị, Chủ tịch Điều hành Tập đoàn Công nghệ CMC, nhấn mạnh: "Đây là thành quả của hơn một thập niên kiên trì đầu tư nghiên cứu-phát triển (R&D) công nghệ. Việc CMC đạt thành tích cao tại sân chơi công nghệ quốc tế khẳng định chiến lược làm chủ công nghệ Việt, đi đôi với định hướng Chuyển đổi AI và tiến ra thị trường toàn cầu. Chúng tôi tin trí tuệ Việt Nam hoàn toàn đủ năng lực sánh vai Big Tech toàn cầu, tạo vị thế xứng đáng trên bản đồ công nghệ thế giới."

CATI-VLM sẽ được ứng dụng trong chuỗi sản phẩm thuộc hệ sinh thái C.OpenAI, gồm: Trợ lý ảo CLS rà soát văn bản pháp luật, CMC SmartDoc – nền tảng chuyển đổi số tài liệu, Hệ quản trị tri thức CMC KMS, hệ thống báo cáo tự động cho văn phòng thông minh và các ứng dụng Agentic Documents thế hệ mới.

Có thể bạn quan tâm

Chỉ cần quét mã QR, cử tri Hà Nội tìm hiểu các thông tin về bầu cử một cách thuận lợi. (Ảnh: KIM CHI)

Tăng cường sự tương tác giữa chính quyền với người dân

Với sự chủ động và linh hoạt trong ứng dụng công nghệ số, công tác chuẩn bị bầu cử tại nhiều địa phương đang được triển khai thuận lợi, góp phần hướng tới mục tiêu tổ chức một cuộc bầu cử dân chủ, đúng luật, an toàn và thành công.

Tiến sĩ Nguyễn Nhật Linh hướng dẫn sinh viên kiểm tra mẫu sản phẩm hạt nano vàng thu được từ quá trình tổng hợp plasma. (Ảnh: MINH ĐỨC)

Làm chủ công nghệ plasma lạnh cho vật liệu nano

Đề tài “Nghiên cứu chế tạo nguồn phát plasma lạnh ứng dụng trong tổng hợp vật liệu nano kim loại có hiệu ứng cộng hưởng plasmon bề mặt (Au, Ag)” đã mở ra hướng tiếp cận xanh, an toàn trong tổng hợp nano kim loại quý, góp phần nâng cao năng lực làm chủ công nghệ plasma và vật liệu tiên tiến trong nước.

Thủ tướng Phạm Minh Chính trao Quyết định cho đồng chí Trần Hồng Thái giữ chức Chủ tịch Viện Hàn lâm Khoa học và Công nghệ Việt Nam.

[Ảnh] Thủ tướng Phạm Minh Chính trao Quyết định bổ nhiệm Chủ tịch Viện Hàn lâm Khoa học và Công nghệ Việt Nam

Chiều 12/3, tại Hà Nội, Bí thư Đảng ủy Chính phủ, Thủ tướng Chính phủ Phạm Minh Chính đã trao Quyết định bổ nhiệm đồng chí Trần Hồng Thái, Ủy viên Ban Chấp hành Trung ương Đảng, Phó Chủ tịch Thường trực Viện Hàn lâm Khoa học và Công nghệ Việt Nam, giữ chức Chủ tịch Viện Hàn lâm Khoa học và Công nghệ Việt Nam.

Các doanh nghiệp công nghệ được vinh danh tại Lễ biểu dương Top Công nghiệp 4.0 Việt Nam lần thứ tư.

Tìm kiếm và vinh danh những thành tựu công nghệ xuất sắc của hệ sinh thái số

Chương trình “Biểu dương thành tựu tác động vì Việt Nam số (Vietnam I4 Impact Awards) 2026” đã chính thức được khởi động với cách tiếp cận mới nhấn mạnh yếu tố “impact”- giá trị thực tiễn của công nghệ; được kỳ vọng trở thành nơi các doanh nghiệp công nghệ khẳng định năng lực đổi mới sáng tạo, lan tỏa các mô hình chuyển đổi số.

Phố phường khu vực Lâm Đồng ngàn hoa rực rỡ cờ hoa, pa-nô chào mừng ngày hội non sông.

Phường Lâm Viên-Đà Lạt chủ động xây dựng phần mềm phục vụ bầu cử

Chuẩn bị cho ngày bầu cử đại biểu Quốc hội khóa XVI và đại biểu Hội đồng nhân dân các cấp vào ngày 15/3, phường Lâm Viên-Đà Lạt, tỉnh Lâm Đồng đã chủ động xây dựng phần mềm quản lý danh sách cử tri và theo dõi tiến độ bầu cử theo thời gian thực, góp phần nâng cao hiệu quả điều hành trong ngày bầu cử.

Hiệu năng mạnh mẽ trên Galaxy S26 series là nền tảng cho các tác vụ Galaxy AI hoạt động trơn tru.

Galaxy S26: Khi Samsung định nghĩa lại “AI Phone tích hợp” từ phần cứng

AI trên smartphone ngày càng phổ biến nhưng không phải lúc nào cũng thực sự hữu ích. Với Galaxy S26, Samsung tiếp cận theo hướng khác: xây dựng một Galaxy AI Phone tích hợp, nơi phần cứng, hệ điều hành và Galaxy AI được phát triển song song để AI hoạt động ổn định và liền mạch hơn trong sử dụng hằng ngày.

Năm 2025, lượng chất thải rắn sinh hoạt phát sinh ở Việt Nam vào khoảng 70 nghìn tấn mỗi ngày, chủ yếu từ khu vực đô thị. Ảnh minh họa.

Giảm phát thải khí mê-tan từ chất thải

Năm 2025, lượng chất thải rắn sinh hoạt phát sinh ở Việt Nam vào khoảng 70 nghìn tấn mỗi ngày, chủ yếu từ khu vực đô thị. Bức tranh chất thải cho thấy rác sinh hoạt có thành phần rất đa dạng nhưng rác thải thực phẩm chiếm tỷ lệ lớn nhất, phần còn lại là các nhóm có thể tái chế, chất thải nguy hại và các loại khác.

Đại diện VNPT Cyber Immunity và BIC ký kết hợp tác chiến lược phân phối sản phẩm bảo hiểm rủi ro giao dịch

Giảm thiểu thiệt hại trước lừa đảo trực tuyến

Các hình thức lừa đảo trực tuyến và rò rỉ dữ liệu cá nhân ngày càng gia tăng, gây thiệt hại hàng nghìn tỷ đồng mỗi năm khiến người dùng cá nhân đang phải đối mặt với nhiều rủi ro hơn trong môi trường số. Thực tế này đặt ra yêu cầu cấp thiết về các giải pháp phòng ngừa và hỗ trợ người dùng giảm thiểu thiệt hại khi sự cố xảy ra.