Viettel huấn luyện một mô hình AI tiếng Việt quy mô lớn

Viettel AI phát triển VT-Super-120B-A12B - mô hình ngôn ngữ lớn tiếng Việt 120 tỷ tham số, hướng tới xây dựng các hệ thống AI am hiểu sâu dữ liệu, ngôn ngữ và tri thức tiếng Việt.

VT-Super-120B-A12B được xây dựng dựa trên kiến trúc mở NVIDIA Nemotron 3 Super.
VT-Super-120B-A12B được xây dựng dựa trên kiến trúc mở NVIDIA Nemotron 3 Super.

Trung tâm Dịch vụ dữ liệu và Trí tuệ nhân tạo Viettel (Viettel AI) đang thúc đẩy phát triển AI chủ quyền tại Việt Nam, đồng thời ghi nhận kết quả rõ rệt về năng lực mô hình thông qua quá trình huấn luyện và tinh chỉnh trên các mô hình mở NVIDIA Nemotron.

Thông qua các bài kiểm tra, VT-Super-120B-A12B - mô hình ngôn ngữ lớn (Large Language Model - LLM) tiếng Việt do Viettel AI nghiên cứu và làm chủ đạt hiệu suất cao. Đây là kết quả của việc mô hình được huấn luyện trên dữ liệu bản địa và tối ưu cho các bài toán nghiệp vụ trong nước.

Đáng chú ý, VT-Super-120B-A12B tăng cường năng lực xử lý tiếng Việt mà không làm suy giảm hiệu năng tiếng Anh của mô hình gốc, đồng thời hạn chế hiện tượng quên kiến thức cũ (catastrophic forgetting) thường gặp trong quá trình huấn luyện và tinh chỉnh mô hình AI.

VT-Super-120B-A12B được xây dựng trên kiến trúc mở NVIDIA Nemotron 3 Super với quy mô 120 tỷ tham số, do đội ngũ kỹ sư Việt Nam trực tiếp huấn luyện, tinh chỉnh và tối ưu cho tiếng Việt. Khả năng xử lý ngữ cảnh dài của kiến trúc NVIDIA Nemotron cho phép mô hình duy trì mạch thông tin xuyên suốt giữa nhiều tài liệu, quy trình và hội thoại phức tạp trong cùng một tác vụ.

Đây là năng lực đặc biệt quan trọng với các bài toán vận hành đặc thù tại Việt Nam, nơi nhiều quy định và quy trình có thể thay đổi tùy theo loại hồ sơ, đối tượng liên quan hoặc bối cảnh thực thi cụ thể. Việc sở hữu một mô hình lõi có khả năng ghi nhớ và thích ứng linh hoạt với dữ liệu thực tế tạo tiền đề để Viettel AI tinh chỉnh LLM đạt độ chính xác cao, giải quyết triệt để việc tối ưu hóa ứng dụng AI cho từng tổ chức, doanh nghiệp Việt Nam.

Bên cạnh việc kế thừa năng lực từ kiến trúc NVIDIA Nemotron 3 Super, Viettel AI cũng xây dựng quy trình huấn luyện LLM dựa trên các nguồn dữ liệu mang tính bản địa như dữ liệu hành chính, nghiệp vụ doanh nghiệp, hội thoại thực tế và hệ thống văn bản chuyên ngành tại Việt Nam.

Quá trình này bao gồm nhiều giai đoạn huấn luyện; trong đó, giai đoạn tiếp tục tiền huấn luyện (continued pre-training) mở rộng năng lực ngôn ngữ và tri thức tiếng Việt trên kho dữ liệu quy mô lớn. Tiếp theo, mô hình được tinh chỉnh có giám sát (supervised fine-tuning) nhằm cải thiện khả năng suy luận, sau đó được học tăng cường (reinforcement learning) để nâng cao độ chính xác trong phản hồi và khả năng xử lý nghiệp vụ.

Trên nền tảng mô hình này, Viettel AI đang phát triển nền tảng AI Agent dành cho người Việt với khả năng tự thực hiện chuỗi tác vụ trong cùng một không gian làm việc. Trong đó, Trợ lý AI Pháp luật là một trong những ứng dụng đầu tiên, được kỳ vọng sẽ sở hữu khả năng hỗ trợ phân tích hồ sơ, đối chiếu quy định, tổng hợp dữ liệu và đề xuất giải pháp xử lý theo bài toán cụ thể của người dùng, với chất lượng được nâng cao đáng kể so với các phiên bản trước đây.

Có thể bạn quan tâm

Một hoạt động tuyên truyền, nâng cao nhận thức về quyền tác giả và bản quyền trong môi trường số.

Rủi ro quản trị từ phần mềm không phép

Công điện 38/CĐ-TTg yêu cầu đấu tranh, ngăn chặn và xử lý nghiêm các hành vi xâm phạm quyền sở hữu trí tuệ. Trong đó, phần mềm không phép là một dạng vi phạm ít được chú ý hơn hàng giả, hàng nhái nhưng tiềm ẩn nhiều rủi ro đối với hoạt động và năng lực quản trị của doanh nghiệp.

Hoạt động sản xuất tại Công ty cổ phần Nhựa Hà Nội (Hanoi Plastics - HPC). (Ảnh SƠN TÙNG)

Việt Nam mở rộng hệ sinh thái đổi mới sáng tạo

Theo Bộ Khoa học và Công nghệ: Tỷ trọng xuất khẩu hàng hóa công nghệ cao của Việt Nam trong quý I/2026 đạt 50,76%. Đáng chú ý, Việt Nam lần đầu vươn lên vị trí thứ 50 thế giới trong Báo cáo Chỉ số Hệ sinh thái Khởi nghiệp toàn cầu 2026 của StartupBlink, tăng 5 bậc so với năm trước và là thứ hạng cao nhất từ trước tới nay.

Từ ngày 1/7/2026, tăng mức xử phạt với hành vi giả mạo trên mạng xã hội.

Tăng mức xử phạt với hành vi giả mạo trên mạng xã hội

Các hình thức lợi dụng mạng xã hội để giả mạo tài khoản, fanpage, hội nhóm nhằm phát tán thông tin giả, sai sự thật hoặc lừa đảo người dùng ngày càng phổ biến. Từ ngày 1/7/2026, quy định xử phạt đối với các hành vi này tiếp tục được siết chặt với mức phạt tăng cao hơn trước.

Cuộc gọi rác. (Ảnh minh họa)

Siết xử phạt tin nhắn rác, cuộc gọi rác

Tin nhắn chứa đường dẫn giả mạo, cuộc gọi rác hay phần mềm độc hại vẫn là những thủ đoạn phổ biến được các đối tượng sử dụng để tiếp cận người dùng trên môi trường mạng. Pháp luật hiện hành quy định nhiều chế tài xử lý đối với các hành vi này nhằm bảo đảm an toàn thông tin và quyền lợi của người sử dụng dịch vụ viễn thông.

Đồng chí Lê Minh Hoan trình bày tại buổi trao đổi.

Vĩnh Long phát triển hệ sinh thái liên ngành để nâng tầm giá trị nông sản trong chuyển đổi xanh

Sáng 3/6, tại Hội trường Sở Khoa học và Công nghệ tỉnh Vĩnh Long, Ủy ban nhân dân tỉnh Vĩnh Long đã tổ chức buổi làm việc, trao đổi và chia sẻ về công tác chuyển đổi xanh trên địa bàn tỉnh. Đồng chí Lê Minh Hoan, nguyên Ủy viên Trung ương Đảng, nguyên Phó Chủ tịch Quốc hội chủ trì buổi chia sẻ.

Phiên đối thoại “Niềm tin số thời AI. An toàn bắt đầu từ người dùng” tại diễn đàn “Digital Trust in Finance 2026” với chủ đề “Xây dựng niềm tin số tài chính trong kỷ nguyên AI”.

Bảo vệ người dùng trong kỷ nguyên số

Cách mạng công nghiệp 4.0 cùng sự bùng nổ của trí tuệ nhân tạo (AI) đang tạo ra những biến đổi sâu sắc đối với hệ thống tài chính toàn cầu. Chuyển đổi số, kiến tạo niềm tin số không còn là xu hướng lựa chọn mà đã trở thành yêu cầu tất yếu đối với các quốc gia muốn thúc đẩy tăng trưởng kinh tế số và nâng cao năng lực cạnh tranh.

Chủ tịch Tào Đức Thắng: Đổi mới sáng tạo ở Viettel và con đường tự chủ của doanh nghiệp Việt

Chủ tịch Tào Đức Thắng: Đổi mới sáng tạo ở Viettel và con đường tự chủ của doanh nghiệp Việt

Trong cuộc trò chuyện với Báo Nhân Dân, Chủ tịch kiêm Tổng Giám đốc Tập đoàn Viettel Tào Đức Thắng đã chia sẻ về cách Viettel biến đổi mới sáng tạo thành năng lực cốt lõi, cơ chế chấp nhận rủi ro và định hướng phát triển các công nghệ chiến lược; đề xuất một số kiến nghị về cơ chế chính sách cho doanh nghiệp công nghệ Việt Nam.

Tăng cường phối hợp giữa các cơ quan chức năng nhằm nâng cao hiệu quả thực thi quyền sở hữu trí tuệ.

Xây dựng cơ sở dữ liệu quốc gia về thực thi quyền sở hữu trí tuệ

Thực hiện Công điện số 38/CĐ-TTg của Thủ tướng Chính phủ, Bộ Khoa học và Công nghệ đang phối hợp Bộ Công an và các Bộ, cơ quan liên quan xây dựng cơ sở dữ liệu quốc gia về thực thi quyền sở hữu trí tuệ. Dự kiến cơ sở dữ liệu quốc gia được vận hành trong tháng 12/2026, duy trì, hoàn thiện trong các năm tiếp theo.

Triển lãm giới thiệu sản phẩm công nghệ nhân dịp khai trương Trung tâm Dữ liệu quốc gia số 1 vào tháng 8/2025.

Từ nguồn tài nguyên số đến động lực phát triển mới

Trong kỷ nguyên số, dữ liệu đang hiện diện trong hầu hết hoạt động của đời sống, từ khám chữa bệnh, học tập, giao thông đến các dịch vụ công trực tuyến. Khi được chuẩn hóa, kết nối và khai thác hiệu quả, dữ liệu không chỉ giúp nâng cao chất lượng phục vụ người dân mà còn trở thành nguồn lực mới của nền kinh tế số.