Xây dựng nền tảng cho AI với dữ liệu tiếng Việt mã nguồn mở

Trung tâm Đổi mới sáng tạo quốc gia phối hợp Meta và Tổ chức AI for Việt Nam xây dựng các mô hình AI hỗ trợ tiếng Việt một cách tự nhiên và toàn diện ngay từ trong lõi để mở khóa tiềm năng các ứng dụng AI tại Việt Nam.
Khu trưng bày của Google tại Trung tâm Đổi mới sáng tạo Quốc gia (NIC) Láng Hòa Lạc.
Khu trưng bày của Google tại Trung tâm Đổi mới sáng tạo Quốc gia (NIC) Láng Hòa Lạc.

Tại cuộc họp báo khởi động Chương trình Thách thức Đổi mới sáng tạo 2025 diễn ra ngày 14/3/2025, ông Võ Xuân Hoài, Phó Giám đốc Trung tâm Đổi mới sáng tạo Quốc gia (NIC) cho biết, Chương trình năm nay tập trung vào Dự án ViGen với nỗ lực tạo ra bộ dữ liệu tiếng Việt mã nguồn mở chất lượng cao để đào tạo, đánh giá và từ đó nâng cao hiệu quả của các mô hình nguồn ngữ lớn (LLMs).

Từ việc triển khai thực hiện dự án sẽ giúp các mô hình trí tuệ nhân tạo (AI) hiểu rõ hơn về văn hóa, bối cảnh và cách diễn đạt trong tiếng Việt. Dự án này được kỳ vọng sẽ nâng cao sự hiện diện của Tiếng Việt trong quá trình phát triển AI, đồng thời góp phần thúc đẩy nền kinh tế số phát triển vượt bậc và bền vững.

Dự án ViGen khởi nguồn từ hợp tác ba bên, gồm Tập đoàn Meta (Hoa Kỳ), NIC và tổ chức AI for Việt Nam. Trong đó, NIC đóng vai trò là đơn vị chủ quản, điều phối, bảo đảm dự án phù hợp với các mục tiêu quốc gia Việt Nam.

Theo ông Võ Xuân Hoài, việc phát triển các tập dữ liệu Việt Nam quy mô lớn, chất lượng cao và mã nguồn mở để đào tạo và đánh giá AI đã trở thành ưu tiên cấp bách trong bối cảnh AI đang chuyển đổi thế giới.

Trong bối cảnh đó, việc triển khai thực hiện dự án ViGen phù hợp với Nghị quyết 57 của Bộ Chính trị về đột phá phát triển khoa học-công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia và đòi hỏi sự nỗ lực chung từ các nhà hoạch định chính sách, các nhóm nghiên cứu, nhà phát triển, các chuyên gia và người dùng.

Với sự chung tay của các bên, các đơn vị xây dựng dự án kỳ vọng sẽ biến AI trở thành công cụ mạnh mẽ cho người Việt và đưa Việt Nam trở thành cường quốc AI toàn cầu.

Là một trong ba đơn vị tham gia xây dựng dự án, ông Trần Việt Hùng, nhà sáng lập Tổ chức AI for Việt Nam cho biết, ViGen là dự án lớn, thu hút sự đồng hành của các đối tác chiến lược như NVIDIA, Viettel, Viện Hàn lâm Khoa học và Công nghệ Việt Nam với sự hỗ trợ tài chính, kỹ thuật từ Meta.

Thách thức Đổi mới sáng tạo Việt Nam là chương trình thường niên nằm trong khuôn khổ Sáng kiến Đổi mới sáng tạo Việt Nam (Innovate VN) do NIC khởi xướng với sự đồng hành của các đối tác công nghệ lớn trong và ngoài nước. Mục tiêu của Chương trình nhằm tìm kiếm các giải pháp đổi mới sáng tạo trên toàn thế giới, nhằm giải quyết những thách thức quan trọng tầm quốc gia, hướng đến một Việt Nam phát triển thịnh vượng và bền vững. Khởi động từ năm 2022, mỗi năm, Chương trình thu hút hơn 750 giải pháp từ hơn 20 quốc gia, cùng lãnh thổ trên thế giới tham gia.

Dự án sẽ đóng góp cho cộng đồng những bộ dữ liệu lớn và chất lượng cao bằng tiếng Việt nhằm cải thiện tình trạng Tiếng Việt đang còn hiện diện hết sức khiêm tốn trong AI.

ViGen cũng cho thấy sức mạnh và giá trị của những mô hình mã nguồn mở như Llama, cho phép phát triển các giải pháp sáng tạo có tác động toàn cầu có tính đến ngữ cảnh của Tiếng Việt.

“Mục tiêu của dự án ViGen là xây dựng các mô hình AI hỗ trợ tiếng Việt một cách tự nhiên và toàn diện ngay từ trong lõi để mở khoá tiềm năng các ứng dụng AI tại Việt Nam. ViGen sẽ xây dựng các bộ dữ liệu Tiếng Việt mã nguồn mở với quy mô lớn và chất lượng cao để đào tạo và đánh giá khả năng của các mô hình AI. Dự án cũng đóng góp vào việc bảo đảm sự phát triển AI ở Việt Nam phù hợp với giá trị văn hoá và tiêu chuẩn đạo đức, hướng tới việc xây dựng một hệ sinh thái AI mã nguồn mở phù hợp với bối cảnh địa phương và có trách nhiệm”, ông Trần Việt Hùng nói.

Chia sẻ về quá trình thực hiện dự án, ông Sarim Aziz, Giám đốc Chính sách công của Meta cho biết, năm 2025 là năm bản lề với tiến trình phát triển AI tại Việt Nam.

Thông qua hỗ trợ các nhà nghiên cứu, nhà phát triển và doanh nghiệp Việt Nam, dự án ViGen sẽ tiếp cận những mô hình AI mã nguồn mở cùng các nguồn lực phù hợp với bối cảnh địa phương nhằm phát huy tối đa tiềm năng và thúc đẩy sáng kiến AI mang tính ứng dụng cao, phù hợp với nhu cầu của Việt Nam.

Cũng tại cuộc họp báo, Meta phối hợp với Deloite đã chọn Việt Nam là quốc gia đầu tiên trong khu vực châu Á-Thái Bình Dương ra mắt cẩm nang “Đổi mới sáng tạo trong khu vực công ở châu Á-Thái Bình Dương với AI mã nguồn mở: Khai phá tiềm năng đột phá cùng Llama”.

Cẩm nang này cung cấp các phương pháp tối ưu trong việc ứng dụng AI mã nguồn mở và đánh giá các ứng dụng thực tiễn của mô hình Llama trong các lĩnh vực quan trọng của khu vực công, bao gồm: tương tác với người dân, quản lý hành chính công, tuân thủ chính sách, giáo dục, y tế, an ninh công…

Có thể bạn quan tâm

Chỉ cần quét mã QR, cử tri Hà Nội tìm hiểu các thông tin về bầu cử một cách thuận lợi. (Ảnh: KIM CHI)

Tăng cường sự tương tác giữa chính quyền với người dân

Với sự chủ động và linh hoạt trong ứng dụng công nghệ số, công tác chuẩn bị bầu cử tại nhiều địa phương đang được triển khai thuận lợi, góp phần hướng tới mục tiêu tổ chức một cuộc bầu cử dân chủ, đúng luật, an toàn và thành công.

Tiến sĩ Nguyễn Nhật Linh hướng dẫn sinh viên kiểm tra mẫu sản phẩm hạt nano vàng thu được từ quá trình tổng hợp plasma. (Ảnh: MINH ĐỨC)

Làm chủ công nghệ plasma lạnh cho vật liệu nano

Đề tài “Nghiên cứu chế tạo nguồn phát plasma lạnh ứng dụng trong tổng hợp vật liệu nano kim loại có hiệu ứng cộng hưởng plasmon bề mặt (Au, Ag)” đã mở ra hướng tiếp cận xanh, an toàn trong tổng hợp nano kim loại quý, góp phần nâng cao năng lực làm chủ công nghệ plasma và vật liệu tiên tiến trong nước.

Thủ tướng Phạm Minh Chính trao Quyết định cho đồng chí Trần Hồng Thái giữ chức Chủ tịch Viện Hàn lâm Khoa học và Công nghệ Việt Nam.

[Ảnh] Thủ tướng Phạm Minh Chính trao Quyết định bổ nhiệm Chủ tịch Viện Hàn lâm Khoa học và Công nghệ Việt Nam

Chiều 12/3, tại Hà Nội, Bí thư Đảng ủy Chính phủ, Thủ tướng Chính phủ Phạm Minh Chính đã trao Quyết định bổ nhiệm đồng chí Trần Hồng Thái, Ủy viên Ban Chấp hành Trung ương Đảng, Phó Chủ tịch Thường trực Viện Hàn lâm Khoa học và Công nghệ Việt Nam, giữ chức Chủ tịch Viện Hàn lâm Khoa học và Công nghệ Việt Nam.

Các doanh nghiệp công nghệ được vinh danh tại Lễ biểu dương Top Công nghiệp 4.0 Việt Nam lần thứ tư.

Tìm kiếm và vinh danh những thành tựu công nghệ xuất sắc của hệ sinh thái số

Chương trình “Biểu dương thành tựu tác động vì Việt Nam số (Vietnam I4 Impact Awards) 2026” đã chính thức được khởi động với cách tiếp cận mới nhấn mạnh yếu tố “impact”- giá trị thực tiễn của công nghệ; được kỳ vọng trở thành nơi các doanh nghiệp công nghệ khẳng định năng lực đổi mới sáng tạo, lan tỏa các mô hình chuyển đổi số.

Phố phường khu vực Lâm Đồng ngàn hoa rực rỡ cờ hoa, pa-nô chào mừng ngày hội non sông.

Phường Lâm Viên-Đà Lạt chủ động xây dựng phần mềm phục vụ bầu cử

Chuẩn bị cho ngày bầu cử đại biểu Quốc hội khóa XVI và đại biểu Hội đồng nhân dân các cấp vào ngày 15/3, phường Lâm Viên-Đà Lạt, tỉnh Lâm Đồng đã chủ động xây dựng phần mềm quản lý danh sách cử tri và theo dõi tiến độ bầu cử theo thời gian thực, góp phần nâng cao hiệu quả điều hành trong ngày bầu cử.

Hiệu năng mạnh mẽ trên Galaxy S26 series là nền tảng cho các tác vụ Galaxy AI hoạt động trơn tru.

Galaxy S26: Khi Samsung định nghĩa lại “AI Phone tích hợp” từ phần cứng

AI trên smartphone ngày càng phổ biến nhưng không phải lúc nào cũng thực sự hữu ích. Với Galaxy S26, Samsung tiếp cận theo hướng khác: xây dựng một Galaxy AI Phone tích hợp, nơi phần cứng, hệ điều hành và Galaxy AI được phát triển song song để AI hoạt động ổn định và liền mạch hơn trong sử dụng hằng ngày.

Năm 2025, lượng chất thải rắn sinh hoạt phát sinh ở Việt Nam vào khoảng 70 nghìn tấn mỗi ngày, chủ yếu từ khu vực đô thị. Ảnh minh họa.

Giảm phát thải khí mê-tan từ chất thải

Năm 2025, lượng chất thải rắn sinh hoạt phát sinh ở Việt Nam vào khoảng 70 nghìn tấn mỗi ngày, chủ yếu từ khu vực đô thị. Bức tranh chất thải cho thấy rác sinh hoạt có thành phần rất đa dạng nhưng rác thải thực phẩm chiếm tỷ lệ lớn nhất, phần còn lại là các nhóm có thể tái chế, chất thải nguy hại và các loại khác.

Đại diện VNPT Cyber Immunity và BIC ký kết hợp tác chiến lược phân phối sản phẩm bảo hiểm rủi ro giao dịch

Giảm thiểu thiệt hại trước lừa đảo trực tuyến

Các hình thức lừa đảo trực tuyến và rò rỉ dữ liệu cá nhân ngày càng gia tăng, gây thiệt hại hàng nghìn tỷ đồng mỗi năm khiến người dùng cá nhân đang phải đối mặt với nhiều rủi ro hơn trong môi trường số. Thực tế này đặt ra yêu cầu cấp thiết về các giải pháp phòng ngừa và hỗ trợ người dùng giảm thiểu thiệt hại khi sự cố xảy ra.