Xây dựng nền tảng cho AI với dữ liệu tiếng Việt mã nguồn mở

Trung tâm Đổi mới sáng tạo quốc gia phối hợp Meta và Tổ chức AI for Việt Nam xây dựng các mô hình AI hỗ trợ tiếng Việt một cách tự nhiên và toàn diện ngay từ trong lõi để mở khóa tiềm năng các ứng dụng AI tại Việt Nam.
Khu trưng bày của Google tại Trung tâm Đổi mới sáng tạo Quốc gia (NIC) Láng Hòa Lạc.
Khu trưng bày của Google tại Trung tâm Đổi mới sáng tạo Quốc gia (NIC) Láng Hòa Lạc.

Tại cuộc họp báo khởi động Chương trình Thách thức Đổi mới sáng tạo 2025 diễn ra ngày 14/3/2025, ông Võ Xuân Hoài, Phó Giám đốc Trung tâm Đổi mới sáng tạo Quốc gia (NIC) cho biết, Chương trình năm nay tập trung vào Dự án ViGen với nỗ lực tạo ra bộ dữ liệu tiếng Việt mã nguồn mở chất lượng cao để đào tạo, đánh giá và từ đó nâng cao hiệu quả của các mô hình nguồn ngữ lớn (LLMs).

Từ việc triển khai thực hiện dự án sẽ giúp các mô hình trí tuệ nhân tạo (AI) hiểu rõ hơn về văn hóa, bối cảnh và cách diễn đạt trong tiếng Việt. Dự án này được kỳ vọng sẽ nâng cao sự hiện diện của Tiếng Việt trong quá trình phát triển AI, đồng thời góp phần thúc đẩy nền kinh tế số phát triển vượt bậc và bền vững.

Dự án ViGen khởi nguồn từ hợp tác ba bên, gồm Tập đoàn Meta (Hoa Kỳ), NIC và tổ chức AI for Việt Nam. Trong đó, NIC đóng vai trò là đơn vị chủ quản, điều phối, bảo đảm dự án phù hợp với các mục tiêu quốc gia Việt Nam.

Theo ông Võ Xuân Hoài, việc phát triển các tập dữ liệu Việt Nam quy mô lớn, chất lượng cao và mã nguồn mở để đào tạo và đánh giá AI đã trở thành ưu tiên cấp bách trong bối cảnh AI đang chuyển đổi thế giới.

Trong bối cảnh đó, việc triển khai thực hiện dự án ViGen phù hợp với Nghị quyết 57 của Bộ Chính trị về đột phá phát triển khoa học-công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia và đòi hỏi sự nỗ lực chung từ các nhà hoạch định chính sách, các nhóm nghiên cứu, nhà phát triển, các chuyên gia và người dùng.

Với sự chung tay của các bên, các đơn vị xây dựng dự án kỳ vọng sẽ biến AI trở thành công cụ mạnh mẽ cho người Việt và đưa Việt Nam trở thành cường quốc AI toàn cầu.

Là một trong ba đơn vị tham gia xây dựng dự án, ông Trần Việt Hùng, nhà sáng lập Tổ chức AI for Việt Nam cho biết, ViGen là dự án lớn, thu hút sự đồng hành của các đối tác chiến lược như NVIDIA, Viettel, Viện Hàn lâm Khoa học và Công nghệ Việt Nam với sự hỗ trợ tài chính, kỹ thuật từ Meta.

Thách thức Đổi mới sáng tạo Việt Nam là chương trình thường niên nằm trong khuôn khổ Sáng kiến Đổi mới sáng tạo Việt Nam (Innovate VN) do NIC khởi xướng với sự đồng hành của các đối tác công nghệ lớn trong và ngoài nước. Mục tiêu của Chương trình nhằm tìm kiếm các giải pháp đổi mới sáng tạo trên toàn thế giới, nhằm giải quyết những thách thức quan trọng tầm quốc gia, hướng đến một Việt Nam phát triển thịnh vượng và bền vững. Khởi động từ năm 2022, mỗi năm, Chương trình thu hút hơn 750 giải pháp từ hơn 20 quốc gia, cùng lãnh thổ trên thế giới tham gia.

Dự án sẽ đóng góp cho cộng đồng những bộ dữ liệu lớn và chất lượng cao bằng tiếng Việt nhằm cải thiện tình trạng Tiếng Việt đang còn hiện diện hết sức khiêm tốn trong AI.

ViGen cũng cho thấy sức mạnh và giá trị của những mô hình mã nguồn mở như Llama, cho phép phát triển các giải pháp sáng tạo có tác động toàn cầu có tính đến ngữ cảnh của Tiếng Việt.

“Mục tiêu của dự án ViGen là xây dựng các mô hình AI hỗ trợ tiếng Việt một cách tự nhiên và toàn diện ngay từ trong lõi để mở khoá tiềm năng các ứng dụng AI tại Việt Nam. ViGen sẽ xây dựng các bộ dữ liệu Tiếng Việt mã nguồn mở với quy mô lớn và chất lượng cao để đào tạo và đánh giá khả năng của các mô hình AI. Dự án cũng đóng góp vào việc bảo đảm sự phát triển AI ở Việt Nam phù hợp với giá trị văn hoá và tiêu chuẩn đạo đức, hướng tới việc xây dựng một hệ sinh thái AI mã nguồn mở phù hợp với bối cảnh địa phương và có trách nhiệm”, ông Trần Việt Hùng nói.

Chia sẻ về quá trình thực hiện dự án, ông Sarim Aziz, Giám đốc Chính sách công của Meta cho biết, năm 2025 là năm bản lề với tiến trình phát triển AI tại Việt Nam.

Thông qua hỗ trợ các nhà nghiên cứu, nhà phát triển và doanh nghiệp Việt Nam, dự án ViGen sẽ tiếp cận những mô hình AI mã nguồn mở cùng các nguồn lực phù hợp với bối cảnh địa phương nhằm phát huy tối đa tiềm năng và thúc đẩy sáng kiến AI mang tính ứng dụng cao, phù hợp với nhu cầu của Việt Nam.

Cũng tại cuộc họp báo, Meta phối hợp với Deloite đã chọn Việt Nam là quốc gia đầu tiên trong khu vực châu Á-Thái Bình Dương ra mắt cẩm nang “Đổi mới sáng tạo trong khu vực công ở châu Á-Thái Bình Dương với AI mã nguồn mở: Khai phá tiềm năng đột phá cùng Llama”.

Cẩm nang này cung cấp các phương pháp tối ưu trong việc ứng dụng AI mã nguồn mở và đánh giá các ứng dụng thực tiễn của mô hình Llama trong các lĩnh vực quan trọng của khu vực công, bao gồm: tương tác với người dân, quản lý hành chính công, tuân thủ chính sách, giáo dục, y tế, an ninh công…

Có thể bạn quan tâm

Các đại biểu tham dự hội thảo quốc tế do Trường đại học Intracom phối hợp các đơn vị tổ chức. (Ảnh: NHẬT MINH)

Ứng dụng khoa học và công nghệ vào cuộc sống - Từ lý luận đến thực tiễn

Ngày 28/1, tại Hà Nội, Trường đại học Intracom phối hợp Tạp chí Pháp luật và Phát triển, Viện khoa học và Bổ trợ Tư pháp (Liên hiệp Hội Người khuyết tật Việt Nam), Tạp chí Vận động, Nghiên cứu và Giáo dục (JARE)… tổ chức hội thảo quốc tế “Thúc đẩy ứng dụng khoa học và công nghệ vào cuộc sống - Từ lý luận đến thực tiễn”.

Người dân đến giải quyết thủ tục hành chính tại Trung tâm Phục vụ Hành chính công-Chi nhánh số 3-phường Đống Đa, Hà Nội. (Ảnh: nhandan.vn)

Khai thác hiệu quả cơ sở dữ liệu quốc gia

Cơ sở dữ liệu quốc gia về cán bộ, công chức, viên chức có vai trò thống nhất và chuẩn hóa thông tin nhân sự trong toàn bộ hệ thống cơ quan nhà nước, từ đó có cái nhìn toàn diện về số lượng, chất lượng, cơ cấu đội ngũ nhằm đưa ra các quyết định quản lý và sử dụng nhân sự một cách khoa học, hợp lý.

Sinh viên Trường đại học Khoa học xã hội và nhân văn Thành phố Hồ Chí Minh thực hành nghiên cứu khoa học.

Đổi mới nghiên cứu liên ngành trong lĩnh vực khoa học xã hội

Trong thời đại ngày nay, nhiều vấn đề không chỉ là sự quan tâm của một quốc gia đơn lẻ, mà trở thành vấn đề chung của cả khu vực và thế giới. Theo đó, thúc đẩy nghiên cứu đa ngành là con đường tất yếu để giải quyết các vấn đề thực tiễn một cách toàn diện và hiệu quả.

100% cử tri có mặt tại Hội nghị nhất trí giới thiệu đồng chí Vũ Hải Quân, Ủy viên Trung ương Đảng, Thứ trưởng Thường trực Bộ Khoa học và Công nghệ ứng cử đại biểu Quốc hội khóa XVI.

Bộ Khoa học và Công nghệ giới thiệu Thứ trưởng Thường trực Vũ Hải Quân ứng cử Đại biểu Quốc hội khóa XVI

150/150 cử tri có mặt tại hội nghị lấy ý kiến cử tri nơi công tác đối với người được dự kiến giới thiệu ứng cử Đại biểu Quốc hội khóa XVI của Bộ Khoa học và Công nghệ đã nhất trí giới thiệu Thứ trưởng Thường trực Bộ Khoa học và Công nghệ Vũ Hải Quân ứng cử Đại biểu Quốc hội khóa XVI.

Đông đảo người dân tham dự triển lãm.

Đẩy mạnh ứng dụng khoa học tiên tiến để bảo tồn và phát triển dược liệu

Sáng 23/1, Viện Dược liệu phối hợp UBND phường Cửa Nam (Hà Nội) tổ chức Triển lãm Sách và Dược liệu Việt Nam với chủ đề “Kết nối tri thức vì sức khỏe cộng đồng” tại Phố Sách Hà Nội. Triển lãm nhằm chào mừng Đại hội đại biểu toàn quốc lần thứ XIV của Đảng, kỷ niệm 96 năm Ngày thành lập Đảng và 71 năm Ngày Thầy thuốc Việt Nam.

Người dân cần kiểm tra kỹ thông tin trước khi nộp tiền phạt qua mã QR để tránh bị lừa.

Nhận diện chiêu thức lừa đảo nộp phạt “nguội” qua Zalo

Lợi dụng việc mã QR được sử dụng rộng rãi trong các thủ tục hành chính, nhiều đối tượng xấu đã giả mạo thông báo “phạt nguội”, yêu cầu người dân chuyển tiền qua mã QR trên Zalo. Người dân cần nhận diện rõ quy trình nộp phạt hợp pháp và nâng cao cảnh giác để tránh bị lừa.

Cán bộ Sở Khoa học và Công nghệ Thái Nguyên khảo sát để cấp chỉ dẫn địa lý cho gạo nếp Khẩu Nua Lếch. (Ảnh: THU HIỀN)

Đổi mới sáng tạo ở Thái Nguyên

Tỉnh Thái Nguyên đã và đang khẳng định quyết tâm biến khoa học, công nghệ trở thành khâu đột phá để thúc đẩy kinh tế-xã hội. Với hệ sinh thái đổi mới sáng tạo, Thái Nguyên từng bước đẩy nhanh phát triển kinh tế số, nâng cao năng suất, chất lượng và sức cạnh tranh của nền kinh tế.

Thủ tướng Chính phủ Phạm Minh Chính và các đồng chí lãnh đạo Đảng, Nhà nước tham quan các khu vực bên lề lễ khởi công nhà máy chế tạo chip bán dẫn Hòa Lạc.

Việt Nam sẽ bước vào nhóm số ít quốc gia sở hữu năng lực chế tạo chip bán dẫn

Chip bán dẫn hiện là “đòn bẩy” của những nước chi phối công nghệ sản xuất, sử dụng như công cụ chính trị để kiểm soát, kìm hãm kinh tế, công nghiệp an ninh quốc phòng. Việt Nam xác định bán dẫn là một trong những công nghệ chiến lược cần làm chủ, với mắt xích then chốt vừa được công bố: nhà máy sản xuất chip tại Hòa Lạc.

Ứng dụng khoa học, công nghệ là giải pháp hiệu quả để quản lý, bảo vệ tài nguyên biển.

Ứng dụng công nghệ trong quản lý các khu bảo tồn biển

Đến năm 2030, Việt Nam có 27 khu bảo tồn biển, trong đó có 16 khu bảo tồn biển cấp quốc gia, 11 cấp tỉnh với khoảng 20 hệ sinh thái, 11.000 loại thủy sản, khoảng 3.000 đảo. Đây là địa điểm lý tưởng để thực hiện nhiệm vụ lưu giữ, bảo tồn giống, nguồn gen, đa dạng sinh học; phát triển kinh tế, du lịch; phục vụ nghiên cứu khoa học…