Xây dựng nền tảng cho AI với dữ liệu tiếng Việt mã nguồn mở

Trung tâm Đổi mới sáng tạo quốc gia phối hợp Meta và Tổ chức AI for Việt Nam xây dựng các mô hình AI hỗ trợ tiếng Việt một cách tự nhiên và toàn diện ngay từ trong lõi để mở khóa tiềm năng các ứng dụng AI tại Việt Nam.
Khu trưng bày của Google tại Trung tâm Đổi mới sáng tạo Quốc gia (NIC) Láng Hòa Lạc.
Khu trưng bày của Google tại Trung tâm Đổi mới sáng tạo Quốc gia (NIC) Láng Hòa Lạc.

Tại cuộc họp báo khởi động Chương trình Thách thức Đổi mới sáng tạo 2025 diễn ra ngày 14/3/2025, ông Võ Xuân Hoài, Phó Giám đốc Trung tâm Đổi mới sáng tạo Quốc gia (NIC) cho biết, Chương trình năm nay tập trung vào Dự án ViGen với nỗ lực tạo ra bộ dữ liệu tiếng Việt mã nguồn mở chất lượng cao để đào tạo, đánh giá và từ đó nâng cao hiệu quả của các mô hình nguồn ngữ lớn (LLMs).

Từ việc triển khai thực hiện dự án sẽ giúp các mô hình trí tuệ nhân tạo (AI) hiểu rõ hơn về văn hóa, bối cảnh và cách diễn đạt trong tiếng Việt. Dự án này được kỳ vọng sẽ nâng cao sự hiện diện của Tiếng Việt trong quá trình phát triển AI, đồng thời góp phần thúc đẩy nền kinh tế số phát triển vượt bậc và bền vững.

Dự án ViGen khởi nguồn từ hợp tác ba bên, gồm Tập đoàn Meta (Hoa Kỳ), NIC và tổ chức AI for Việt Nam. Trong đó, NIC đóng vai trò là đơn vị chủ quản, điều phối, bảo đảm dự án phù hợp với các mục tiêu quốc gia Việt Nam.

Theo ông Võ Xuân Hoài, việc phát triển các tập dữ liệu Việt Nam quy mô lớn, chất lượng cao và mã nguồn mở để đào tạo và đánh giá AI đã trở thành ưu tiên cấp bách trong bối cảnh AI đang chuyển đổi thế giới.

Trong bối cảnh đó, việc triển khai thực hiện dự án ViGen phù hợp với Nghị quyết 57 của Bộ Chính trị về đột phá phát triển khoa học-công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia và đòi hỏi sự nỗ lực chung từ các nhà hoạch định chính sách, các nhóm nghiên cứu, nhà phát triển, các chuyên gia và người dùng.

Với sự chung tay của các bên, các đơn vị xây dựng dự án kỳ vọng sẽ biến AI trở thành công cụ mạnh mẽ cho người Việt và đưa Việt Nam trở thành cường quốc AI toàn cầu.

Là một trong ba đơn vị tham gia xây dựng dự án, ông Trần Việt Hùng, nhà sáng lập Tổ chức AI for Việt Nam cho biết, ViGen là dự án lớn, thu hút sự đồng hành của các đối tác chiến lược như NVIDIA, Viettel, Viện Hàn lâm Khoa học và Công nghệ Việt Nam với sự hỗ trợ tài chính, kỹ thuật từ Meta.

Thách thức Đổi mới sáng tạo Việt Nam là chương trình thường niên nằm trong khuôn khổ Sáng kiến Đổi mới sáng tạo Việt Nam (Innovate VN) do NIC khởi xướng với sự đồng hành của các đối tác công nghệ lớn trong và ngoài nước. Mục tiêu của Chương trình nhằm tìm kiếm các giải pháp đổi mới sáng tạo trên toàn thế giới, nhằm giải quyết những thách thức quan trọng tầm quốc gia, hướng đến một Việt Nam phát triển thịnh vượng và bền vững. Khởi động từ năm 2022, mỗi năm, Chương trình thu hút hơn 750 giải pháp từ hơn 20 quốc gia, cùng lãnh thổ trên thế giới tham gia.

Dự án sẽ đóng góp cho cộng đồng những bộ dữ liệu lớn và chất lượng cao bằng tiếng Việt nhằm cải thiện tình trạng Tiếng Việt đang còn hiện diện hết sức khiêm tốn trong AI.

ViGen cũng cho thấy sức mạnh và giá trị của những mô hình mã nguồn mở như Llama, cho phép phát triển các giải pháp sáng tạo có tác động toàn cầu có tính đến ngữ cảnh của Tiếng Việt.

“Mục tiêu của dự án ViGen là xây dựng các mô hình AI hỗ trợ tiếng Việt một cách tự nhiên và toàn diện ngay từ trong lõi để mở khoá tiềm năng các ứng dụng AI tại Việt Nam. ViGen sẽ xây dựng các bộ dữ liệu Tiếng Việt mã nguồn mở với quy mô lớn và chất lượng cao để đào tạo và đánh giá khả năng của các mô hình AI. Dự án cũng đóng góp vào việc bảo đảm sự phát triển AI ở Việt Nam phù hợp với giá trị văn hoá và tiêu chuẩn đạo đức, hướng tới việc xây dựng một hệ sinh thái AI mã nguồn mở phù hợp với bối cảnh địa phương và có trách nhiệm”, ông Trần Việt Hùng nói.

Chia sẻ về quá trình thực hiện dự án, ông Sarim Aziz, Giám đốc Chính sách công của Meta cho biết, năm 2025 là năm bản lề với tiến trình phát triển AI tại Việt Nam.

Thông qua hỗ trợ các nhà nghiên cứu, nhà phát triển và doanh nghiệp Việt Nam, dự án ViGen sẽ tiếp cận những mô hình AI mã nguồn mở cùng các nguồn lực phù hợp với bối cảnh địa phương nhằm phát huy tối đa tiềm năng và thúc đẩy sáng kiến AI mang tính ứng dụng cao, phù hợp với nhu cầu của Việt Nam.

Cũng tại cuộc họp báo, Meta phối hợp với Deloite đã chọn Việt Nam là quốc gia đầu tiên trong khu vực châu Á-Thái Bình Dương ra mắt cẩm nang “Đổi mới sáng tạo trong khu vực công ở châu Á-Thái Bình Dương với AI mã nguồn mở: Khai phá tiềm năng đột phá cùng Llama”.

Cẩm nang này cung cấp các phương pháp tối ưu trong việc ứng dụng AI mã nguồn mở và đánh giá các ứng dụng thực tiễn của mô hình Llama trong các lĩnh vực quan trọng của khu vực công, bao gồm: tương tác với người dân, quản lý hành chính công, tuân thủ chính sách, giáo dục, y tế, an ninh công…

Có thể bạn quan tâm

Tăng cường bảo mật ngân hàng. (Đồ họa: HỒNG ANH)

Chống lừa đảo AI trong ngành ngân hàng

Sự phát triển của trí tuệ nhân tạo (AI) đang mở ra nhiều cơ hội cho ngành ngân hàng trong việc nâng cao hiệu quả vận hành, quản trị rủi ro và cải thiện trải nghiệm khách hàng. Tuy nhiên, chính công nghệ này cũng đang bị tội phạm mạng lợi dụng để tạo ra các hình thức lừa đảo ngày càng tinh vi.

Hội nghị sơ kết công tác quản lý lĩnh vực thông tin điện tử 6 tháng đầu năm 2026.

Tăng cường xử lý vi phạm trên không gian mạng

Chiều 24/6, tại Hà Nội, Cục Phát thanh, Truyền hình và Thông tin điện tử (Bộ Văn hóa, Thể thao và Du lịch) tổ chức Hội nghị sơ kết công tác quản lý lĩnh vực thông tin điện tử 6 tháng đầu năm 2026.

Hoạt động nghiên cứu, thí nghiệm thực hành của sinh viên Trường đại học Việt Nhật. (Ảnh: DIỆP NGỌC)

Chuyển đổi số trong quản trị đại học: Đột phá đào tạo song hành và lực lượng lao động kỷ nguyên mới

Giáo dục nước ta đang đứng trước bước ngoặt mang tính cách mạng về cấu trúc thể chế, triết lý vận hành thích ứng kỷ nguyên số. Áp lực toàn cầu hóa và cách mạng công nghiệp lần thứ tư đã định hình hệ thống giáo dục đại học và nghề nghiệp theo hướng song hành thực học, thực nghiệp thay thế mô hình hàn lâm truyền thống.

Các đồng chí Thường trực Tỉnh ủy Cà Mau chủ trì hội nghị.

Cà Mau đẩy mạnh chuyển đổi số, đột phá công nghệ để định hình tương lai

Tỉnh Cà Mau vừa tổ chức hội nghị sơ kết 1 năm 6 tháng thực hiện Nghị quyết số 57 của Bộ Chính trị về đột phá phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số quốc gia. Những kết quả bước đầu cho thấy tư duy và hành động mạnh mẽ của địa phương trong việc đi tắt đón đầu để định hình tương lai.

Việc phối hợp đào tạo nhân lực theo nhu cầu của thị trường sẽ góp phần “tạo nguồn” để cơ cấu lại lao động.

AI định hình thế hệ lao động mới

Việt Nam đang đứng trước một giai đoạn chuyển đổi rất mạnh của thị trường lao động: Dân số bắt đầu già hóa, lao động giá rẻ không còn là lợi thế, trí tuệ nhân tạo (AI) đã đi vào mọi ngành nghề...

Nhiều bài toán lớn vẫn chờ "nhạc trưởng"

Nhiều bài toán lớn vẫn chờ "nhạc trưởng"

Cùng với việc trao quyền mạnh mẽ hơn cho các tổng công trình sư, vẫn còn một câu hỏi khác: đâu là những bài toán thật sự cần mô hình này? Nếu danh mục nhiệm vụ được mở rộng quá mức, trong khi nguồn nhân lực dẫn dắt còn hạn chế, nguy cơ phân tán nguồn lực và chồng lấn trách nhiệm là điều khó tránh khỏi.

Đào tạo những kỹ năng AI không thể thay thế

Đào tạo những kỹ năng AI không thể thay thế

Khi khả năng viết tin, biên tập văn bản, dựng hình ảnh, sản xuất video hay phân tích dữ liệu của trí tuệ nhân tạo (AI) ngày càng vượt trội, câu hỏi đặt ra với các cơ sở đào tạo báo chí trở nên trực diện và cũng thiết thực hơn - đó là “đào tạo điều gì để phóng viên trẻ không bị đào thải bởi chính AI?”.

Những khoảnh khắc không thể lặp lại

Những khoảnh khắc không thể lặp lại

Trong thời đại công nghệ đa phương tiện phát triển mạnh mẽ, các hình thức kể chuyện bằng video, đồ họa, dữ liệu ngày càng phổ biến, nhưng phóng viên ảnh vẫn giữ một vị trí riêng với ảnh báo chí, thể loại mà giá trị thời sự chân thực tại hiện trường mang lại là không thể thay thế.

Nền tảng tái cấu trúc cách thức quốc gia vận hành

Nền tảng tái cấu trúc cách thức quốc gia vận hành

Sau Kỳ họp thứ nhất Quốc hội khóa XVI, Tổng Bí thư, Chủ tịch nước Tô Lâm khi tiếp xúc cử tri Hà Nội đã nhấn mạnh yêu cầu xây dựng các xã, phường theo mô hình “xã/phường xã hội chủ nghĩa” - những đơn vị quản trị hiện đại, gần dân, phục vụ dân tốt hơn trên nền tảng dữ liệu và công nghệ số.

Hoạt động nghiên cứu khoa học tại Trường đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội (Ảnh: HÀ LINH)

Xây dựng nguồn nhân lực cho nghiên cứu cơ bản

Để xây dựng nền khoa học cơ bản mạnh, Việt Nam cần một đội ngũ nhà khoa học đủ năng lực theo đuổi các hướng nghiên cứu dài hạn. Tuy nhiên, việc nhiều tổ chức nghiên cứu đang gặp khó khăn trong việc thu hút và duy trì đội ngũ nghiên cứu trẻ đã đặt ra yêu cầu cấp thiết về xây dựng lực lượng kế cận cho các lĩnh vực khoa học cơ bản.

Trường đại học Kinh tế, Đại học Huế vinh danh 14 sinh viên/nhóm sinh viên đạt thành tích xuất sắc trong hoạt động nghiên cứu khoa học giai đoạn 2025-2026. (Ảnh: PH.THẢO)

Sinh viên Đại học Huế: Bám thực tiễn để nghiên cứu khoa học

Hội nghị sinh viên nghiên cứu khoa học năm học 2025-2026 do Trường đại học Kinh tế, Đại học Huế tổ chức là diễn đàn học thuật quan trọng, ghi nhận tinh thần sáng tạo của sinh viên, đồng thời cho thấy nhiều đề tài nghiên cứu có giá trị thực tiễn cao, bám sát các vấn đề kinh tế-xã hội hiện nay.

Phó Tổng Biên tập VnExpress Nguyễn Thu Hương. (Ảnh: THÀNH ĐẠT)

Trí tuệ nhân tạo - công cụ giải phóng sức lao động, giúp nhà báo tập trung vào giá trị cốt lõi

Trong bối cảnh trí tuệ nhân tạo (AI) đang được tích hợp sâu vào quy trình sản xuất và phân phối nội dung, phóng viên Báo Nhân Dân đã phỏng vấn Phó Tổng Biên tập VnExpress Nguyễn Thu Hương về kinh nghiệm triển khai và tối ưu các ứng dụng AI của VnExpress - một trong những tòa soạn báo điện tử hàng đầu tại Việt Nam.

Hành vi vi phạm trên các nền tảng số ngày càng diễn biến phức tạp.

Tăng cường cơ chế pháp lý, tạo đòn bẩy xét xử án sở hữu trí tuệ

Trong tiến trình cải cách tư pháp và hội nhập quốc tế, việc xây dựng cơ chế xét xử chuyên sâu đối với các tranh chấp, vi phạm về sở hữu trí tuệ là yêu cầu tất yếu. Tuy nhiên, khi công nghệ phát triển, sự xuất hiện vô vàn hình thức xâm phạm sở hữu trí tuệ đã đặt ra không ít khó khăn đối với công tác xét xử.

Người dân cần cảnh giác với các cuộc gọi giả mạo người thân, cơ quan chức năng.

Cuộc gọi hiện đúng tên người thân vẫn có thể là lừa đảo

Nhờ công nghệ giả mạo số điện thoại kết hợp trí tuệ nhân tạo mô phỏng giọng nói, các đối tượng lừa đảo có thể khiến cuộc gọi hiển thị đúng tên người thân, bạn bè hoặc cơ quan, tổ chức uy tín. Thủ đoạn này đã khiến không ít người mất cảnh giác, cung cấp thông tin cá nhân hoặc chuyển tiền theo yêu cầu của kẻ lừa đảo.