Những điều chưa biết về tập dữ liệu AI "chân dung người Việt" lọt top 15 thịnh hành toàn cầu

FPT và NVIDIA phát hành tập dữ liệu tiếng Việt phục vụ phát triển trí tuệ nhân tạo (AI) có chủ quyền tại Việt Nam, chỉ sau 4 ngày ra mắt đã nhanh chóng lọt Top 15 tập dữ liệu thịnh hành trên Hugging Face.

Ảnh minh họa.
Ảnh minh họa.

Chỉ sau 4 ngày phát hành, tập dữ liệu Nemotron-Personas-Vietnam do Tập đoàn FPT phối hợp cùng NVIDIA phát triển đã nhanh chóng lọt top 15 tập dữ liệu thịnh hành trên Hugging Face, nền tảng chia sẻ mô hình và dữ liệu trí tuệ nhân tạo mã nguồn mở hàng đầu thế giới.

Tập dữ liệu về “chân dung người Việt” phục vụ phát triển AI

Trên nền tảng Hugging Face, danh sách thịnh hành phản ánh mức độ quan tâm của cộng đồng đối với một tài nguyên, thường được ghi nhận thông qua số lượt tải về, lượt yêu thích và tương tác.

Việc Nemotron-Personas-Vietnam lọt top 15 thịnh hành cho thấy tập dữ liệu được xây dựng riêng cho tiếng Việt và bối cảnh Việt Nam đang thu hút sự chú ý của cộng đồng AI quốc tế. Điều này cũng phản ánh vai trò ngày càng quan trọng của các nguồn dữ liệu bản địa trong bối cảnh nhiều quốc gia đang thúc đẩy phát triển AI có chủ quyền.

Nemotron-Personas-Vietnam không phải là một mô hình ngôn ngữ lớn, mà là một tập dữ liệu nền - tức nguồn dữ liệu gốc để các nhà phát triển dùng làm cơ sở - phục vụ quá trình phát triển AI.

Tập dữ liệu này được xây dựng dưới dạng các persona (chân dung) tiếng Việt, tức các “hồ sơ nhân vật”, mô phỏng sự đa dạng của người Việt trong đời sống, học tập, công việc và sở thích.

Các persona này không phải dữ liệu của người thật, mà là dữ liệu tổng hợp do hệ thống AI tạo ra, dựa trên các phân bố thống kê và phương pháp kiểm chứng nhằm phản ánh sát hơn thực tế xã hội Việt Nam.

data-structure-nemotron-personas.png
Nemotron-Personas-Vietnam gồm 100.000 bản ghi, tương ứng 900.000 persona tiếng Việt.

Phiên bản phát hành công khai của Nemotron-Personas-Vietnam gồm 100.000 bản ghi, tương ứng 900.000 persona tiếng Việt, với tổng dung lượng 118 triệu token, trong đó có 52 triệu token persona. Token có thể hiểu đơn giản là đơn vị nhỏ mà mô hình AI dùng để “đọc” và xử lý ngôn ngữ. Vì vậy, 118 triệu token cho thấy tập dữ liệu có quy mô văn bản lớn, đủ để hỗ trợ các nhà phát triển trong quá trình tạo dữ liệu huấn luyện, tinh chỉnh hoặc đánh giá mô hình AI tiếng Việt.

Mỗi bản ghi trong tập dữ liệu được mô tả qua nhiều trường thông tin khác nhau, bao gồm nghề nghiệp, kỹ năng, mục tiêu nghề nghiệp, sở thích thể thao, nghệ thuật, du lịch, ẩm thực, độ tuổi, giới tính, trình độ học vấn, tình trạng hôn nhân, khu vực cư trú và địa phương.

Việc mô tả persona theo nhiều chiều giúp nhà phát triển có thể lọc, phân nhóm và tạo các kịch bản dữ liệu phù hợp với từng nhóm người dùng, từng ngành nghề hoặc từng bối cảnh ứng dụng cụ thể.

Tập dữ liệu bao phủ 6 tỉnh, thành phố trực thuộc trung ương gồm Hà Nội, Thành phố Hồ Chí Minh, Hải Phòng, Đà Nẵng, Cần Thơ và Đồng Nai, theo địa giới hành chính mới của Việt Nam sau sắp xếp năm 2025.

Nemotron-Personas-Vietnam được phát hành mở trên Hugging Face, cho phép sử dụng cho cả mục đích thương mại và phi thương mại với điều kiện ghi nhận nguồn phù hợp.

Nhờ đó, các nhà nghiên cứu, startup, doanh nghiệp và cộng đồng phát triển AI tại Việt Nam có thể tiếp cận một nguồn dữ liệu nền để thử nghiệm, huấn luyện, tinh chỉnh và đánh giá các hệ thống AI.

Thúc đẩy AI có chủ quyền cho Việt Nam

Với Nemotron-Personas-Vietnam, các nhà phát triển có thêm một nguồn dữ liệu phản ánh tốt hơn đặc điểm của người Việt, từ đó có thể tạo thêm dữ liệu tổng hợp, giảm thiên lệch trong quá trình huấn luyện và cải thiện sự đa dạng trong phản hồi của mô hình AI tiếng Việt.

Đây là bước đi quan trọng để AI không chỉ “biết tiếng Việt”, mà còn hiểu tốt hơn người Việt, xã hội Việt Nam và các bài toán cụ thể của Việt Nam.

pgsts-ngo-xuan-bach.jpg
PGS, TS Ngô Xuân Bách, Giám đốc Khối sản phẩm AI, FPT Smart Cloud và Giám đốc Viện Quantum AI & Cyber Security, Tập đoàn FPT.

PGS, TS Ngô Xuân Bách, Giám đốc Khối sản phẩm AI, FPT Smart Cloud và Giám đốc Viện Quantum AI & Cyber Security, Tập đoàn FPT cho biết: “FPT tin rằng AI có chủ quyền phải được xây dựng từ nền tảng để phản ánh ngôn ngữ, văn hóa và thực tế kinh tế địa phương".

"Tập dữ liệu Nemotron-Personas-Vietnam thể hiện cam kết của chúng tôi trong việc giúp các nhà phát triển AI địa phương dễ dàng tiếp cận các nguồn lực cần thiết để xây dựng giải pháp AI dành riêng cho người Việt và có thể mở rộng ra khu vực”, PGS, TS Ngô Xuân Bách nhấn mạnh.

Sự hợp tác giữa FPT và NVIDIA xuất phát từ mục tiêu chung là cung cấp các mô hình, bộ dữ liệu và thư viện mở, hiệu quả cho cộng đồng phát triển AI. Các nguồn lực này giúp nhà phát triển xây dựng hệ thống AI có khả năng phản ánh tốt hơn ngôn ngữ, văn hóa, quy định, hạ tầng dữ liệu và mục tiêu kinh tế của từng quốc gia, thay vì phụ thuộc hoàn toàn vào các mô hình tổng quát toàn cầu.

Trong hợp tác này, NVIDIA đóng góp khung mô hình mở, thư viện dữ liệu tổng hợp NVIDIA NeMo Data Designer và phương pháp Nemotron-Personas. Đây là cách tiếp cận có cấu trúc để tạo ra các tập dữ liệu tổng hợp quy mô lớn, có khả năng phản ánh các đặc điểm nhân khẩu học, địa lý và bối cảnh sử dụng của từng quốc gia.

FPT đóng góp chuyên môn, hiểu biết về bản địa, năng lực xác thực dữ liệu, hạ tầng dữ liệu và năng lực nghiên cứu AI thông qua các đơn vị gồm FPT Smart Cloud, Viện Quantum AI & Cyber Security và FPT DC5.

Trên thế giới, các tập dữ liệu persona đang trở thành một hướng tiếp cận quan trọng trong phát triển AI, đặc biệt với các mô hình cần tạo dữ liệu tổng hợp đa dạng, giảm thiên lệch và phản ánh tốt hơn bối cảnh người dùng.

Trong dòng Nemotron-Personas, NVIDIA đã phát triển các bộ dữ liệu persona cho nhiều quốc gia và khu vực như Mỹ, Nhật Bản, Ấn Độ, Singapore, Brazil, Pháp,...

Phần lớn các mô hình AI phổ biến hiện nay được huấn luyện chủ yếu trên dữ liệu tiếng Anh và bối cảnh phương Tây. Khi áp dụng vào Việt Nam, các mô hình này có thể chưa hiểu đầy đủ những khác biệt về ngôn ngữ, văn hóa, nghề nghiệp, vùng miền, cách giao tiếp và nhu cầu thực tế của người dùng Việt Nam. Điều này có thể dẫn tới phản hồi thiếu tự nhiên, thiếu chính xác hoặc chưa phù hợp với bối cảnh địa phương.

Sự hiện diện của Nemotron-Personas-Vietnam trong nhóm thịnh hành trên Hugging Face cho thấy dữ liệu bản địa đang ngày càng có vai trò quan trọng trong phát triển AI. Với Việt Nam, đây là một bước đi thiết thực nhằm mở rộng nguồn lực cho cộng đồng công nghệ, hỗ trợ doanh nghiệp và nhà nghiên cứu phát triển các hệ thống AI hiểu người Việt hơn, phục vụ người Việt tốt hơn và có khả năng mở rộng ra khu vực.

Có thể bạn quan tâm

Thủ tướng Thái Lan Anutin Charnvirakul tại buổi gặp gỡ với đại diện FPT trong chuyến thăm Việt Nam từ 8-9/6.

Chủ tịch FPT: Việt Nam và Thái Lan còn rất nhiều dư địa hợp tác trong AI và công nghệ số

Việt Nam và Thái Lan đang bước vào giai đoạn hợp tác mới, không chỉ dựa trên các trụ cột thương mại và đầu tư mà còn trên những động lực tăng trưởng của tương lai. Trong đó, công nghệ, đặc biệt là trí tuệ nhân tạo (AI) đang nổi lên như một cầu nối quan trọng, mở ra dư địa hợp tác mới giữa hai quốc gia.

Lãnh đạo tỉnh và xã Yên Bình ra mắt "thôn số". (Ảnh: THANH SƠN)

Lào Cai ra mắt “thôn số” tại xã Yên Bình

Chiều 9/6, tại thôn 6, xã Yên Bình, tỉnh Lào Cai tổ chức chương trình ra mắt mô hình điểm “thôn số”. Đây là mô hình “thôn số” thứ 2 của tỉnh Lào Cai, đánh dấu bước tiến quan trọng trong thực hiện Nghị quyết số 57-NQ/TW của Bộ Chính trị về phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số.

Các em nhỏ tại điểm trường Hát Khoang, xã Mường Mùn, tỉnh Điện Biên. (Ảnh: Thuỷ Nguyên)

Lừa đảo công nghệ cao nhắm vào trẻ em dịp hè

Mùa hè đến là khoảng thời gian học sinh có nhiều thời gian tiếp xúc với điện thoại, mạng xã hội, trò chơi trực tuyến. Đây cũng là thời điểm các đối tượng xấu gia tăng hoạt động trên không gian mạng với nhiều thủ đoạn tinh vi nhằm chiếm đoạt tài sản, đánh cắp thông tin hoặc xâm hại trẻ em.

Chính phủ định hướng phát triển VNeID thành “siêu ứng dụng”, đóng vai trò trung tâm trong hệ sinh thái số quốc gia.

Mở rộng hệ sinh thái tiện ích số trên VNeID

Chính phủ đã phê duyệt Đề án “Phát triển ứng dụng định danh quốc gia VNeID giai đoạn 2026-2030, tầm nhìn đến năm 2045” với quan điểm phát triển VNeID thành “siêu ứng dụng”, đóng vai trò trung tâm trong hệ sinh thái số quốc gia.

Các sản phẩm từ lụa vụn đầy sắc màu được người khuyết tật hoàn thiện tại VỤN Art.

AI mở rộng cơ hội cho người khuyết tật

Với người khuyết tật, AI đang mở ra nhiều cơ hội mới, giúp vượt qua những rào cản từng được xem là “bất khả thi”, đồng thời thu hẹp khoảng cách số và thúc đẩy một xã hội bao trùm, không ai bị bỏ lại phía sau. Giá trị của AI vì thế không nằm ở công nghệ hiện đại, mà còn ở khả năng phục vụ con người.

Đại sứ Việt Nam tại Áo Vũ Lê Thái Hoàng phát biểu khai mạc sự kiện.(Ảnh: TTXVN)

Ngày Công nghệ Robot Việt Nam tại Áo: Khẳng định vị thế công nghệ Việt trên trường quốc tế

Sự kiện “Ngày Công nghệ Robot Việt Nam” do Đại sứ quán Việt Nam tại Áo phối hợp với VinRobotics tổ chức đã giới thiệu những thành tựu mới trong lĩnh vực robot, tự động hóa và trí tuệ nhân tạo, góp phần quảng bá năng lực công nghệ của doanh nghiệp Việt, đồng thời mở rộng kết nối hợp tác với hệ sinh thái đổi mới sáng tạo châu Âu.

Đội VN.FPTIT của Việt Nam, cùng các đội tuyển của các nước nhận giải Nhất. (Ảnh: BTC cung cấp)

Việt Nam đoạt thành tích ấn tượng tại Cuộc thi công nghệ thông tin và truyền thông quốc tế

Với quy mô lớn nhất từ trước đến nay, cuộc thi thu hút hơn 220.000 sinh viên và giảng viên đến từ hơn 2.000 trường đại học của hơn 100 quốc gia và vùng lãnh thổ. Tự tin sau “cú đúp” là 2 giải Xuất sắc ở vòng khu vực châu Á-Thái Bình Dương, các sinh viên Việt Nam tiếp tục đoạt giải cao tại vòng chung kết toàn cầu.

Trụ bơm nhiên liệu sinh học E5, E10 và B7 tại một cây xăng ở Paris, Pháp. (Ảnh: KHẢI HOÀN)

Ấn Độ bắt đầu triển khai nhiên liệu E85

Ngày 5/6, Ấn Độ chính thức mở bán nhiên liệu E85, một bước thúc đẩy việc pha trộn ethanol. Đây được xem là bước đi chiến lược của chính phủ nước này nhằm thúc đẩy lộ trình pha trộn ethanol vào xăng dầu, phục vụ chuyển đổi năng lượng xanh.

Giáo sư, Tiến sĩ Phạm Hùng Việt hướng dẫn cán bộ Phòng Thí nghiệm trọng điểm công nghệ phân tích mẫu chứa hợp chất PFAS bằng hệ thống sắc ký lỏng hiệu năng cao ghép nối khối phổ hai lần (HPLC-MS/MS).

Nghiên cứu cơ bản- tầng sâu nhất của đổi mới sáng tạo

Báo Nhân Dân trân trọng giới thiệu bài viết của Giáo sư, Tiến sĩ Phạm Hùng Việt, Cố vấn khoa học của Phòng Thí nghiệm trọng điểm Công nghệ phân tích phục vụ Kiểm định môi trường và An toàn thực phẩm, Đại học Quốc gia Hà Nội, về nghiên cứu cơ bản - tầng sâu nhất của đổi mới sáng tạo.