Những điều chưa biết về tập dữ liệu AI "chân dung người Việt" lọt top 15 thịnh hành toàn cầu

FPT và NVIDIA phát hành tập dữ liệu tiếng Việt phục vụ phát triển trí tuệ nhân tạo (AI) có chủ quyền tại Việt Nam, chỉ sau 4 ngày ra mắt đã nhanh chóng lọt Top 15 tập dữ liệu thịnh hành trên Hugging Face.

Thứ Ba, ngày 09/06/2026 - 08:18

Chỉ sau 4 ngày phát hành, tập dữ liệu Nemotron-Personas-Vietnam do Tập đoàn FPT phối hợp cùng NVIDIA phát triển đã nhanh chóng lọt top 15 tập dữ liệu thịnh hành trên Hugging Face, nền tảng chia sẻ mô hình và dữ liệu trí tuệ nhân tạo mã nguồn mở hàng đầu thế giới.

Tập dữ liệu về “chân dung người Việt” phục vụ phát triển AI

Trên nền tảng Hugging Face, danh sách thịnh hành phản ánh mức độ quan tâm của cộng đồng đối với một tài nguyên, thường được ghi nhận thông qua số lượt tải về, lượt yêu thích và tương tác.

Việc Nemotron-Personas-Vietnam lọt top 15 thịnh hành cho thấy tập dữ liệu được xây dựng riêng cho tiếng Việt và bối cảnh Việt Nam đang thu hút sự chú ý của cộng đồng AI quốc tế. Điều này cũng phản ánh vai trò ngày càng quan trọng của các nguồn dữ liệu bản địa trong bối cảnh nhiều quốc gia đang thúc đẩy phát triển AI có chủ quyền.

Nemotron-Personas-Vietnam không phải là một mô hình ngôn ngữ lớn, mà là một tập dữ liệu nền - tức nguồn dữ liệu gốc để các nhà phát triển dùng làm cơ sở - phục vụ quá trình phát triển AI.

Tập dữ liệu này được xây dựng dưới dạng các persona (chân dung) tiếng Việt, tức các “hồ sơ nhân vật”, mô phỏng sự đa dạng của người Việt trong đời sống, học tập, công việc và sở thích.

Các persona này không phải dữ liệu của người thật, mà là dữ liệu tổng hợp do hệ thống AI tạo ra, dựa trên các phân bố thống kê và phương pháp kiểm chứng nhằm phản ánh sát hơn thực tế xã hội Việt Nam.

Phiên bản phát hành công khai của Nemotron-Personas-Vietnam gồm 100.000 bản ghi, tương ứng 900.000 persona tiếng Việt, với tổng dung lượng 118 triệu token, trong đó có 52 triệu token persona. Token có thể hiểu đơn giản là đơn vị nhỏ mà mô hình AI dùng để “đọc” và xử lý ngôn ngữ. Vì vậy, 118 triệu token cho thấy tập dữ liệu có quy mô văn bản lớn, đủ để hỗ trợ các nhà phát triển trong quá trình tạo dữ liệu huấn luyện, tinh chỉnh hoặc đánh giá mô hình AI tiếng Việt.

Mỗi bản ghi trong tập dữ liệu được mô tả qua nhiều trường thông tin khác nhau, bao gồm nghề nghiệp, kỹ năng, mục tiêu nghề nghiệp, sở thích thể thao, nghệ thuật, du lịch, ẩm thực, độ tuổi, giới tính, trình độ học vấn, tình trạng hôn nhân, khu vực cư trú và địa phương.

Việc mô tả persona theo nhiều chiều giúp nhà phát triển có thể lọc, phân nhóm và tạo các kịch bản dữ liệu phù hợp với từng nhóm người dùng, từng ngành nghề hoặc từng bối cảnh ứng dụng cụ thể.

Tập dữ liệu bao phủ 6 tỉnh, thành phố trực thuộc trung ương gồm Hà Nội, Thành phố Hồ Chí Minh, Hải Phòng, Đà Nẵng, Cần Thơ và Đồng Nai, theo địa giới hành chính mới của Việt Nam sau sắp xếp năm 2025.

Nemotron-Personas-Vietnam được phát hành mở trên Hugging Face, cho phép sử dụng cho cả mục đích thương mại và phi thương mại với điều kiện ghi nhận nguồn phù hợp.

Nhờ đó, các nhà nghiên cứu, startup, doanh nghiệp và cộng đồng phát triển AI tại Việt Nam có thể tiếp cận một nguồn dữ liệu nền để thử nghiệm, huấn luyện, tinh chỉnh và đánh giá các hệ thống AI.

Thúc đẩy AI có chủ quyền cho Việt Nam

Với Nemotron-Personas-Vietnam, các nhà phát triển có thêm một nguồn dữ liệu phản ánh tốt hơn đặc điểm của người Việt, từ đó có thể tạo thêm dữ liệu tổng hợp, giảm thiên lệch trong quá trình huấn luyện và cải thiện sự đa dạng trong phản hồi của mô hình AI tiếng Việt.

Đây là bước đi quan trọng để AI không chỉ “biết tiếng Việt”, mà còn hiểu tốt hơn người Việt, xã hội Việt Nam và các bài toán cụ thể của Việt Nam.

PGS, TS Ngô Xuân Bách, Giám đốc Khối sản phẩm AI, FPT Smart Cloud và Giám đốc Viện Quantum AI & Cyber Security, Tập đoàn FPT cho biết: “FPT tin rằng AI có chủ quyền phải được xây dựng từ nền tảng để phản ánh ngôn ngữ, văn hóa và thực tế kinh tế địa phương".

"Tập dữ liệu Nemotron-Personas-Vietnam thể hiện cam kết của chúng tôi trong việc giúp các nhà phát triển AI địa phương dễ dàng tiếp cận các nguồn lực cần thiết để xây dựng giải pháp AI dành riêng cho người Việt và có thể mở rộng ra khu vực”, PGS, TS Ngô Xuân Bách nhấn mạnh.

Sự hợp tác giữa FPT và NVIDIA xuất phát từ mục tiêu chung là cung cấp các mô hình, bộ dữ liệu và thư viện mở, hiệu quả cho cộng đồng phát triển AI. Các nguồn lực này giúp nhà phát triển xây dựng hệ thống AI có khả năng phản ánh tốt hơn ngôn ngữ, văn hóa, quy định, hạ tầng dữ liệu và mục tiêu kinh tế của từng quốc gia, thay vì phụ thuộc hoàn toàn vào các mô hình tổng quát toàn cầu.

Trong hợp tác này, NVIDIA đóng góp khung mô hình mở, thư viện dữ liệu tổng hợp NVIDIA NeMo Data Designer và phương pháp Nemotron-Personas. Đây là cách tiếp cận có cấu trúc để tạo ra các tập dữ liệu tổng hợp quy mô lớn, có khả năng phản ánh các đặc điểm nhân khẩu học, địa lý và bối cảnh sử dụng của từng quốc gia.

FPT đóng góp chuyên môn, hiểu biết về bản địa, năng lực xác thực dữ liệu, hạ tầng dữ liệu và năng lực nghiên cứu AI thông qua các đơn vị gồm FPT Smart Cloud, Viện Quantum AI & Cyber Security và FPT DC5.

Trên thế giới, các tập dữ liệu persona đang trở thành một hướng tiếp cận quan trọng trong phát triển AI, đặc biệt với các mô hình cần tạo dữ liệu tổng hợp đa dạng, giảm thiên lệch và phản ánh tốt hơn bối cảnh người dùng.

Trong dòng Nemotron-Personas, NVIDIA đã phát triển các bộ dữ liệu persona cho nhiều quốc gia và khu vực như Mỹ, Nhật Bản, Ấn Độ, Singapore, Brazil, Pháp,...

Phần lớn các mô hình AI phổ biến hiện nay được huấn luyện chủ yếu trên dữ liệu tiếng Anh và bối cảnh phương Tây. Khi áp dụng vào Việt Nam, các mô hình này có thể chưa hiểu đầy đủ những khác biệt về ngôn ngữ, văn hóa, nghề nghiệp, vùng miền, cách giao tiếp và nhu cầu thực tế của người dùng Việt Nam. Điều này có thể dẫn tới phản hồi thiếu tự nhiên, thiếu chính xác hoặc chưa phù hợp với bối cảnh địa phương.

Sự hiện diện của Nemotron-Personas-Vietnam trong nhóm thịnh hành trên Hugging Face cho thấy dữ liệu bản địa đang ngày càng có vai trò quan trọng trong phát triển AI. Với Việt Nam, đây là một bước đi thiết thực nhằm mở rộng nguồn lực cho cộng đồng công nghệ, hỗ trợ doanh nghiệp và nhà nghiên cứu phát triển các hệ thống AI hiểu người Việt hơn, phục vụ người Việt tốt hơn và có khả năng mở rộng ra khu vực.

LÂM THẢO

Nemotron-Personas-Vietnam tập đoàn FPT NVIDIA AI có chủ quyền Trí tuệ nhân tạo AI trên thế giới

Nhân Dân

OCOP

Những điều chưa biết về tập dữ liệu AI "chân dung người Việt" lọt top 15 thịnh hành toàn cầu

Có thể bạn quan tâm

Chủ tịch FPT: Việt Nam và Thái Lan còn rất nhiều dư địa hợp tác trong AI và công nghệ số

Cam kết đồng hành lâu dài cùng Campuchia phát triển nền kinh tế số

Lào Cai ra mắt “thôn số” tại xã Yên Bình

Cộng đồng doanh nghiệp Cà Mau đổi mới tư duy, kiến tạo giá trị mới

Thủ tướng Thái Lan gặp gỡ tập đoàn FPT, chứng kiến lễ ký kết hợp tác thúc đẩy chuyển đổi AI

Lừa đảo công nghệ cao nhắm vào trẻ em dịp hè

Đại học Monash ra mắt “siêu máy tính” AI Maveric, nâng tầm nghiên cứu, đổi mới sáng tạo

Nâng tầm nhân lực cho doanh nghiệp trong kỷ nguyên AI

Ra mắt mô hình “Thôn số” đầu tiên tại tỉnh Lào Cai

VinDynamics và Skild AI hợp tác đưa "bộ não AI" vào thế hệ robot hình người mới

Quyết định 982/QĐ-TTg: Tái định vị Việt Nam trong chuỗi giá trị công nghệ toàn cầu

Bài 2: Thu hẹp khoảng cách số, trao khả năng tiếp cận công nghệ

Mở rộng hệ sinh thái tiện ích số trên VNeID

Kiến tạo hệ sinh thái nhân lực an ninh mạng

AI mở rộng cơ hội cho người khuyết tật

Bảo hộ sở hữu trí tuệ trong kỷ nguyên số: Từ chiến lược quốc gia đến hành động của doanh nghiệp

Thiếu niên Đà Nẵng góp sáng kiến vì thành phố hòa nhập

Báo Nhân Dân và Báo, Phát thanh truyền hình Quảng Ninh chia sẻ kinh nghiệm về chuyển đổi số

Ngày Công nghệ Robot Việt Nam tại Áo: Khẳng định vị thế công nghệ Việt trên trường quốc tế

Việt Nam đoạt thành tích ấn tượng tại Cuộc thi công nghệ thông tin và truyền thông quốc tế

Ấn Độ bắt đầu triển khai nhiên liệu E85

Tỷ phú Eric Schmidt, cựu Chủ tịch, Tổng Giám đốc Tập đoàn Google cùng đoàn chuyên gia AI quốc tế trao đổi về tương lai AI Việt Nam

Ký kết Chương trình hợp tác giữa Hội đồng Lý luận Trung ương với Viện Hàn lâm Khoa học xã hội Việt Nam

Kinh nghiệm từ Estonia, nguồn tham khảo quý giá, phục vụ hoàn thiện mô hình công dân số tại Việt Nam

Mở rộng trách nhiệm của nền tảng số trong bảo vệ quyền sở hữu trí tuệ

Ba bạn trẻ đại diện Việt Nam tranh tài tại ACP World Championship 2026

Phát triển nền tảng số và dịch vụ số, chuyển hoạt động lên môi trường số

Nghiên cứu cơ bản- tầng sâu nhất của đổi mới sáng tạo

Những điều chưa biết về tập dữ liệu AI "chân dung người Việt" lọt top 15 thịnh hành toàn cầu

Tin liên quan

Tin đọc nhiều