Vận hội mới từ “mỏ vàng” dữ liệu


Việt Nam đang bước vào giai đoạn tăng tốc, bứt phá mạnh mẽ dựa trên động lực chủ yếu là khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số.

Dữ liệu thống nhất-sạch-chuẩn tạo động lực phát triển nhanh chóng cho những start-up như Loca AI.
Dữ liệu thống nhất-sạch-chuẩn tạo động lực phát triển nhanh chóng cho những start-up như Loca AI.

Nếu như việc thu thập và lưu trữ dữ liệu mới chỉ là điều kiện ban đầu, thì điều quan trọng hơn là khai thác, phân tích và sáng tạo giá trị từ nguồn “tài nguyên” này, để chuyển đổi thành tri thức, quyết sách đúng, hay những sản phẩm và dịch vụ cụ thể, thiết thực cho xã hội, cho người dân.

Dữ liệu đã trở thành một nguồn lực chiến lược, một loại tài nguyên mới, có ý nghĩa đặc biệt quan trọng đối với năng lực quản trị quốc gia, sức cạnh tranh của nền kinh tế và chất lượng đời sống của nhân dân”.

Tổng Bí thư TÔ LÂM phát biểu trong chuyến thăm,

làm việc mới đây tại Trung tâm Dữ liệu quốc gia số 1 (Hòa Lạc, Hà Nội)

Bài toán tinh chế nhiên liệu

Chúng ta thường ví dữ liệu là “dầu mỏ” của kỷ nguyên số. Nhưng nếu nhìn sâu hơn vào chuỗi giá trị, dữ liệu thô giống như dầu mới hút từ lòng đất và chưa thể dùng ngay. Muốn biến nó thành tài sản, ta cần các “nhà máy lọc dầu” để biến nó thành xăng, nhiên liệu phản lực.

Trong nền kinh tế mới, trí tuệ nhân tạo (AI) chính là những “động cơ vĩnh cửu”, thay thế sức lao động thủ công và các mô hình quản trị cũ kỹ. Để các mô hình ngôn ngữ lớn (LLM) hay các hệ thống thị giác máy tính hoạt động chính xác, chúng cần dữ liệu sạch, được dán nhãn, chuẩn hóa và kiểm soát. Do đó, thách thức cốt lõi của Việt Nam hiện nay không phải là chúng ta có bao nhiêu dữ liệu (vì lượng dữ liệu sinh ra mỗi ngày là khổng lồ), mà là chúng ta sở hữu bao nhiêu dữ liệu sạch sẵn sàng đưa vào sản xuất.

Nhìn lại bức tranh 5-10 năm trước, rào cản lớn nhất của chúng ta chính là tư duy “cát cứ dữ liệu”. Các bộ, ban, ngành, thậm chí các phòng ban trong cùng một cơ quan thường giữ dữ liệu như tài sản riêng, tạo ra những “ốc đảo” thông tin cô lập. Sự thiếu liên thông này khiến dữ liệu bị phân tán, không phát huy được sức mạnh tổng hợp trong quản trị và điều hành.

Tuy nhiên, khoảng ba năm trở lại đây, nhận thức này đã có sự thay đổi ngoạn mục. Sự bùng nổ của AI trên toàn cầu đã tạo ra áp lực buộc chúng ta phải thay đổi. Lãnh đạo Đảng và Nhà nước đã có những chỉ đạo quyết liệt về chuyển đổi số. Việc xây dựng và vận hành Trung tâm Dữ liệu quốc gia là minh chứng hùng hồn nhất. Đây sẽ là “trái tim” bơm máu đi nuôi cơ thể số của đất nước, là đầu mối kết nối mọi nguồn dữ liệu để phân tích và ra quyết định.

Song, để “trái tim” khỏe mạnh, các “mạch máu” từ địa phương phải thông suốt. Cán bộ cấp cơ sở cần hiểu rằng: Nhập liệu chính xác, cập nhật thời gian thực không chỉ là thủ tục hành chính, mà là đang đóng góp vào tài sản quốc gia. Dữ liệu từ cơ sở phải sạch, sống và đúng thì Trung tâm Dữ liệu mới có giá trị.

Khi dữ liệu quyết định vận tốc phát triển

Để minh chứng cho tầm quan trọng của việc “kết nối và chia sẻ dữ liệu”, tôi xin dẫn chứng từ chính dự án tâm huyết mà Loca AI đang triển khai: Hệ thống nhận diện và chuyển đổi ngôn ngữ các dân tộc thiểu số.

Việt Nam có 54 dân tộc anh em, nhưng rào cản ngôn ngữ vẫn là một bức tường vô hình ngăn cản sự phát triển đồng đều. Do đó, chúng tôi đang xây dựng mô hình AI có khả năng dịch thuật hai chiều giữa tiếng dân tộc thiểu số sang tiếng Kinh và hơn 100 ngôn ngữ quốc tế khác. Đây không chỉ là dự án công nghệ đơn thuần, mà còn giúp người dân vùng cao tiếp cận tri thức, các dịch vụ an sinh xã hội, cải thiện đời sống kinh tế. Đồng thời, chính quyền địa phương có thể hiểu rõ tâm tư, nguyện vọng của đồng bào, truyền tải chính xác các chủ trương, chính sách, từ đó củng cố khối đại đoàn kết dân tộc và giữ vững an ninh biên giới.

Tuy nhiên, để “dạy” AI này, chúng tôi cần hàng nghìn giờ dữ liệu âm thanh, với giọng nói thực tế, các bản tin đọc, ngữ âm chuẩn của từng dân tộc. Nếu thu thập từ con số 0, ước tính sẽ mất từ 5-10 năm để có đủ dữ liệu sạch. Nhưng nếu có sự hỗ trợ, kết nối từ các cơ quan quản lý nhà nước - nơi đang lưu trữ các kho dữ liệu khổng lồ từ Đài tiếng nói, các băng ghi âm văn hóa, các tư liệu điền dã tích lũy hàng chục năm qua, thời gian đào tạo AI và hoàn thiện sản phẩm sẽ thu hẹp xuống còn sáu tháng đến một năm.

Sự chênh lệch thời gian khổng lồ này chính là giá trị của sự “liên thông dữ liệu”. Nếu Chính phủ xây dựng cơ chế mở kho dữ liệu này cho các doanh nghiệp công nghệ khai thác một cách có kiểm soát, chúng ta sẽ tiết kiệm được hàng nghìn tỷ đồng chi phí cơ hội và rút ngắn cả thập kỷ phát triển.

Từ bài toán thực tế trên, thiết nghĩ Nhà nước cần sớm hoàn thiện cơ chế để các doanh nghiệp tư nhân được tham gia vào quá trình “lọc dầu”. Dữ liệu thô nằm trong Trung tâm Dữ liệu quốc gia là tài sản công. Nhưng để nó thành sản phẩm thương mại phục vụ xã hội, cần bàn tay chế tác của doanh nghiệp công nghệ. Nhà nước cần có cơ chế thẩm định, phê duyệt cho các công ty đủ năng lực, đặc biệt là các start-up công nghệ có tính đổi mới sáng tạo cao, được kết nối API (là tập hợp các quy tắc, giao thức cho phép các ứng dụng phần mềm khác nhau giao tiếp và trao đổi dữ liệu với nhau một cách có cấu trúc- PV) để khai thác nguồn dữ liệu này một cách an toàn.

Việc ưu tiên cho doanh nghiệp Việt Nam tiếp cận dữ liệu quốc gia còn mang ý nghĩa sống còn về mặt cạnh tranh. Các ông lớn công nghệ thế giới (Big Tech) có thể mạnh về thuật toán, nhưng họ không có dữ liệu bản địa sâu sắc như chúng ta. Dữ liệu sạch và mang tính địa phương hóa chính là “vũ khí” để start-up Việt chiến thắng ngay trên sân nhà. Khi chúng ta giải quyết tốt bài toán của Việt Nam bằng dữ liệu Việt Nam, chúng ta sẽ có đủ nội lực để “đóng gói” giải pháp và xuất khẩu ra thế giới.

Bên cạnh nguồn dữ liệu hành chính (thường có độ trễ), còn một nguồn tài nguyên quý giá khác: Dữ liệu thời gian thực trên mạng xã hội (Social Data). Tại Loca AI, chúng tôi coi đây là “hơi thở của cuộc sống”. Nếu dữ liệu hành chính là “khung xương”, dữ liệu mạng xã hội là “cảm xúc”. Việc kết hợp lắng nghe mạng xã hội (Social Listening) với dữ liệu chuyên ngành sẽ giúp cơ quan quản lý và doanh nghiệp có được bức tranh toàn cảnh.

Thí dụ, khi ban hành một chính sách mới, dữ liệu hành chính cho biết đối tượng áp dụng, nhưng dữ liệu mạng xã hội sẽ cho biết phản ứng, tâm tư của người dân ngay lập tức. Sự kết hợp này giúp các quyết định đưa ra chính xác hơn, nhân văn hơn và bám sát thực tiễn hơn.

Cuối cùng, công nghệ chỉ là công cụ, con người mới là mục đích và cũng là động lực. Để vận hành “cỗ máy” dữ liệu quốc gia và các mô hình AI phức tạp, Việt Nam cần nguồn nhân lực khoa học dữ liệu chất lượng cao. Đây là tài nguyên quý giá thứ hai, song hành cùng dữ liệu số. Việc đầu tư cho hạ tầng dữ liệu cũng phải đi đôi với đầu tư cho con người.

Biến dữ liệu thành giá trị không còn là khẩu hiệu, đó là mệnh lệnh của thời đại để Việt Nam bứt phá. Chúng ta đã có chủ trương đúng với những nghị quyết, chiến lược về dữ liệu, đã có hạ tầng nền tảng với Trung tâm Dữ liệu quốc gia, cùng một thế hệ doanh nghiệp công nghệ khát khao cống hiến. Điều còn thiếu duy nhất là cú huých về cơ chế để khai phóng nguồn năng lượng vô tận này ■