Được nhà khoa học máy tính người Mỹ J.Mashey (G.Ma-si) định nghĩa và phổ cập qua những công trình, bài viết của mình kể từ thập niên 90 của thế kỷ trước, song thuật ngữ Big Data chỉ thật sự được quan tâm gần đây cùng với sự phát triển của công nghệ lưu trữ và mạng lưới vạn vật kết nối in-tơ-nét (Internet of Things). Với bốn đặc trưng gồm: dung lượng (volume), tính đa dạng (variety), vận tốc (velocity), tính xác thực (veracity), Big Data được hiểu đơn giản là một tập hợp dữ liệu vô cùng lớn và phức tạp. Lấy thông tin từ ba nguồn chính: các phương tiện truyền thông xã hội (nhất là các mạng xã hội và ứng dụng tìm kiếm như Facebook, Youtube hay Google), các thiết bị thu thập dữ liệu và các giao dịch kinh doanh, thương mại điện tử…, khối lượng dữ liệu của Big Data hiện được xem là một “mỏ vàng” khổng lồ. Và những thông tin tưởng chừng giản đơn, vô giá trị như: hóa đơn mua sắm điện tử, từ khóa trên trang công cụ tìm kiếm hay một “nút like” trên Facebook… đều có thể là một “thông tin” quý giá cho các doanh nghiệp.
Nói cách khác, khi người tiêu dùng trở thành một công dân mạng cũng tức là họ đã cung cấp thông tin cá nhân của mình cho các công ty, công cụ thu thập dữ liệu. Đó là một trong những nguyên nhân chủ yếu khiến cho các tập đoàn làm chủ công nghệ về thu thập, xử lý và phân tích dữ liệu như Facebook, Alphabe hay Amazon được định giá lên đến hàng tỷ USD, lớn gấp nhiều lần so với các tập đoàn công nghiệp truyền thống. Theo báo cáo năm 2017 của Công ty tư vấn dịch vụ nổi tiếng Dresner (Đre-xnơ), thì có đến 53% doanh nghiệp trên toàn thế giới hiện nay sử dụng phân tích Big Data.
Tại Việt Nam, thuật ngữ Big Data bắt đầu được du nhập và phổ biến từ năm 2012. Với lợi thế nêu trên, Big Data nhanh chóng thu hút được sự quan tâm và đón nhận của một số tập đoàn và ngân hàng lớn trên cả nước. Đầu tư vào Big Data được nhiều nhà phân tích trong nước và quốc tế nhận định là xu hướng tất yếu, nếu không muốn nói là cơ hội sống còn của các doanh nghiệp Việt, nhất là các công ty vừa và nhỏ hay startup (khởi nghiệp sáng tạo). Big Data đã tạo ra những thành công không nhỏ về tốc độ, quy mô phát triển doanh nghiệp của một số công ty khởi nghiệp như: các trang thương mại điện tử Tiki, Sendo, Shopee trên thị trường bán lẻ hay Công ty Foody trên thị trường tiếp thị sản phẩm ẩm thực. Khả năng lưu trữ, phân tích thông tin, thói quen tiêu dùng, mua bán sản phẩm của khách hàng từ Big Data đã đem lại ưu thế lớn cho nhiều doanh nghiệp trẻ tại Việt Nam.
Theo Tổng Giám đốc Tiki Trần Ngọc Sơn, nhờ khả năng phân tích dữ liệu lớn, tập đoàn này có thể dự đoán chính xác 25% nhu cầu mua sắm của khách hàng. Với dân số sử dụng in-tơ-nét ước tính hơn 60 triệu người (thống kê từ trang Internetworldstats), nguồn dữ liệu cá nhân của Việt Nam không chỉ tạo ra cơ hội kinh doanh cho các tập đoàn trong nước, mà còn thu hút sự tham gia, hợp tác của một số tập đoàn đa quốc gia lớn. Từ năm 2016, Big Data Week (Cộng đồng dữ liệu lớn) chính thức ra mắt tại Việt Nam. Năm 2017, đến lượt Amazon giới thiệu văn phòng cùng nhiều dòng, gói sản phẩm hấp dẫn liên quan Big Data. Đầu năm nay, hai tập đoàn lưu trữ và quản lý dữ liệu hàng đầu của Mỹ là Netapp và Tech Data đã hợp tác để phân phối các sản phẩm khai thác dữ liệu cho các công ty tại Việt Nam. Tiềm năng chưa khai phá hết từ dữ liệu lớn biến các ngành học như Machine Learning (Máy học: kỹ sư sẽ xây dựng một hệ thống cho máy học và bắt chước các kỹ năng nhất định), Big Data trở nên hấp dẫn và thu hút nhiều học sinh, sinh viên trong nước.
Bên cạnh các ưu điểm mà Big Data đem tới cho cuộc sống, những rủi ro mà công nghệ này mang lại cũng không nhỏ. Thời gian gần đây, hiện tượng ăn cắp, lạm dụng dữ liệu, thông tin cá nhân… đang có chiều hướng gia tăng. Trong vụ bê bối thông tin của Facebook từng khiến chủ tập đoàn này phải điều trần trước Quốc hội Mỹ, có đến 400.000 tài khoản Facebook đến từ Việt Nam đã bị rò rỉ dữ liệu. Ngày 24-4-2018, trên diễn đàn Raidforum, một thành viên đã công bố và rao bán danh sách 160 triệu tài khoản Zing ID của một tập đoàn nổi tiếng. Tập thông tin này có dung lượng lên đến 7,55 gigabite được quảng cáo là cung cấp đầy đủ thông tin: tên tài khoản, mật khẩu, mã số chứng minh nhân dân đến địa chỉ email và số điện thoại của người dùng Zing ID.
Một vụ việc tương tự với quy mô nhỏ hơn xảy ra trong thời gian gần đây là sự cố để lộ thông tin của một trung tâm an ninh mạng. Điều đáng nói là trong các vụ việc nêu trên, các tập đoàn, công ty này đều nhận ra dấu hiệu mất an toàn bảo mật dữ liệu người sử dụng trong một thời gian dài nhưng chưa hề có động thái ngăn chặn, kể cả việc cảnh báo người dùng.
Lỗ hổng và sai sót của Big Data đã được nhắc đến từ khi công nghệ này bắt đầu được các công ty, tập đoàn áp dụng rộng rãi trong hoạt động kinh doanh. Song, để khắc phục, sửa chữa lại không hề đơn giản. Nguyên nhân chính vẫn xuất phát từ các vấn đề liên quan đến lợi nhuận. Số lượng dữ liệu, nhất là thông tin cá nhân được cập nhật, điều chỉnh liên tục khiến Big Data trở thành một “mỏ dầu bất tận” mà ngay cả những doanh nghiệp hàng đầu thế giới như Alphabe, Facebook hay Amazon với tiềm lực của họ cũng chưa thể khai thác, xử lý được. Chính từ lý do đó, những cái bắt tay với bên thứ ba là xu thế phổ biến của các tập đoàn phân tích, xử lý dữ liệu lớn hiện nay.
Vụ việc gây chấn động từ Công ty Cambridge Analytica với Facebook vừa qua chỉ là bề nổi của “tảng băng chìm” mà mạng xã hội các tập đoàn phân tích dữ liệu lớn sẽ phải đối mặt trong thời gian tới. Ứng dụng myPersonality - thủ phạm cho việc để lộ thông tin của 3 triệu tài khoản Facebook mới đây, là một trong số hàng nghìn ứng dụng “trôi nổi” vẫn đang tồn tại trên mạng xã hội này. Tuy chưa dính dáng vào các bê bối lộ thông tin, nhưng Google và Youtube cũng vướng phải các rắc rối về dữ liệu lớn liên quan đến những đối tác quảng cáo của mình. Tại Việt Nam, xu hướng hợp tác trong việc chia sẻ, phân tích Big Data cũng đang được nhiều công ty, doanh nghiệp áp dụng, trong đó một số đối tác là các công ty, tập đoàn nước ngoài. Chính vì vậy, nguy cơ về sự rò rỉ thông tin, dữ liệu cá nhân càng trở nên lớn hơn.
Chưa kể, hiện nay tại Việt Nam, trên nhiều trang Facebook, Blog, Google site, việc mua bán thông tin, dữ liệu cá nhân được ví von là “dễ như mua rau”. Chỉ cần số tiền từ một đến vài triệu đồng (một số website còn đăng tải công khai và miễn phí), “khách hàng” có thể dễ dàng mua được một danh sách khổng lồ người tiêu dùng với đầy đủ thông tin, sơ yếu lý lịch. Kết quả, nhiều người thường xuyên phải đối mặt với những cuộc gọi, tin nhắn, thư điện tử,… tới những quảng cáo trực tuyến của đủ loại mặt hàng từ bất động sản đến mỹ phẩm cao cấp, nhất là các cá nhân có thu nhập trung bình khá so với mặt bằng xã hội. Đó là chưa kể nạn nhân phải đối mặt với nguy cơ tiềm ẩn như mất tài khoản ngân hàng, thư điện tử hay dính vào các đường dây lừa đảo.
Bên cạnh những yếu kém của các cơ sở, công ty phân tích dữ liệu, nhiều thói quen truy cập in-tơ-nét hiện nay của một bộ phận “công dân mạng” vừa khiến họ bị ăn cắp thông tin, vừa khiến nguồn dữ liệu lớn trở nên thiếu tính chính xác và ổn định. Thực tế, nhiều người Việt Nam đã để các tổ chức xấu thu thập dữ liệu qua việc vô tư bình luận trên mạng xã hội, sử dụng phần mềm vi phạm bản quyền, không rõ nguồn gốc, hay truy cập vào các trang web khiêu dâm, mà không biết rằng thông tin của họ đã được thu thập để thực hiện vào những mục đích xấu.
Những lợi ích từ Big Data đối với đời sống con người là không thể phủ nhận. Hiện nay, tầm ảnh hưởng của Big Data mới chỉ dừng lại chủ yếu trong lĩnh vực kinh doanh, công nghệ thông tin và truyền thông, nhưng tiềm năng của Big Data với các ngành, nghề khác trong xã hội, từ công việc hành chính nhà nước, quy hoạch cơ sở hạ tầng, giáo dục đến những ngành, nghề tưởng như xa lạ không hề liên quan như dịch vụ y tế hay thể thao là vô cùng lớn. Ít ai có thể ngờ rằng, chỉ từ dữ liệu lớn về người sử dụng mà họ thu thập, Google có thể dự đoán chính xác và nhanh hơn các cơ quan chức năng của Mỹ về dịch cúm H1N1 xảy ra năm 2009. Trong khi đó, phần mềm Baidu của Trung Quốc có thể phân biệt được những thành phố “ma” (không có cư dân), các khu du lịch nghỉ dưỡng bằng cách định vị 700 triệu người dùng của họ… từ đó giúp chính phủ quốc gia đông dân nhất hành tinh đưa ra những quyết sách về dân số và đô thị tốt hơn. Ở Việt Nam, Big Data và ứng dụng của nó là một trong các công cụ quan trọng để triển khai xây dựng các mô hình chính quyền điện tử và thành phố thông minh trong thời gian tới.
Từ các ưu điểm của Big Data, việc bỏ qua, từ chối hay thụ động với các ứng dụng, phát minh từ tập hợp dữ liệu lớn cũng đồng nghĩa với việc bị bỏ lại phía sau trong cuộc cách mạng 4.0. Thế nhưng việc bảo mật dữ liệu cá nhân, quan trọng hơn là các vấn đề liên quan bảo vệ an ninh quốc gia đã, đang và sẽ là những thách thức lớn với các cơ quan, tổ chức, các nhà làm luật, doanh nghiệp, cơ sở nghiên cứu đến mỗi cá nhân tham gia in-tơ-nét.
(Còn nữa)