Câu chuyện của bà không còn là chuyện riêng của điện ảnh xứ tỷ dân, mà đặt ra câu hỏi lớn chưa có lời giải: Khi công nghệ có thể sao chép hoàn hảo giọng nói con người chỉ trong vài giây, bản sắc sáng tạo và quyền lợi của nghệ sĩ sẽ về đâu?
Từ tuyên bố trên Weibo đến cảnh báo toàn cầu
Quý Quán Lâm không phải một nghệ sĩ tầm thường. Giọng nói huyền thoại của bà đã đi vào ký ức hàng trăm triệu khán giả châu Á khi lồng tiếng cho các nhân vật như Chân Hoàn trong bộ phim cung đấu kinh điển “Hậu cung Chân Hoàn truyện”, hay Judy Hopps trong phiên bản lồng tiếng Trung Quốc của phim hoạt hình “Zootopia”. Tài năng và sự tôi luyện qua hàng thập kỷ diễn xuất là tài sản nghề nghiệp, là bản sắc, linh hồn bà trao cho từng nhân vật. Nhưng giờ đây, nó đang bị nhân bản vô tội vạ trên các nền tảng AI. Quý Quán Lâm ra tuyên bố cấm tất cả các nền tảng sử dụng giọng nói của mình dưới mọi hình thức. Bà sẽ truy cứu trách nhiệm pháp lý theo luật. Tuyên bố nhanh chóng nhận được sự ủng hộ từ hàng chục nghệ sĩ lồng tiếng khác như Lã Diên Đình, Diệp Thanh và tập thể Xưởng âm thanh 729. Bởi tất cả đều chung một nỗi lo, giọng nói của các nghệ sĩ đang bị AI nhân bản với chi phí rẻ hơn 80-90%, khiến hàng loạt dự án short-drama chuyển sang dùng giọng máy hoàn toàn.
Tại Trung Quốc, ngành lồng tiếng đang hứng chịu cuộc khủng hoảng thật sự. Theo các báo cáo, hơn 27% nghệ sĩ lồng tiếng tự do ghi nhận thu nhập sụt giảm mạnh chỉ trong quý I/2026. Thể loại short-drama, loại nội dung bùng nổ trên các nền tảng video ngắn, trở thành vùng thiệt hại nặng nề nhất. Nhiều nghệ sĩ như Biên Giang, Sử Trạch Côn đã công khai tố cáo giọng mình bị nhân bản và sử dụng trong hàng nghìn tập phim.
Tại Việt Nam, các nghệ sĩ lồng tiếng của nhóm Đạt Phi, các MC như Lại Văn Sâm, Hữu Bằng, Thế Cương... đều đã và đang bị nhân bản giọng nói để đưa vào các quảng cáo thương mại trôi nổi trên mạng. Ngay cả giọng đọc đặc trưng của nhạc sĩ Nguyễn Đình Toàn trong những file audio âm nhạc hoài niệm cũng đã được nhân bản vô tội vạ để thành giọng đọc trong các video ngắn dạy “đạo lý ba xu” trên mạng xã hội.
Giọng nói không phải dữ liệu vô tri
NSND Mỹ Uyên, Giám đốc Nhà hát kịch Sân khấu nhỏ 5B (Thành phố Hồ Chí Minh), một người đã dành cả cuộc đời cho sân khấu, nhìn nhận vấn đề từ chiều sâu của người biểu diễn trực tiếp. Chị cho rằng, giọng nói không chỉ là âm thanh, mà là phần linh hồn của nhân vật. Nhưng linh hồn ấy không thể tách rời khỏi con người tạo ra nó. “Biểu diễn trực tiếp mang đến cảm xúc mà máy móc không thể thay thế. Âm thanh đi cùng ánh mắt, cử chỉ, nhịp thở của người diễn”, chị chia sẻ. Nếu AI thay thế giọng nói, cơ thể người diễn sẽ không còn đồng bộ với âm thanh. Sự lệch nhịp này khiến cảm xúc trở nên giả tạo. Khi khán giả nhận ra điều đó, niềm tin vào sự chân thật cũng mất đi. Chị cũng nhấn mạnh, khi sử dụng đại trà, giọng AI khiến con người trong thế giới ảo dần trở nên giống nhau. Sự khác biệt, vốn là cốt lõi của sáng tạo nghệ thuật, bị bào mòn. Đây là cảnh báo về sự đồng hóa bản sắc văn hóa, nguy cơ thật sự mà không một con số thống kê nào có thể đo đếm đầy đủ.
Còn MC Thế Cương, một giọng nam đặc biệt của Truyền hình ANTV chia sẻ: “Nguy cơ từ AI giả mạo giọng nói không còn là câu chuyện giả định. Không chỉ tôi mà nhiều biên tập viên, MC dẫn bản tin thời sự của các kênh truyền hình đang bị làm giả cả âm thanh lẫn hình ảnh bằng AI, chủ yếu để quảng cáo trái phép thực phẩm chức năng, thuốc tân dược kém chất lượng và lừa đảo đầu tư tài chính. Thực tế đã có rất nhiều người tin vào những lời quảng cáo đó, gây ảnh hưởng nghiêm trọng đến uy tín và danh dự của tôi khi công tác tại cơ quan truyền thông chính thống. Đây không còn là vấn đề công nghệ đơn thuần, mà đã trở thành vấn đề an ninh thông tin. Khi AI có thể dựng lên những phát ngôn giả mang tính định hướng dư luận, hậu quả không chỉ dừng lại ở cá nhân mà có thể ảnh hưởng đến trật tự xã hội”.
Công nghệ “trộm giọng” - nhanh, rẻ, khó phân biệt
Để hiểu mức độ nghiêm trọng của vấn đề, cần hiểu cách công nghệ hoạt động. Theo anh Thanh Trần, nhà sáng tạo nội dung chuyên về AI và tự động hóa, “voice cloning” hoạt động dựa trên cùng kiến trúc transformer đã tạo nên ChatGPT, nhưng áp dụng cho âm thanh: “Cách đây vài năm, cần nhiều giờ âm thanh sạch để tái tạo giọng nói. Bây giờ, nhiều công cụ chỉ cần từ 10 đến 30 giây ghi âm là đã tạo ra bản sao giọng nói đủ thuyết phục. Với người nổi tiếng thì lượng audio công khai trên internet là vô tận, AI có thừa dữ liệu để học mà không cần sự đồng ý của chủ giọng”.
Các mô hình AI thế hệ mới không đơn thuần ghép âm thanh nữa, chúng học cách diễn đạt, hiểu ngữ cảnh câu nói, biết lúc nào cần lên giọng, xuống giọng, thêm cảm xúc buồn vui hay phẫn nộ. Nó không còn là giọng robot nữa, mà là giọng robot biết đóng kịch. Điều đáng lo ngại hơn, với người dùng phổ thông nhận một cuộc gọi lừa đảo bằng giọng AI nhái giọng người thân, gần như không có cách nào nhận ra bằng tai thường. Hệ quả xã hội, theo anh Thanh Trần, vượt xa thiệt hại cá nhân: “Khi giọng nói của bất kỳ ai cũng có thể bị tái tạo để nói bất kỳ điều gì, vấn đề không chỉ là ai bị lừa mà là chúng ta còn tin được gì nữa hay không. Một đoạn ghi âm từng là bằng chứng pháp lý, giờ có thể bị nghi ngờ. Sự hoài nghi đó, khi lan rộng, sẽ làm xói mòn lòng tin trong xã hội nhanh hơn bất kỳ vụ lừa đảo đơn lẻ nào”.
Về mặt kỹ thuật, các chuyên gia trong lĩnh vực AI đang phát triển song song nhiều công cụ phòng thủ. Voice watermarking nhúng mã xác thực ẩn để truy nguồn âm thanh bị sao chép. Adversarial audio thêm nhiễu khiến AI khó học giọng. Công cụ phát hiện deepfake phân tích phổ âm để tìm dấu hiệu bất thường. Về lâu dài, chuẩn chứng nhận số như C2PA giúp xác định nguồn gốc nội dung; âm thanh không có chứng nhận sẽ bị xem là chưa xác minh.
Tuy nhiên, không có giải pháp công nghệ đơn lẻ nào giải quyết toàn bộ vấn đề. Rào cản kỹ thuật luôn có thể bị vượt qua bằng kỹ thuật khác. Giải pháp bền vững phải kết hợp công nghệ, pháp luật và ý thức cộng đồng. Ranh giới cuối cùng không nằm ở công nghệ, mà nằm ở chuỗi tin cậy giữa người với người.
Luật Trí tuệ nhân tạo chính thức có hiệu lực thi hành từ ngày 1/3/2026 là đạo luật chuyên ngành đầu tiên của Việt Nam về AI, với tinh thần cốt lõi “AI phục vụ con người, con người kiểm soát AI”. Tuy nhiên, luật sư Hoàng Hà (Đoàn Luật sư Thành phố Hồ Chí Minh) thẳng thắn nhìn nhận, dù tiến bộ, luật vẫn chưa đủ mạnh để bảo vệ trực tiếp quyền đối với giọng nói. Khoảng trống lớn nhất là chưa có cơ chế rõ ràng về việc phải xin phép trước khi dùng giọng nói để huấn luyện AI, chưa có thủ tục gỡ bỏ khẩn cấp đủ nhanh và chưa có chế tài chuyên biệt đủ mạnh cho hành vi ăn cắp giọng để trục lợi hoặc mạo danh. Về phương diện tranh tụng, khi muốn khởi kiện vì bị đánh cắp giọng nói đối mặt không ít khó khăn: Phải chứng minh sự tương đồng bằng giám định âm thanh chuyên dụng, phải lần ra toàn bộ chuỗi hành vi từ thu thập mẫu giọng đến tạo đầu ra, phải phân biệt giống ngẫu nhiên với sao chép có chủ ý; phải bảo toàn chứng cứ số kịp thời và phải lượng hóa thiệt hại về danh tiếng, thứ không dễ định giá.
Để lấp đầy khoảng trống, luật sư Hoàng Hà đề xuất hai điều chỉnh cụ thể, tham khảo mô hình “informed consent” của Mỹ, quy định sự đồng ý sử dụng giọng nói phải thật cụ thể và có giới hạn rõ ràng; đồng thời tham khảo tiền lệ của Hàn Quốc, ghi nhận nguyên tắc xâm phạm bản sao số của một cá nhân là xâm phạm quyền của chính người đó. Giải pháp toàn diện cần ba trụ cột song hành, đó là thực thi nghiêm luật với nghị định hướng dẫn chi tiết, xây dựng cơ chế đồng thuận kết hợp watermark và blockchain, bảo vệ bản sắc thông qua quy chuẩn đạo đức nghề nghiệp để “giọng Việt” luôn mang hơi thở dân tộc chứ không trở thành bản sao không tên.
Có thể nói, AI đã đến và len sâu vào đời sống, không chờ chúng ta lựa chọn, điều còn lại là để bị cuốn theo hay chủ động định hình. Luật Trí tuệ nhân tạo 2025 mới chỉ là bước khởi đầu. Bảo vệ giọng nói nghệ sĩ cũng là bảo vệ bản sắc dân tộc, trách nhiệm chung của toàn xã hội khi ranh giới giữa thật và giả, người và máy ngày càng mong manh.
Luật Trí tuệ nhân tạo nghiêm cấm sử dụng yếu tố giả mạo hoặc mô phỏng người, sự kiện thật để lừa dối hoặc thao túng nhận thức, hành vi của con người một cách có chủ đích và có hệ thống, gây tổn hại nghiêm trọng đến quyền, lợi ích hợp pháp của con người. Bên triển khai có trách nhiệm bảo đảm âm thanh, hình ảnh, video được tạo ra hoặc chỉnh sửa bằng hệ thống trí tuệ nhân tạo nhằm mô phỏng, giả lập ngoại hình, giọng nói của người thật hoặc tái hiện sự kiện thực tế phải được gắn nhãn dễ nhận biết để phân biệt với nội dung thật.