Bằng chứng cho thấy trí tuệ nhân tạo chưa thể sản xuất phụ đề, chú thích độc lập

Tỷ lệ lỗi từ, lỗi định dạng của phụ đề do trí tuệ nhân tạo sản xuất đang nằm ở dưới mức cho phép. Điều này đặt ra vấn đề nghiêm trọng đối với những người cần phụ đề như một trợ năng truy cập.
Bằng chứng cho thấy trí tuệ nhân tạo chưa thể sản xuất phụ đề, chú thích độc lập

Công nghệ nhận diện giọng nói

Chú thích và phụ đề đóng một vai trò quan trọng trong việc cung cấp phương tiện và thông tin truy cập cho người khiếm thính hoặc gặp vấn đề về thính giác. Cách thức này ngày càng trở nên phổ biến trong nhiều năm qua.

Những người vận động vì quyền của người khuyết tật đã đấu tranh suốt nhiều thập kỷ đòi hỏi phụ đề, chú thích phải được làm tốt hơn, nhất là khi các dịch vụ trực tuyến theo yêu cầu ngày một thịnh hành.

Như một bước tất yếu, các nền tảng video nhanh chóng ứng dụng công nghệ trí tuệ nhân tạo. Cụ thể, Youtube đã thông báo về việc thử nghiệm một công nghệ trí tuệ nhân tạo mới, có khả năng tóm tắt toàn bộ video, còn Tiktok thì tự phát triển chatbot của chính mình.

Sự bùng nổ của trí tuệ nhân tạo giống như một chiếc phao cứu sinh cho những hạn chế của công nghệ. Việc đưa các công cụ và dịch vị trí tuệ nhân tạo vào sản xuất phụ đề tự động có vẻ là một bước đi hợp lý tiếp theo.

3Play Media (một công ty cung cấp dịch vụ làm phụ đề và trợ năng video tại Mỹ) vừa công bố báo cáo Thực trạng nhận diện giọng nói tự động 2023 (State of automatic Speech 2023). Báo cáo tập trung vào tác động của các công cụ sử dụng trí tuệ nhân tạo để tạo phụ đề cho người khiếm thính hoặc gặp vấn đề về thính giác.

Kết quả chỉ ra rằng, thay vì được tiếp nhận các thông tin chính xác, đơn giản, ngắn gọn, người dùng phải tiếp nhận nhiều thông tin phức tạp, dài dòng không cần thiết khi trí tuệ nhân tạo được sử dụng để tạo phụ đề.

Tính chính xác của công nghệ nhận diện giọng nói

Trong báo cáo của mình 3Play Media đã phân tích tỷ lệ lỗi từ và tỷ lệ lỗi định dạng (bao gồm cả lỗi từ và lỗi định dạng, ngữ pháp, cấu trúc,…) của nhiều công nghệ nhận diện giọng nói khác nhau. Những công nghệ này được sử dụng trong nhiều lĩnh vực như báo chí, giáo dục sau đại học,… và thể thao.

“Công nghệ nhận diện giọng nói chất lượng không có nghĩa là phụ đề được tạo ra cũng chất lượng” - báo cáo này chỉ ra. “Với tỷ lệ lỗi từ, công nghệ tốt nhất cũng chỉ chính xác được 90%; với tỷ lệ lỗi định dạng, độ chính xác còn thấp hơn: 80%. Cả hai con số này đều không đạt chuẩn pháp lý để cung cấp dịch vụ phụ đề cho người xem: 99% (theo tiêu chuẩn Mỹ).

Bên cạnh đó, Đạo luật người khuyết tật của Hoa Kỳ (ADA) yêu cầu các chính quyền, công ty, tổ chức phi lợi nhuận tại địa phương và liên bang phải cung cấp cho công chúng “cách giao tiếp hiệu quả với người có khuyết tật về giao tiếp”, bao gồm dịch vụ phụ đề trực tiếp cho người khiếm thính hoặc có vấn đề về thính giác.

Các quy tắc tuân thủ dành cho truyền hình của Uỷ ban Truyền thông Liên bang (FCC) cũng chỉ rõ rằng: Chú thích, phụ đề phải chính xác, liên tục và đúng bối cảnh ở “mức tối đa có thể”.

Sự chính xác của phụ đề cũng dao động rất lớn trong các lĩnh vực, thị trường và trường hợp cụ thể khác nhau. “Tin tức và các nội dung trên mạng xã hội, điện ảnh, thể thao là ba lĩnh vực thách thức nhất với phụ đề được tạo tự động bằng công nghệ nhận diện giọng nói” - Báo cáo của 3Play Media viết “bởi những lĩnh vực này thường có nội dung được chạy trên nền nhạc, các đoạn hội thoại chồng chéo và âm thanh phức tạp”.

Hiển nhiên, đây là 3 lĩnh vực có tỷ lệ lỗi từ và lỗi định dạng cao nhất, đặc biệt là tin tức và các nội dung trên mạng xã hội.

Mặc dù kết quả đã được cải thiện so với báo cáo năm 2022, 3Play Media cho rằng tỷ lệ lỗi vẫn còn quá cao. Do đó, sự biên tập, hiệu định từ con người là cần thiết

Bán tự động

Các công ty, đơn vị sản xuất phụ đề, phiên âm đã sử dụng trí tuệ nhân tạo như một công cụ hỗ trợ trong suốt nhiều năm. Các công cụ này sẽ tự động sản xuất phụ đề từ âm thanh có sẵn. Hệ thống bán tự động hay con người tham gia xử lý (keeping humans in the loop) đã được sử dụng rộng rãi. Đây là một quá trình nhiều bước được kết hợp giữa công nghệ nhận diện giọng nói (hoặc trí tuệ nhân tạo) với biên tập viên.

Rev - một số công ty sản xuất phụ đề đã chỉ ra vai trò quan trọng của biên tập viên trong quá trình đồng bộ hóa nghe nhìn, định dạng màn hình và các bước cần thiết khác để tạo ra một sản phẩm trực quan có đầy đủ phương tiện truy cập cho người dùng.

Mặt khác, hệ thống bán tự động cũng được sử dụng để kiểm soát định kiến ngầm của một số mô hình trí tuệ nhân tạo sản xuất nội dung. Hệ thống này sẽ đào tạo các mô hình trí tuệ nhân tạo bằng các quyết định từ con người.

Từ lâu, bộ phận Sáng kiến Truy cập Web của The World Wide Web Consortium (W3C) đã có quan điểm kiên định về việc giám sát của con người. Điều này được W3C ghi chú rõ ràng trong hướng dẫn cho chú thích và phụ đề của mình: “Phụ đề được tạo tự động không đáp ứng được như cầu của người dùng hay các yêu cầu truy cập cơ bản. Thông thường các phụ đề này sẽ cần chỉnh sửa đáng kể”. Cuốn hướng dẫn này cũng viết thêm: “Phụ đề tự động có thể được dùng như nguyên liệu thô để sản xuất phụ đề và chú thích chính xác”.

3Play Media cũng đề cập vấn đề tương tự trong báo cáo “sự quan trọng của phụ đề trực tiếp do con người sản xuất” vào năm 2021.

“Trí tuệ nhân tạo không có khả năng hiểu bối cảnh hóa như con người. Cụ thể, nếu công nghệ nhận diện giọng nói nhầm lẫn một từ, nó sẽ thay thế từ đó bằng một từ không liên quan hoặc vừa sai, vừa không liên quan”, công ty này viết. “Tuy hiện tại không có điều luật rõ ràng nào cho tỷ lệ chính xác của phụ đề trực tiếp nhưng các quy định hiện hành của liên bang và tiểu bang về chú thích đã nêu rõ: Phải cung cấp trải nghiệm bình đẳng cho người xem… Trong khi đó, cả trí tuệ nhân tạo và con người đều không thể cung cấp phụ đề với tỷ lệ chính xác 100%. Cách hiệu quả nhất để thực hiện phụ đề trực tuyến là kết hợp cả con người và trí tuệ nhân tạo.

Cờ đỏ “ảo giác"

Ngoài tỷ lệ lỗi từ thấp, báo cáo của 3Play Media còn chỉ ra một mối lo ngại đáng bận tâm khác: Hiện tượng “ảo giác” của trí tuệ nhân tạo, đưa ra những câu trả lời thuyết phục nhưng hoàn toàn bịa đặt.

Hiện tượng này có thể xuất hiện dưới dạng thông tin không chính xác trong câu hoặc kết luận của cả câu đều là bịa đặt. Nhìn chung, hiện tượng ảo giác của trí tuệ nhân tạo là mối lo ngại lớn nhất trong hàng loạt mối lo ngại mà con người đặt ra cho trí tuệ nhân tạo sản xuất văn bản.

Tháng 1/2023, cơ quan giám sát thông tin sai lệch NewsGuard công bố một nghiên cứu về việc ChatGPT dễ dàng tạo đưa ra các tuyên bố, thông tin sai lệch tới người dùng. NewsGuard gọi đây là “hành động tồi”.

Báo cáo chỉ ra rằng, chatbot này đã chia sẻ tin tức sai lệch tới 80/100 lần phản hồi cho các lệnh đưa ra ví dụ về tin giả của người dùng.

Vào tháng 6/2023, một người dẫn chương trình phát thanh của Mỹ điền đơn kiện OpenAI sau khi chatbot này cung cấp một cách bất hợp pháp hàng loạt “sự thật” về một vụ án liên bang của người này.

Chỉ mới cách đây một tháng, những công ty tiên phong trong lĩnh vực trí tuệ nhân tạo (bao gồm Amazon, Anthropic, Google, Inflection, Meta, Microsoft và OpenAI) đã có một buổi gặp gỡ với chính quyền Biden-Harris “để thúc đẩy sự an toàn, bảo mật và tính minh bạch của công nghệ trí tuệ nhân tạo”. Buổi gặp gỡ (được cho là) diễn ra trước khi một lệnh hành pháp có thể có hiệu lực. Tất cả các công ty tham dự đã ký vào một bản cam kết gồm 8 điều để đảm bảo an ninh, an toàn công cộng.

Với những tập đoàn đang gắn bó mật thiết với công nghệ, đặc biệt với những lập trình viên đang tìm kiếm, sử dụng trí tuệ nhân tạo sản xuất văn bản như một con đường lát gạch để nâng cao khả năng truy cập, hiện tượng ảo giác đang đặt ra một nguy hại lớn với người dùng - 3Play Media giải thích.

“Từ khả năng nâng cao truy cập, hiện tượng ảo giác của trí tuệ nhân tạo còn gây ra một vấn đề nghiêm trọng hơn: Phụ đề sai lệch cho người khiếm thính hoặc gặp vấn đề về thính giác” - Báo cáo này phân tích.

Những chuyên gia đầu ngành đang cố gắng giải quyết hiện tượng ảo giác của trí tuệ nhân tạo với quá trình huấn luyện, đào tạo liên tục. Một vài người như Bill Gates có góc nhìn đặc biệt lạc quan về quá trình này. Nhưng sự thật là, những người cần phụ đề, chú thích để tiếp cận thông tin lại không có thời gian để chờ đợi các lập trình viên hoàn thiện hệ thống trí tuệ nhân tạo của họ.

“Những ảo giác của trí tuệ nhân tạo có thể được giảm bớt trong quá trình tinh chỉnh, nhưng hậu quả của hiện tượng này cho những người cần trợ năng truy cập vẫn rất đáng lo ngại” - báo cáo của 3Play Media kết luận: “Do đó, quá trình can thiệp, biên tập, tinh chỉnh phụ đề của con người là không thể lược bỏ”.

Có thể bạn quan tâm

Phối cảnh công trình biểu tượng bông lúa Cà Mau.

Giá trị văn hóa từ "Biểu tượng bông lúa" ở Cà Mau

Sự phát triển của một địa phương trong kỷ nguyên mới không chỉ được đong đếm một cách cơ học bằng những con đường rải nhựa, hay những cây cầu bê-tông nối nhịp đôi bờ. Tầm vóc và sức sống của một vùng đất còn được khắc họa đậm nét qua những biểu tượng văn hóa mang tầm nhìn chiến lược.

Đào tạo an ninh mạng tại CyRadar giúp doanh nghiệp nâng cao năng lực phòng thủ.

Tăng năng lực phòng vệ của doanh nghiệp

Chuyển đổi số đang mở ra nhiều cơ hội tăng trưởng cho doanh nghiệp Việt Nam nhưng cũng kéo theo những rủi ro an ninh mạng phức tạp. Khi dữ liệu trở thành tài sản chiến lược, khả năng bảo vệ hệ thống và thông tin không còn là vấn đề kỹ thuật mà trở thành năng lực phòng vệ quan trọng đối với mỗi doanh nghiệp.

Hoạt động nghiên cứu tại Phòng Thí nghiệm trọng điểm Công nghệ Lọc, Hóa dầu (Viện Hóa học công nghiệp Việt Nam).

Đầu tư hạ tầng nghiên cứu cho công nghệ chiến lược

Phát triển hệ thống phòng thí nghiệm trọng điểm quốc gia là một trong những giải pháp để hiện thực hóa mục tiêu đột phá về khoa học, công nghệ và đổi mới sáng tạo theo Nghị quyết 57-NQ/TW. Thực trạng lạc hậu về công nghệ đặt ra yêu cầu cấp thiết phải tổ chức lại hạ tầng nghiên cứu theo hướng tập trung, đồng bộ và hiệu quả.

Phòng An ninh mạng và phòng, chống tội phạm sử dụng công nghệ cao Công an thành phố Đà Nẵng đấu tranh tội phạm trên không gian mạng. (Ảnh: Công Vinh)

Nâng cao ý thức làm chủ, bảo vệ không gian mạng

Tại Hội nghị Trung ương 2 khóa XIV, Tổng Bí thư Tô Lâm tiếp tục khẳng định chủ trương của Đảng về bảo đảm quốc phòng, an ninh, đối ngoại, hội nhập quốc tế trong giai đoạn mới, khi nhấn mạnh yêu cầu: Tự chủ chiến lược, có năng lực kiểm soát rủi ro, có thể chế vững, có trật tự xã hội ổn định, có sự hội nhập quốc tế sâu rộng...

UAV được thử nghiệm phun thuốc cho cây cà-phê tại xã Mường Ảng, tỉnh Điện Biên.

Cơ chế sandbox đã sang giai đoạn triển khai thực tế

Bộ Khoa học và Công nghệ cho biết, bên cạnh chuẩn bị cấp phép mô hình thử nghiệm có kiểm soát đầu tiên về phát triển kinh tế tầm thấp, ứng dụng phương tiện bay không người lái (UAV) tại tỉnh Điện Biên, một số địa phương, doanh nghiệp cũng bày tỏ quan tâm đến việc triển khai thử nghiệm mô hình sandbox.

Định vị vị thế Việt Nam trên bản đồ sở hữu trí tuệ toàn cầu

Định vị vị thế Việt Nam trên bản đồ sở hữu trí tuệ toàn cầu

Trong tiến trình hội nhập kinh tế quốc tế, sở hữu trí tuệ ngày càng khẳng định vai trò là một trụ cột quan trọng của nền kinh tế tri thức. Những năm qua, Việt Nam đã chủ động hoàn thiện thể chế, từng bước xây dựng hệ thống sở hữu trí tuệ tương thích với chuẩn mực quốc tế và đạt được nhiều kết quả tích cực.

Bảo đảm pháp lý khi chuyển chất xám trí tuệ thành dòng vốn trên thị trường

Bảo đảm pháp lý khi chuyển chất xám trí tuệ thành dòng vốn trên thị trường

Luật Sở hữu trí tuệ sửa đổi 2025 được thông qua cho thấy những vấn đề pháp lý sở hữu trí tuệ đã được điều chỉnh gần và sát thực tiễn hiện nay. Trong đó, việc định giá tài sản sở hữu trí tuệ làm tài sản bảo đảm đang là nội dung thu hút sự quan tâm của đông đảo dư luận, nhất là với giới khởi nghiệp liên quan đổi mới sáng tạo.