Bằng chứng cho thấy trí tuệ nhân tạo chưa thể sản xuất phụ đề, chú thích độc lập

Tỷ lệ lỗi từ, lỗi định dạng của phụ đề do trí tuệ nhân tạo sản xuất đang nằm ở dưới mức cho phép. Điều này đặt ra vấn đề nghiêm trọng đối với những người cần phụ đề như một trợ năng truy cập.
Bằng chứng cho thấy trí tuệ nhân tạo chưa thể sản xuất phụ đề, chú thích độc lập

Công nghệ nhận diện giọng nói

Chú thích và phụ đề đóng một vai trò quan trọng trong việc cung cấp phương tiện và thông tin truy cập cho người khiếm thính hoặc gặp vấn đề về thính giác. Cách thức này ngày càng trở nên phổ biến trong nhiều năm qua.

Những người vận động vì quyền của người khuyết tật đã đấu tranh suốt nhiều thập kỷ đòi hỏi phụ đề, chú thích phải được làm tốt hơn, nhất là khi các dịch vụ trực tuyến theo yêu cầu ngày một thịnh hành.

Như một bước tất yếu, các nền tảng video nhanh chóng ứng dụng công nghệ trí tuệ nhân tạo. Cụ thể, Youtube đã thông báo về việc thử nghiệm một công nghệ trí tuệ nhân tạo mới, có khả năng tóm tắt toàn bộ video, còn Tiktok thì tự phát triển chatbot của chính mình.

Sự bùng nổ của trí tuệ nhân tạo giống như một chiếc phao cứu sinh cho những hạn chế của công nghệ. Việc đưa các công cụ và dịch vị trí tuệ nhân tạo vào sản xuất phụ đề tự động có vẻ là một bước đi hợp lý tiếp theo.

3Play Media (một công ty cung cấp dịch vụ làm phụ đề và trợ năng video tại Mỹ) vừa công bố báo cáo Thực trạng nhận diện giọng nói tự động 2023 (State of automatic Speech 2023). Báo cáo tập trung vào tác động của các công cụ sử dụng trí tuệ nhân tạo để tạo phụ đề cho người khiếm thính hoặc gặp vấn đề về thính giác.

Kết quả chỉ ra rằng, thay vì được tiếp nhận các thông tin chính xác, đơn giản, ngắn gọn, người dùng phải tiếp nhận nhiều thông tin phức tạp, dài dòng không cần thiết khi trí tuệ nhân tạo được sử dụng để tạo phụ đề.

Tính chính xác của công nghệ nhận diện giọng nói

Trong báo cáo của mình 3Play Media đã phân tích tỷ lệ lỗi từ và tỷ lệ lỗi định dạng (bao gồm cả lỗi từ và lỗi định dạng, ngữ pháp, cấu trúc,…) của nhiều công nghệ nhận diện giọng nói khác nhau. Những công nghệ này được sử dụng trong nhiều lĩnh vực như báo chí, giáo dục sau đại học,… và thể thao.

“Công nghệ nhận diện giọng nói chất lượng không có nghĩa là phụ đề được tạo ra cũng chất lượng” - báo cáo này chỉ ra. “Với tỷ lệ lỗi từ, công nghệ tốt nhất cũng chỉ chính xác được 90%; với tỷ lệ lỗi định dạng, độ chính xác còn thấp hơn: 80%. Cả hai con số này đều không đạt chuẩn pháp lý để cung cấp dịch vụ phụ đề cho người xem: 99% (theo tiêu chuẩn Mỹ).

Bên cạnh đó, Đạo luật người khuyết tật của Hoa Kỳ (ADA) yêu cầu các chính quyền, công ty, tổ chức phi lợi nhuận tại địa phương và liên bang phải cung cấp cho công chúng “cách giao tiếp hiệu quả với người có khuyết tật về giao tiếp”, bao gồm dịch vụ phụ đề trực tiếp cho người khiếm thính hoặc có vấn đề về thính giác.

Các quy tắc tuân thủ dành cho truyền hình của Uỷ ban Truyền thông Liên bang (FCC) cũng chỉ rõ rằng: Chú thích, phụ đề phải chính xác, liên tục và đúng bối cảnh ở “mức tối đa có thể”.

Sự chính xác của phụ đề cũng dao động rất lớn trong các lĩnh vực, thị trường và trường hợp cụ thể khác nhau. “Tin tức và các nội dung trên mạng xã hội, điện ảnh, thể thao là ba lĩnh vực thách thức nhất với phụ đề được tạo tự động bằng công nghệ nhận diện giọng nói” - Báo cáo của 3Play Media viết “bởi những lĩnh vực này thường có nội dung được chạy trên nền nhạc, các đoạn hội thoại chồng chéo và âm thanh phức tạp”.

Hiển nhiên, đây là 3 lĩnh vực có tỷ lệ lỗi từ và lỗi định dạng cao nhất, đặc biệt là tin tức và các nội dung trên mạng xã hội.

Mặc dù kết quả đã được cải thiện so với báo cáo năm 2022, 3Play Media cho rằng tỷ lệ lỗi vẫn còn quá cao. Do đó, sự biên tập, hiệu định từ con người là cần thiết

Bán tự động

Các công ty, đơn vị sản xuất phụ đề, phiên âm đã sử dụng trí tuệ nhân tạo như một công cụ hỗ trợ trong suốt nhiều năm. Các công cụ này sẽ tự động sản xuất phụ đề từ âm thanh có sẵn. Hệ thống bán tự động hay con người tham gia xử lý (keeping humans in the loop) đã được sử dụng rộng rãi. Đây là một quá trình nhiều bước được kết hợp giữa công nghệ nhận diện giọng nói (hoặc trí tuệ nhân tạo) với biên tập viên.

Rev - một số công ty sản xuất phụ đề đã chỉ ra vai trò quan trọng của biên tập viên trong quá trình đồng bộ hóa nghe nhìn, định dạng màn hình và các bước cần thiết khác để tạo ra một sản phẩm trực quan có đầy đủ phương tiện truy cập cho người dùng.

Mặt khác, hệ thống bán tự động cũng được sử dụng để kiểm soát định kiến ngầm của một số mô hình trí tuệ nhân tạo sản xuất nội dung. Hệ thống này sẽ đào tạo các mô hình trí tuệ nhân tạo bằng các quyết định từ con người.

Từ lâu, bộ phận Sáng kiến Truy cập Web của The World Wide Web Consortium (W3C) đã có quan điểm kiên định về việc giám sát của con người. Điều này được W3C ghi chú rõ ràng trong hướng dẫn cho chú thích và phụ đề của mình: “Phụ đề được tạo tự động không đáp ứng được như cầu của người dùng hay các yêu cầu truy cập cơ bản. Thông thường các phụ đề này sẽ cần chỉnh sửa đáng kể”. Cuốn hướng dẫn này cũng viết thêm: “Phụ đề tự động có thể được dùng như nguyên liệu thô để sản xuất phụ đề và chú thích chính xác”.

3Play Media cũng đề cập vấn đề tương tự trong báo cáo “sự quan trọng của phụ đề trực tiếp do con người sản xuất” vào năm 2021.

“Trí tuệ nhân tạo không có khả năng hiểu bối cảnh hóa như con người. Cụ thể, nếu công nghệ nhận diện giọng nói nhầm lẫn một từ, nó sẽ thay thế từ đó bằng một từ không liên quan hoặc vừa sai, vừa không liên quan”, công ty này viết. “Tuy hiện tại không có điều luật rõ ràng nào cho tỷ lệ chính xác của phụ đề trực tiếp nhưng các quy định hiện hành của liên bang và tiểu bang về chú thích đã nêu rõ: Phải cung cấp trải nghiệm bình đẳng cho người xem… Trong khi đó, cả trí tuệ nhân tạo và con người đều không thể cung cấp phụ đề với tỷ lệ chính xác 100%. Cách hiệu quả nhất để thực hiện phụ đề trực tuyến là kết hợp cả con người và trí tuệ nhân tạo.

Cờ đỏ “ảo giác"

Ngoài tỷ lệ lỗi từ thấp, báo cáo của 3Play Media còn chỉ ra một mối lo ngại đáng bận tâm khác: Hiện tượng “ảo giác” của trí tuệ nhân tạo, đưa ra những câu trả lời thuyết phục nhưng hoàn toàn bịa đặt.

Hiện tượng này có thể xuất hiện dưới dạng thông tin không chính xác trong câu hoặc kết luận của cả câu đều là bịa đặt. Nhìn chung, hiện tượng ảo giác của trí tuệ nhân tạo là mối lo ngại lớn nhất trong hàng loạt mối lo ngại mà con người đặt ra cho trí tuệ nhân tạo sản xuất văn bản.

Tháng 1/2023, cơ quan giám sát thông tin sai lệch NewsGuard công bố một nghiên cứu về việc ChatGPT dễ dàng tạo đưa ra các tuyên bố, thông tin sai lệch tới người dùng. NewsGuard gọi đây là “hành động tồi”.

Báo cáo chỉ ra rằng, chatbot này đã chia sẻ tin tức sai lệch tới 80/100 lần phản hồi cho các lệnh đưa ra ví dụ về tin giả của người dùng.

Vào tháng 6/2023, một người dẫn chương trình phát thanh của Mỹ điền đơn kiện OpenAI sau khi chatbot này cung cấp một cách bất hợp pháp hàng loạt “sự thật” về một vụ án liên bang của người này.

Chỉ mới cách đây một tháng, những công ty tiên phong trong lĩnh vực trí tuệ nhân tạo (bao gồm Amazon, Anthropic, Google, Inflection, Meta, Microsoft và OpenAI) đã có một buổi gặp gỡ với chính quyền Biden-Harris “để thúc đẩy sự an toàn, bảo mật và tính minh bạch của công nghệ trí tuệ nhân tạo”. Buổi gặp gỡ (được cho là) diễn ra trước khi một lệnh hành pháp có thể có hiệu lực. Tất cả các công ty tham dự đã ký vào một bản cam kết gồm 8 điều để đảm bảo an ninh, an toàn công cộng.

Với những tập đoàn đang gắn bó mật thiết với công nghệ, đặc biệt với những lập trình viên đang tìm kiếm, sử dụng trí tuệ nhân tạo sản xuất văn bản như một con đường lát gạch để nâng cao khả năng truy cập, hiện tượng ảo giác đang đặt ra một nguy hại lớn với người dùng - 3Play Media giải thích.

“Từ khả năng nâng cao truy cập, hiện tượng ảo giác của trí tuệ nhân tạo còn gây ra một vấn đề nghiêm trọng hơn: Phụ đề sai lệch cho người khiếm thính hoặc gặp vấn đề về thính giác” - Báo cáo này phân tích.

Những chuyên gia đầu ngành đang cố gắng giải quyết hiện tượng ảo giác của trí tuệ nhân tạo với quá trình huấn luyện, đào tạo liên tục. Một vài người như Bill Gates có góc nhìn đặc biệt lạc quan về quá trình này. Nhưng sự thật là, những người cần phụ đề, chú thích để tiếp cận thông tin lại không có thời gian để chờ đợi các lập trình viên hoàn thiện hệ thống trí tuệ nhân tạo của họ.

“Những ảo giác của trí tuệ nhân tạo có thể được giảm bớt trong quá trình tinh chỉnh, nhưng hậu quả của hiện tượng này cho những người cần trợ năng truy cập vẫn rất đáng lo ngại” - báo cáo của 3Play Media kết luận: “Do đó, quá trình can thiệp, biên tập, tinh chỉnh phụ đề của con người là không thể lược bỏ”.

Có thể bạn quan tâm

Giải thưởng Chính VinFuture 2025 đã được trao cho Tiến sĩ Douglas R Lowy, Tiến sĩ John T Schiller, Tiến sĩ Aimée R Kreimer và Giáo sư Maura Gillison – Vì những khám phá và phát triển vaccine HPV nhằm phòng ngừa các khối u do virus papilloma ở người gây ra. (Ảnh: THÀNH ĐẠT)

Công nghệ đột phá: Một liều vaccine phòng nhiều bệnh ung thư

HPV không chỉ gây ung thư cổ tử cung ở phụ nữ, mà còn gây ra các bệnh nguy hiểm khác như ung thư hậu môn, cũng như các bệnh ảnh hưởng đến nam giới. Thành tựu nghiên cứu vaccine HPV nhằm phòng ngừa các khối u do virus papilloma ở người gây ra đã và đang giúp thế giới giải quyết các vấn đề của toàn nhân loại.

Bên lề Đại hội, các đại biểu tham quan gian hàng của Công ty cổ phần Khoa học công nghệ Việt Nam (Busadco).

Doanh nghiệp khoa học-công nghệ: Củng cố nội lực để bứt phá

Trong bối cảnh đất nước bước vào kỷ nguyên kinh tế tri thức, với những đột phá mạnh mẽ về trí tuệ nhân tạo, chuyển đổi số và chuyển đổi xanh, cộng đồng doanh nghiệp khoa học-công nghệ đang đứng trước yêu cầu phải đổi mới tư duy, tái cấu trúc nguồn lực và đầu tư chiều sâu để tạo ra năng lực cạnh tranh mới.

[Video] Việt Nam tiên phong xây dựng khung pháp lý cho trí tuệ nhân tạo

[Video] Việt Nam tiên phong xây dựng khung pháp lý cho trí tuệ nhân tạo

Dự thảo Luật Trí tuệ nhân tạo không chỉ là khung pháp lý cho một công nghệ mới mà là bước đi chiến lược giúp Việt Nam chủ động nắm bắt cơ hội của kỷ nguyên số. Khi được ban hành, luật sẽ tạo nền tảng để AI phát triển an toàn nhân văn và hiệu quả, góp phần nâng cao năng lực cạnh tranh quốc gia và thúc đẩy đổi mới sáng tạo.

Các diễn giả trao đổi tại Diễn đàn. (Ảnh: Ủy ban Nhà nước về người Việt Nam ở nước ngoài)

Thúc đẩy hợp tác khoa học-công nghệ, kinh tế xanh và chuyển đổi số vì tương lai bền vững

Diễn đàn Tây Australia -Việt Nam “Tăng cường hợp tác khoa học và công nghệ vì tương lai bền vững” là cơ hội để lãnh đạo, chuyên gia, doanh nghiệp Việt Nam và Australia chia sẻ tầm nhìn, tăng cường hiểu biết và thúc đẩy hợp tác trong các lĩnh vực khoa học-công nghệ, kinh tế xanh, năng lượng tái tạo và chuyển đổi số.

Toàn cảnh tọa đàm.

Những nghiên cứu mới hỗ trợ ngành nông nghiệp giảm phát thải, chăn nuôi bền vững

Các giải pháp đổi mới trong nông nghiệp và chăn nuôi bền vững, bao gồm việc áp dụng công nghệ gene, hệ vi sinh vật, nông nghiệp chính xác, AI và IoT để cải thiện năng suất, giảm hóa chất và phát thải, nâng cao khả năng chống chịu với biến đổi khí hậu vừa được giới thiệu tại tọa đàm “Đổi mới trong nông nghiệp và thực phẩm”.

Lễ khai mạc triển lãm “Tỏa V-Điểm chạm khoa học”.

Chín nghệ sĩ tiêu biểu của nghệ thuật đương đại Việt Nam trưng bày tác phẩm tại triển lãm "Tỏa V-Điểm chạm khoa học"

Triển lãm “Tỏa V-Điểm chạm khoa học” tôn vinh những thành tựu khoa học và ứng dụng sáng tạo vì sự phát triển bền vững và tương lai của nhân loại. Sự kiện nghệ thuật đặc biệt đánh dấu cột mốc kỷ niệm 5 năm Giải thưởng VinFuture cũng như 5 mùa triển lãm "Tỏa" của VCCA.

Lãnh đạo Thành phố Hồ Chí Minh chụp hình lưu niệm cùng các đại biểu dự hội nghị.

Khai mạc Hội nghị thượng đỉnh toàn cầu Diễn đàn cộng đồng thông minh thế giới 2025

Sáng 3/12, tại phường Bình Dương (Thành phố Hồ Chí Minh), đã diễn ra Lễ khai mạc Hội nghị thượng đỉnh toàn cầu Diễn đàn cộng đồng thông minh thế giới (ICF Global Summit 2025) do Ủy ban nhân dân Thành phố Hồ Chí Minh phối hợp Diễn đàn cộng đồng thông minh thế giới (ICF) và Tập đoàn Becamex đăng cai tổ chức.

Quỹ VinFuture tổ chức Tọa đàm với chủ đề “Bước tiến trong phát hiện, chẩn đoán và điều trị bệnh” sáng 3/12.

Đột phá công nghệ trong y học: Cơ hội để Việt Nam hợp tác và bứt phá

Tọa đàm với chủ đề “Bước tiến trong phát hiện, chẩn đoán và điều trị bệnh” sáng 3/12 là cơ hội cho Việt Nam giới thiệu công nghệ y tế vật liệu in 3D, cũng như tăng cơ hội hợp tác với các chuyên gia hàng đầu thế giới nghiên cứu về công nghệ y tế, mang lại cơ hội điều trị tốt nhất cho người bệnh.