Bằng chứng cho thấy trí tuệ nhân tạo chưa thể sản xuất phụ đề, chú thích độc lập

Tỷ lệ lỗi từ, lỗi định dạng của phụ đề do trí tuệ nhân tạo sản xuất đang nằm ở dưới mức cho phép. Điều này đặt ra vấn đề nghiêm trọng đối với những người cần phụ đề như một trợ năng truy cập.
Bằng chứng cho thấy trí tuệ nhân tạo chưa thể sản xuất phụ đề, chú thích độc lập

Công nghệ nhận diện giọng nói

Chú thích và phụ đề đóng một vai trò quan trọng trong việc cung cấp phương tiện và thông tin truy cập cho người khiếm thính hoặc gặp vấn đề về thính giác. Cách thức này ngày càng trở nên phổ biến trong nhiều năm qua.

Những người vận động vì quyền của người khuyết tật đã đấu tranh suốt nhiều thập kỷ đòi hỏi phụ đề, chú thích phải được làm tốt hơn, nhất là khi các dịch vụ trực tuyến theo yêu cầu ngày một thịnh hành.

Như một bước tất yếu, các nền tảng video nhanh chóng ứng dụng công nghệ trí tuệ nhân tạo. Cụ thể, Youtube đã thông báo về việc thử nghiệm một công nghệ trí tuệ nhân tạo mới, có khả năng tóm tắt toàn bộ video, còn Tiktok thì tự phát triển chatbot của chính mình.

Sự bùng nổ của trí tuệ nhân tạo giống như một chiếc phao cứu sinh cho những hạn chế của công nghệ. Việc đưa các công cụ và dịch vị trí tuệ nhân tạo vào sản xuất phụ đề tự động có vẻ là một bước đi hợp lý tiếp theo.

3Play Media (một công ty cung cấp dịch vụ làm phụ đề và trợ năng video tại Mỹ) vừa công bố báo cáo Thực trạng nhận diện giọng nói tự động 2023 (State of automatic Speech 2023). Báo cáo tập trung vào tác động của các công cụ sử dụng trí tuệ nhân tạo để tạo phụ đề cho người khiếm thính hoặc gặp vấn đề về thính giác.

Kết quả chỉ ra rằng, thay vì được tiếp nhận các thông tin chính xác, đơn giản, ngắn gọn, người dùng phải tiếp nhận nhiều thông tin phức tạp, dài dòng không cần thiết khi trí tuệ nhân tạo được sử dụng để tạo phụ đề.

Tính chính xác của công nghệ nhận diện giọng nói

Trong báo cáo của mình 3Play Media đã phân tích tỷ lệ lỗi từ và tỷ lệ lỗi định dạng (bao gồm cả lỗi từ và lỗi định dạng, ngữ pháp, cấu trúc,…) của nhiều công nghệ nhận diện giọng nói khác nhau. Những công nghệ này được sử dụng trong nhiều lĩnh vực như báo chí, giáo dục sau đại học,… và thể thao.

“Công nghệ nhận diện giọng nói chất lượng không có nghĩa là phụ đề được tạo ra cũng chất lượng” - báo cáo này chỉ ra. “Với tỷ lệ lỗi từ, công nghệ tốt nhất cũng chỉ chính xác được 90%; với tỷ lệ lỗi định dạng, độ chính xác còn thấp hơn: 80%. Cả hai con số này đều không đạt chuẩn pháp lý để cung cấp dịch vụ phụ đề cho người xem: 99% (theo tiêu chuẩn Mỹ).

Bên cạnh đó, Đạo luật người khuyết tật của Hoa Kỳ (ADA) yêu cầu các chính quyền, công ty, tổ chức phi lợi nhuận tại địa phương và liên bang phải cung cấp cho công chúng “cách giao tiếp hiệu quả với người có khuyết tật về giao tiếp”, bao gồm dịch vụ phụ đề trực tiếp cho người khiếm thính hoặc có vấn đề về thính giác.

Các quy tắc tuân thủ dành cho truyền hình của Uỷ ban Truyền thông Liên bang (FCC) cũng chỉ rõ rằng: Chú thích, phụ đề phải chính xác, liên tục và đúng bối cảnh ở “mức tối đa có thể”.

Sự chính xác của phụ đề cũng dao động rất lớn trong các lĩnh vực, thị trường và trường hợp cụ thể khác nhau. “Tin tức và các nội dung trên mạng xã hội, điện ảnh, thể thao là ba lĩnh vực thách thức nhất với phụ đề được tạo tự động bằng công nghệ nhận diện giọng nói” - Báo cáo của 3Play Media viết “bởi những lĩnh vực này thường có nội dung được chạy trên nền nhạc, các đoạn hội thoại chồng chéo và âm thanh phức tạp”.

Hiển nhiên, đây là 3 lĩnh vực có tỷ lệ lỗi từ và lỗi định dạng cao nhất, đặc biệt là tin tức và các nội dung trên mạng xã hội.

Mặc dù kết quả đã được cải thiện so với báo cáo năm 2022, 3Play Media cho rằng tỷ lệ lỗi vẫn còn quá cao. Do đó, sự biên tập, hiệu định từ con người là cần thiết

Bán tự động

Các công ty, đơn vị sản xuất phụ đề, phiên âm đã sử dụng trí tuệ nhân tạo như một công cụ hỗ trợ trong suốt nhiều năm. Các công cụ này sẽ tự động sản xuất phụ đề từ âm thanh có sẵn. Hệ thống bán tự động hay con người tham gia xử lý (keeping humans in the loop) đã được sử dụng rộng rãi. Đây là một quá trình nhiều bước được kết hợp giữa công nghệ nhận diện giọng nói (hoặc trí tuệ nhân tạo) với biên tập viên.

Rev - một số công ty sản xuất phụ đề đã chỉ ra vai trò quan trọng của biên tập viên trong quá trình đồng bộ hóa nghe nhìn, định dạng màn hình và các bước cần thiết khác để tạo ra một sản phẩm trực quan có đầy đủ phương tiện truy cập cho người dùng.

Mặt khác, hệ thống bán tự động cũng được sử dụng để kiểm soát định kiến ngầm của một số mô hình trí tuệ nhân tạo sản xuất nội dung. Hệ thống này sẽ đào tạo các mô hình trí tuệ nhân tạo bằng các quyết định từ con người.

Từ lâu, bộ phận Sáng kiến Truy cập Web của The World Wide Web Consortium (W3C) đã có quan điểm kiên định về việc giám sát của con người. Điều này được W3C ghi chú rõ ràng trong hướng dẫn cho chú thích và phụ đề của mình: “Phụ đề được tạo tự động không đáp ứng được như cầu của người dùng hay các yêu cầu truy cập cơ bản. Thông thường các phụ đề này sẽ cần chỉnh sửa đáng kể”. Cuốn hướng dẫn này cũng viết thêm: “Phụ đề tự động có thể được dùng như nguyên liệu thô để sản xuất phụ đề và chú thích chính xác”.

3Play Media cũng đề cập vấn đề tương tự trong báo cáo “sự quan trọng của phụ đề trực tiếp do con người sản xuất” vào năm 2021.

“Trí tuệ nhân tạo không có khả năng hiểu bối cảnh hóa như con người. Cụ thể, nếu công nghệ nhận diện giọng nói nhầm lẫn một từ, nó sẽ thay thế từ đó bằng một từ không liên quan hoặc vừa sai, vừa không liên quan”, công ty này viết. “Tuy hiện tại không có điều luật rõ ràng nào cho tỷ lệ chính xác của phụ đề trực tiếp nhưng các quy định hiện hành của liên bang và tiểu bang về chú thích đã nêu rõ: Phải cung cấp trải nghiệm bình đẳng cho người xem… Trong khi đó, cả trí tuệ nhân tạo và con người đều không thể cung cấp phụ đề với tỷ lệ chính xác 100%. Cách hiệu quả nhất để thực hiện phụ đề trực tuyến là kết hợp cả con người và trí tuệ nhân tạo.

Cờ đỏ “ảo giác"

Ngoài tỷ lệ lỗi từ thấp, báo cáo của 3Play Media còn chỉ ra một mối lo ngại đáng bận tâm khác: Hiện tượng “ảo giác” của trí tuệ nhân tạo, đưa ra những câu trả lời thuyết phục nhưng hoàn toàn bịa đặt.

Hiện tượng này có thể xuất hiện dưới dạng thông tin không chính xác trong câu hoặc kết luận của cả câu đều là bịa đặt. Nhìn chung, hiện tượng ảo giác của trí tuệ nhân tạo là mối lo ngại lớn nhất trong hàng loạt mối lo ngại mà con người đặt ra cho trí tuệ nhân tạo sản xuất văn bản.

Tháng 1/2023, cơ quan giám sát thông tin sai lệch NewsGuard công bố một nghiên cứu về việc ChatGPT dễ dàng tạo đưa ra các tuyên bố, thông tin sai lệch tới người dùng. NewsGuard gọi đây là “hành động tồi”.

Báo cáo chỉ ra rằng, chatbot này đã chia sẻ tin tức sai lệch tới 80/100 lần phản hồi cho các lệnh đưa ra ví dụ về tin giả của người dùng.

Vào tháng 6/2023, một người dẫn chương trình phát thanh của Mỹ điền đơn kiện OpenAI sau khi chatbot này cung cấp một cách bất hợp pháp hàng loạt “sự thật” về một vụ án liên bang của người này.

Chỉ mới cách đây một tháng, những công ty tiên phong trong lĩnh vực trí tuệ nhân tạo (bao gồm Amazon, Anthropic, Google, Inflection, Meta, Microsoft và OpenAI) đã có một buổi gặp gỡ với chính quyền Biden-Harris “để thúc đẩy sự an toàn, bảo mật và tính minh bạch của công nghệ trí tuệ nhân tạo”. Buổi gặp gỡ (được cho là) diễn ra trước khi một lệnh hành pháp có thể có hiệu lực. Tất cả các công ty tham dự đã ký vào một bản cam kết gồm 8 điều để đảm bảo an ninh, an toàn công cộng.

Với những tập đoàn đang gắn bó mật thiết với công nghệ, đặc biệt với những lập trình viên đang tìm kiếm, sử dụng trí tuệ nhân tạo sản xuất văn bản như một con đường lát gạch để nâng cao khả năng truy cập, hiện tượng ảo giác đang đặt ra một nguy hại lớn với người dùng - 3Play Media giải thích.

“Từ khả năng nâng cao truy cập, hiện tượng ảo giác của trí tuệ nhân tạo còn gây ra một vấn đề nghiêm trọng hơn: Phụ đề sai lệch cho người khiếm thính hoặc gặp vấn đề về thính giác” - Báo cáo này phân tích.

Những chuyên gia đầu ngành đang cố gắng giải quyết hiện tượng ảo giác của trí tuệ nhân tạo với quá trình huấn luyện, đào tạo liên tục. Một vài người như Bill Gates có góc nhìn đặc biệt lạc quan về quá trình này. Nhưng sự thật là, những người cần phụ đề, chú thích để tiếp cận thông tin lại không có thời gian để chờ đợi các lập trình viên hoàn thiện hệ thống trí tuệ nhân tạo của họ.

“Những ảo giác của trí tuệ nhân tạo có thể được giảm bớt trong quá trình tinh chỉnh, nhưng hậu quả của hiện tượng này cho những người cần trợ năng truy cập vẫn rất đáng lo ngại” - báo cáo của 3Play Media kết luận: “Do đó, quá trình can thiệp, biên tập, tinh chỉnh phụ đề của con người là không thể lược bỏ”.

Có thể bạn quan tâm

Hồ Dầu Tiếng giữ vai trò quan trọng trong điều tiết, cấp nước cho khu vực Đông Nam Bộ.

Quản lý, vận hành công trình thủy lợi: Chuyển từ kinh nghiệm sang dựa trên cơ sở dữ liệu

Trước tác động ngày càng rõ nét của biến đổi khí hậu, công tác quản lý nguồn nước đang chuyển mạnh từ điều hành theo kinh nghiệm sang dựa trên dữ liệu số, quan trắc và dự báo. Đây là nền tảng quan trọng để bảo đảm an ninh nguồn nước, nâng cao hiệu quả vận hành hệ thống thủy lợi và phát triển nông nghiệp bền vững.

Các đồng chí lãnh đạo tỉnh Điện Biên tham quan các gian hàng của doanh nghiệp khoa học-công nghệ. (Ảnh: MAI GIÁP)

Điện Biên đầu tư 60 tỷ đồng xây dựng hạ tầng kỹ thuật Trung tâm Đổi mới sáng tạo

Thực hiện Nghị quyết số 17-NQ/TU ngày 27/2/2026 của Ban Chấp hành Đảng bộ tỉnh về đột phá phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số giai đoạn 2026-2030, định hướng đến 2035, Ủy ban nhân dân tỉnh Điện Biên quyết định dự kiến chi 60 tỷ đồng để xây dựng hạ tầng kỹ thuật Trung tâm Đổi mới sáng tạo.

Toàn cảnh Diễn đàn.

Diễn đàn Vì Tương lai Việt Nam - Hàn Quốc lần thứ VII

Ngày 30/6/2026, tại Hà Nội, Viện Hàn lâm Khoa học xã hội Việt Nam phối hợp với Quỹ Giao lưu Quốc tế Hàn Quốc tổ chức Diễn đàn Vì Tương lai Việt Nam-Hàn Quốc lần thứ VII với chủ đề "Quan hệ Đối tác Chiến lược Toàn diện Việt Nam-Hàn Quốc trong kỷ nguyên mới".

Quang cảnh lễ tổng kết và trao giải cho các tác phẩm xuất sắc cuộc thi thiết kế biểu trưng (logo) mới tỉnh Cà Mau.

Logo đoạt giải ở Cà Mau sẽ qua nhiều quy trình mới trở thành biểu tượng chính thức của tỉnh

Cà Mau đang tiếp tục thực hiện các trình tự theo quy định, xin ý kiến cấp có thẩm quyền, chuyên gia chuyên ngành và lấy ý kiến rộng rãi từ nhân dân để chọn chính thức biểu trưng đại diện cho tỉnh trong các hoạt động thông tin đối ngoại, xúc tiến đầu tư và phát triển du lịch trong giai đoạn mới.

Ý chí chính trị nhất quán và tinh thần quyết liệt góp phần thúc đẩy chuyển đổi số tại Việt Nam

Ý chí chính trị nhất quán và tinh thần quyết liệt góp phần thúc đẩy chuyển đổi số tại Việt Nam

Tại tọa đàm “Trí tuệ nhân tạo và công nghệ số: Hướng tới ứng dụng có đạo đức và trách nhiệm” do Học viện Báo chí và Tuyên truyền phối hợp Đại sứ quán Pháp tại Việt Nam tổ chức, ông Hervé Le Bars, Tổng Giám đốc công ty Numéricité kiêm Trưởng nhóm chuyên gia tư vấn chuyển đổi số, đã có buổi trả lời phỏng vấn cùng Báo Nhân Dân.

Đoàn chuyên gia tư vấn Pháp trong buổi làm việc tại Cục Chuyển đổi số (Văn phòng Chính phủ) sáng 30/6.

Tăng cường hợp tác và chia sẻ kinh nghiệm giữa Việt Nam và Pháp trong xây dựng Chính phủ số

Sáng 30/6, trong khuôn khổ Chương trình hợp tác về chuyển đổi số giữa Văn phòng Chính phủ và Đại sứ quán Pháp tại Việt Nam, đoàn chuyên gia tư vấn chuyển đổi số của Pháp đã có phiên làm việc đầu tiên tại Cục Chuyển đổi số-Văn phòng Chính phủ, mở đầu chương trình công tác tại Việt Nam kéo dài đến ngày 3/7.

Tiến sĩ, bác sĩ Vũ Văn Bạ và ê-kíp làm chủ công nghệ lập bản đồ 3D trong phẫu thuật điều trị loạn nhịp tim. (Ảnh: THU HOÀI)

Công nghệ bản đồ 3D: Bước tiến trong điều trị rối loạn nhịp tim phức tạp

Suốt ba năm ròng rã sống chung với những cơn loạn nhịp tim đột ngột, anh Trần Đức Hải không ngờ mình lại mắc một căn bệnh nguy hiểm về tim mạch. Tuy nhiên, nhờ sự can thiệp kịp thời của ê-kíp bác sĩ tại Bệnh viện Đại học Y Dược (Cơ sở Linh Đàm), Đại học Quốc gia Hà Nội đã giúp anh "hồi sinh" một trái tim khỏe mạnh bình thường.

Fanpage “Thông tin khoa học và công nghệ” của Bộ Khoa học và Công nghệ lan tỏa tri thức và cảm hứng đổi mới sáng tạo. (Ảnh: TL)

Truyền thông khoa học trong kỷ nguyên số

Truyền thông trong khoa học được xem như một khâu trung gian, giúp chuyển hóa ngôn ngữ học thuật thành ngôn ngữ đời thường, thân thiện, giúp mỗi người dân, dù ở trình độ khác nhau có thể tiếp cận kết quả nghiên cứu khoa học, hiểu và thực hành.

Sinh viên Đại học Quốc gia Thành phố Hồ Chí Minh đoạt giải thưởng tại cuộc thi “Học sinh-Sinh viên với ý tưởng khởi nghiệp - SV.STARTUP” năm 2026.

Thước đo mới của hệ sinh thái khởi nghiệp

Việc Việt Nam lần đầu lọt vào tốp 50 hệ sinh thái khởi nghiệp toàn cầu, đánh dấu bước phát triển mới của hệ sinh thái đổi mới sáng tạo. Tuy nhiên, thước đo trong giai đoạn tới không chỉ là số lượng startup mà còn là khả năng hình thành các doanh nghiệp làm chủ công nghệ lõi, tạo ra giá trị cạnh tranh mới cho nền kinh tế.

Sự kiện thu hút đông đảo giảng viên, chuyên gia và sinh viên các khoa chuyên ngành tham dự. (Ảnh: MINH DUY)

Tọa đàm về đạo đức và trách nhiệm trong kỷ nguyên của trí tuệ nhân tạo

Ngày 29/6, Học viện Báo chí và Tuyên truyền phối hợp Đại sứ quán Pháp tại Việt Nam tổ chức buổi tọa đàm “Trí tuệ nhân tạo và công nghệ số: Hướng tới ứng dụng có đạo đức và trách nhiệm”. Sự kiện là không gian thảo luận về những cơ hội cũng như thách thức đạo đức khi AI đang thay đổi sâu sắc diện mạo ngành truyền thông.

Nhóm nghiên cứu thực hiện nghiên cứu các hợp chất sau chiết xuất của cây nghệ trắng. (Ảnh: TRUNG HIẾU)

Nghệ trắng và triển vọng hỗ trợ điều trị ung thư dạ dày

Lần đầu tiên, cao chiết chuẩn hóa từ thân rễ nghệ trắng trồng tại Trà Vinh được chứng minh có khả năng ức chế nhiều dòng tế bào ung thư, đặc biệt là ung thư dạ dày, đồng thời ít ảnh hưởng đến tế bào bình thường. Kết quả này mở ra triển vọng khai thác dược liệu Việt Nam trong hỗ trợ phòng ngừa và điều trị ung thư.

Hoạt động nghiên cứu khoa học tại Đại học Quốc gia Thành phố Hồ Chí Minh.

Xây dựng đội ngũ nhà khoa học trình độ cao

Tại cuộc họp Thường trực Ban Chỉ đạo Trung ương về phát triển khoa học, công nghệ, đổi mới sáng tạo và chuyển đổi số, Tổng Bí thư, Chủ tịch nước Tô Lâm khẳng định vai trò đặc biệt quan trọng của khoa học cơ bản chính là nền tảng để hình thành các lý thuyết mới, công nghệ mới và các mô hình phát triển bền vững.