Công nghệ nhận diện giọng nói
Chú thích và phụ đề đóng một vai trò quan trọng trong việc cung cấp phương tiện và thông tin truy cập cho người khiếm thính hoặc gặp vấn đề về thính giác. Cách thức này ngày càng trở nên phổ biến trong nhiều năm qua.
Những người vận động vì quyền của người khuyết tật đã đấu tranh suốt nhiều thập kỷ đòi hỏi phụ đề, chú thích phải được làm tốt hơn, nhất là khi các dịch vụ trực tuyến theo yêu cầu ngày một thịnh hành.
Như một bước tất yếu, các nền tảng video nhanh chóng ứng dụng công nghệ trí tuệ nhân tạo. Cụ thể, Youtube đã thông báo về việc thử nghiệm một công nghệ trí tuệ nhân tạo mới, có khả năng tóm tắt toàn bộ video, còn Tiktok thì tự phát triển chatbot của chính mình.
Sự bùng nổ của trí tuệ nhân tạo giống như một chiếc phao cứu sinh cho những hạn chế của công nghệ. Việc đưa các công cụ và dịch vị trí tuệ nhân tạo vào sản xuất phụ đề tự động có vẻ là một bước đi hợp lý tiếp theo.
3Play Media (một công ty cung cấp dịch vụ làm phụ đề và trợ năng video tại Mỹ) vừa công bố báo cáo Thực trạng nhận diện giọng nói tự động 2023 (State of automatic Speech 2023). Báo cáo tập trung vào tác động của các công cụ sử dụng trí tuệ nhân tạo để tạo phụ đề cho người khiếm thính hoặc gặp vấn đề về thính giác.
Kết quả chỉ ra rằng, thay vì được tiếp nhận các thông tin chính xác, đơn giản, ngắn gọn, người dùng phải tiếp nhận nhiều thông tin phức tạp, dài dòng không cần thiết khi trí tuệ nhân tạo được sử dụng để tạo phụ đề.
Tính chính xác của công nghệ nhận diện giọng nói
Trong báo cáo của mình 3Play Media đã phân tích tỷ lệ lỗi từ và tỷ lệ lỗi định dạng (bao gồm cả lỗi từ và lỗi định dạng, ngữ pháp, cấu trúc,…) của nhiều công nghệ nhận diện giọng nói khác nhau. Những công nghệ này được sử dụng trong nhiều lĩnh vực như báo chí, giáo dục sau đại học,… và thể thao.
“Công nghệ nhận diện giọng nói chất lượng không có nghĩa là phụ đề được tạo ra cũng chất lượng” - báo cáo này chỉ ra. “Với tỷ lệ lỗi từ, công nghệ tốt nhất cũng chỉ chính xác được 90%; với tỷ lệ lỗi định dạng, độ chính xác còn thấp hơn: 80%. Cả hai con số này đều không đạt chuẩn pháp lý để cung cấp dịch vụ phụ đề cho người xem: 99% (theo tiêu chuẩn Mỹ).
Bên cạnh đó, Đạo luật người khuyết tật của Hoa Kỳ (ADA) yêu cầu các chính quyền, công ty, tổ chức phi lợi nhuận tại địa phương và liên bang phải cung cấp cho công chúng “cách giao tiếp hiệu quả với người có khuyết tật về giao tiếp”, bao gồm dịch vụ phụ đề trực tiếp cho người khiếm thính hoặc có vấn đề về thính giác.
Các quy tắc tuân thủ dành cho truyền hình của Uỷ ban Truyền thông Liên bang (FCC) cũng chỉ rõ rằng: Chú thích, phụ đề phải chính xác, liên tục và đúng bối cảnh ở “mức tối đa có thể”.
Sự chính xác của phụ đề cũng dao động rất lớn trong các lĩnh vực, thị trường và trường hợp cụ thể khác nhau. “Tin tức và các nội dung trên mạng xã hội, điện ảnh, thể thao là ba lĩnh vực thách thức nhất với phụ đề được tạo tự động bằng công nghệ nhận diện giọng nói” - Báo cáo của 3Play Media viết “bởi những lĩnh vực này thường có nội dung được chạy trên nền nhạc, các đoạn hội thoại chồng chéo và âm thanh phức tạp”.
Hiển nhiên, đây là 3 lĩnh vực có tỷ lệ lỗi từ và lỗi định dạng cao nhất, đặc biệt là tin tức và các nội dung trên mạng xã hội.
Mặc dù kết quả đã được cải thiện so với báo cáo năm 2022, 3Play Media cho rằng tỷ lệ lỗi vẫn còn quá cao. Do đó, sự biên tập, hiệu định từ con người là cần thiết
Bán tự động
Các công ty, đơn vị sản xuất phụ đề, phiên âm đã sử dụng trí tuệ nhân tạo như một công cụ hỗ trợ trong suốt nhiều năm. Các công cụ này sẽ tự động sản xuất phụ đề từ âm thanh có sẵn. Hệ thống bán tự động hay con người tham gia xử lý (keeping humans in the loop) đã được sử dụng rộng rãi. Đây là một quá trình nhiều bước được kết hợp giữa công nghệ nhận diện giọng nói (hoặc trí tuệ nhân tạo) với biên tập viên.
Rev - một số công ty sản xuất phụ đề đã chỉ ra vai trò quan trọng của biên tập viên trong quá trình đồng bộ hóa nghe nhìn, định dạng màn hình và các bước cần thiết khác để tạo ra một sản phẩm trực quan có đầy đủ phương tiện truy cập cho người dùng.
Mặt khác, hệ thống bán tự động cũng được sử dụng để kiểm soát định kiến ngầm của một số mô hình trí tuệ nhân tạo sản xuất nội dung. Hệ thống này sẽ đào tạo các mô hình trí tuệ nhân tạo bằng các quyết định từ con người.
Từ lâu, bộ phận Sáng kiến Truy cập Web của The World Wide Web Consortium (W3C) đã có quan điểm kiên định về việc giám sát của con người. Điều này được W3C ghi chú rõ ràng trong hướng dẫn cho chú thích và phụ đề của mình: “Phụ đề được tạo tự động không đáp ứng được như cầu của người dùng hay các yêu cầu truy cập cơ bản. Thông thường các phụ đề này sẽ cần chỉnh sửa đáng kể”. Cuốn hướng dẫn này cũng viết thêm: “Phụ đề tự động có thể được dùng như nguyên liệu thô để sản xuất phụ đề và chú thích chính xác”.
3Play Media cũng đề cập vấn đề tương tự trong báo cáo “sự quan trọng của phụ đề trực tiếp do con người sản xuất” vào năm 2021.
“Trí tuệ nhân tạo không có khả năng hiểu bối cảnh hóa như con người. Cụ thể, nếu công nghệ nhận diện giọng nói nhầm lẫn một từ, nó sẽ thay thế từ đó bằng một từ không liên quan hoặc vừa sai, vừa không liên quan”, công ty này viết. “Tuy hiện tại không có điều luật rõ ràng nào cho tỷ lệ chính xác của phụ đề trực tiếp nhưng các quy định hiện hành của liên bang và tiểu bang về chú thích đã nêu rõ: Phải cung cấp trải nghiệm bình đẳng cho người xem… Trong khi đó, cả trí tuệ nhân tạo và con người đều không thể cung cấp phụ đề với tỷ lệ chính xác 100%. Cách hiệu quả nhất để thực hiện phụ đề trực tuyến là kết hợp cả con người và trí tuệ nhân tạo.
Cờ đỏ “ảo giác"
Ngoài tỷ lệ lỗi từ thấp, báo cáo của 3Play Media còn chỉ ra một mối lo ngại đáng bận tâm khác: Hiện tượng “ảo giác” của trí tuệ nhân tạo, đưa ra những câu trả lời thuyết phục nhưng hoàn toàn bịa đặt.
Hiện tượng này có thể xuất hiện dưới dạng thông tin không chính xác trong câu hoặc kết luận của cả câu đều là bịa đặt. Nhìn chung, hiện tượng ảo giác của trí tuệ nhân tạo là mối lo ngại lớn nhất trong hàng loạt mối lo ngại mà con người đặt ra cho trí tuệ nhân tạo sản xuất văn bản.
Tháng 1/2023, cơ quan giám sát thông tin sai lệch NewsGuard công bố một nghiên cứu về việc ChatGPT dễ dàng tạo đưa ra các tuyên bố, thông tin sai lệch tới người dùng. NewsGuard gọi đây là “hành động tồi”.
Báo cáo chỉ ra rằng, chatbot này đã chia sẻ tin tức sai lệch tới 80/100 lần phản hồi cho các lệnh đưa ra ví dụ về tin giả của người dùng.
Vào tháng 6/2023, một người dẫn chương trình phát thanh của Mỹ điền đơn kiện OpenAI sau khi chatbot này cung cấp một cách bất hợp pháp hàng loạt “sự thật” về một vụ án liên bang của người này.
Chỉ mới cách đây một tháng, những công ty tiên phong trong lĩnh vực trí tuệ nhân tạo (bao gồm Amazon, Anthropic, Google, Inflection, Meta, Microsoft và OpenAI) đã có một buổi gặp gỡ với chính quyền Biden-Harris “để thúc đẩy sự an toàn, bảo mật và tính minh bạch của công nghệ trí tuệ nhân tạo”. Buổi gặp gỡ (được cho là) diễn ra trước khi một lệnh hành pháp có thể có hiệu lực. Tất cả các công ty tham dự đã ký vào một bản cam kết gồm 8 điều để đảm bảo an ninh, an toàn công cộng.
Với những tập đoàn đang gắn bó mật thiết với công nghệ, đặc biệt với những lập trình viên đang tìm kiếm, sử dụng trí tuệ nhân tạo sản xuất văn bản như một con đường lát gạch để nâng cao khả năng truy cập, hiện tượng ảo giác đang đặt ra một nguy hại lớn với người dùng - 3Play Media giải thích.
“Từ khả năng nâng cao truy cập, hiện tượng ảo giác của trí tuệ nhân tạo còn gây ra một vấn đề nghiêm trọng hơn: Phụ đề sai lệch cho người khiếm thính hoặc gặp vấn đề về thính giác” - Báo cáo này phân tích.
Những chuyên gia đầu ngành đang cố gắng giải quyết hiện tượng ảo giác của trí tuệ nhân tạo với quá trình huấn luyện, đào tạo liên tục. Một vài người như Bill Gates có góc nhìn đặc biệt lạc quan về quá trình này. Nhưng sự thật là, những người cần phụ đề, chú thích để tiếp cận thông tin lại không có thời gian để chờ đợi các lập trình viên hoàn thiện hệ thống trí tuệ nhân tạo của họ.
“Những ảo giác của trí tuệ nhân tạo có thể được giảm bớt trong quá trình tinh chỉnh, nhưng hậu quả của hiện tượng này cho những người cần trợ năng truy cập vẫn rất đáng lo ngại” - báo cáo của 3Play Media kết luận: “Do đó, quá trình can thiệp, biên tập, tinh chỉnh phụ đề của con người là không thể lược bỏ”.