Những ứng dụng AI tạo video
Hiện nay, công cụ Sora mới chỉ được OpenAI cung cấp hạn chế cho một số tài khoản dùng thử trong nền tảng AI tổng quát (GenAI) của họ. Đoạn phim giới thiệu ứng dụng nhập văn bản để tạo video cho thấy thao tác tạo ra một đoạn phim hoàn chỉnh với các nhân vật giống như thật và chuyển động vật lý phức tạp. OpenAI tiết lộ đang cung cấp công cụ này cho nhiều nghệ sĩ hình ảnh, nhà thiết kế và nhà làm phim tham gia dùng thử.
Theo Reuters, mô hình GenAI mới được gọi là Sora với chức năng chuyển văn bản thành video, có thể tạo ra các cảnh chuyển động phức tạp, chân thực với nhiều nhân vật, các kiểu chuyển động cụ thể. Đoạn phim cho thấy những chi tiết chính xác và chủ thể chuyển động liên tục trong khi vẫn duy trì chất lượng hình ảnh và tuân thủ các nguyên tắc cơ bản của làm phim. Nhà tư vấn công nghệ người Mỹ Bernard Marr nhận xét, công nghệ này về cơ bản chuyển các mô tả bằng văn bản thành nội dung video, tận dụng các mô hình AI để hiểu văn bản đầu vào và tạo ra các yếu tố thị giác và thính giác tương ứng. Marr cho biết: “Quá trình này bao gồm các thuật toán học sâu có khả năng diễn giải văn bản và tổng hợp các video phản ánh các cảnh, hành động và đối thoại được mô tả”. Theo ông, mặc dù không phải là một khả năng mới cho các công cụ AI vì trước đây từng có các nhà cung cấp và ứng dụng đi trước, chẳng hạn như Gemini của Google, nhưng tác động của Sora dự kiến sẽ rất mạnh mẽ.
Google có hai dự án nghiên cứu đồng thời nhằm thúc đẩy “các mô hình tạo video tiên tiến nhất”, theo công bố của công ty này. Những dự án đó là Lumiere và Gemini. Được phát hành vào đầu tháng 2, Lumiere là công nghệ tạo video tiên tiến hơn của Google, cung cấp 80 khung hình mỗi giây so 25 khung hình mỗi giây từ các đối thủ cạnh tranh trong làng công nghệ AI đi trước. Trước đó, ứng dụng Gemini của hãng này đã khá nổi tiếng, được thiết kế để xử lý thông tin và tự động hóa các tác vụ, cung cấp hình ảnh và hiệu ứng thị giác liền mạch, có khả năng làm cho nó trở nên trực quan hơn đối với những người dùng đang tìm kiếm trải nghiệm đơn giản.
Cả mô hình AI đa phương thức Sora của OpenAI và Gemini thế hệ mới của Google hiện đều là các dự án nghiên cứu nội bộ, chỉ được cung cấp cho một nhóm chuyên gia là đối tác cụ thể và những người khác đang thử nghiệm công nghệ. Không như ứng dụng ChatGPT phổ biến của OpenAI, Google cho hay người dùng có thể đưa vào một lượng thông tin lớn hơn nhiều để nhận được phản hồi chính xác hơn. Mặc dù vậy, Sora và Gemini từ khi là các dự án nghiên cứu nội bộ đã cho thấy chúng có khả năng hiển thị những ví dụ thực tế và thông tin chi tiết, bao gồm video, ảnh, ảnh động (gif)... với những kỹ thuật và chuyển động chân thực, sắc nét, sống động không kém gì sản phẩm của những nhà làm phim chuyên nghiệp.
Sora của OpenAI cũng không phải là ứng dụng tiên phong trong lĩnh vực này, vì trước đó Google, Meta (công ty mẹ của mạng xã hội Facebook) và Công ty khởi nghiệp Runway ML là một trong những công ty đã trình diễn công nghệ tương tự. Năm ngoái, YouTube cũng đã công bố kế hoạch phát triển công cụ giúp các tác giả sáng tạo cảnh nền và video bằng thuật toán AI. Nhưng chưa có công cụ nào thật sự gây ấn tượng mạnh cho cộng đồng người dùng thế giới. Các nhà phân tích trong ngành vẫn nhấn mạnh đến chất lượng rõ ràng và độ dài ấn tượng của các video Sora được chia sẻ cho đến nay.
Theo ông Fred Havemeyer, người đứng đầu bộ phận nghiên cứu phần mềm và AI tại Công ty tư vấn Macquarie (Mỹ), sự ra mắt của Sora đánh dấu một bước tiến lớn của ngành. Mặc dù đã có nhiều tiến bộ to lớn trong lĩnh vực AI tạo video trong năm qua, tuy nhiên tính nhất quán và độ dài của các video của Sora cho thấy cơ hội cũng như thách thức lớn cho những người sáng tạo nội dung. “Họ có thể kết hợp các yếu tố của video do AI tạo ra vào nội dung được sản xuất thực tế, hoặc thậm chí tạo ra cả một bộ phim hoàn chỉnh từ một vài câu lệnh”, Havemeyer cho biết.
Tác động tới lĩnh vực sáng tạo nội dung
Trong hơn một năm trở lại đây, những người làm trong lĩnh vực hình ảnh, quay phim, thiết kế đồ họa và sáng tạo nội dung nói chung rất quan tâm tới sự phát triển của AI và tác động của nó tới lĩnh vực sáng tạo. Theo một báo cáo, khoảng 21,4% các nhà làm phim truyền hình và hoạt hình tại “kinh đô điện ảnh” Hollywood dự đoán sẽ bị AI thay thế vào năm 2026. Mùa hè năm ngoái, Netflix đã bắt đầu tuyển dụng cho vị trí quản lý sản phẩm AI với mức lương từ 300.000 đến 900.000 USD, cao hơn mức trung bình cho vị trí đạo diễn hình ảnh thông thường. Lý giải cho việc này, Havemeyer cho biết những video do AI tạo ra cần phải được kết nối nhiều hơn để bảo đảm tính nhất quán của nhân vật và ngoại cảnh.
AI có thể tạo ra video giống thực tế tới 99% với độ sinh động của từng chi tiết nhỏ. Đây là những thứ không có trong mệnh lệnh mà tự AI tự hiểu được quy tắc vật lý của thế giới thực và vẽ ra. Nhà phân tích cấp cao Rowan Curran của Công ty nghiên cứu thị trường Forrester (Mỹ) bày tỏ lo ngại về sự phát triển vượt tầm kiểm soát của AI. Mặc dù khả năng của Sora đã khiến các nhà quan sát kinh ngạc, nhưng họ cũng lo lắng về tác động đạo đức và xã hội của việc sử dụng video do AI tạo ra. Chẳng hạn, Curran chỉ ra hậu quả đáng kể về việc tung ra những video giống với thực tế, hình ảnh, tin giả nhằm phục vụ cho hành động gian lận, tuyên truyền và thông tin sai lệch.
Hiện, OpenAI mới chỉ tiết lộ thông tin khá hạn chế về cách Sora được xây dựng. Báo cáo kỹ thuật của OpenAI không tiết lộ nguồn hình ảnh và video nào được sử dụng để đào tạo Sora và vì vậy cũng làm dấy lên lo ngại về quyền sở hữu trí tuệ trong đó. Với ứng dụng Sora, việc phân biệt tin thật, giả là rất khó khăn vì các video do Sora tạo ra có tính chân thực rất cao. Cho dù OpenAI đang tìm ra các giải pháp hạn chế, tuy nhiên rất khó để đưa ra giải pháp nào triệt để. “Sắp tới, ứng dụng sẽ cho phép người sử dụng cung cấp hình ảnh, văn bản để từ đó tạo ra video mới, như vậy phát ngôn của các nhân vật có ảnh hưởng trên thế giới có thể bị làm giả rất dễ dàng, gây ra hệ lụy lớn với công chúng”, Rowan Curran nhấn mạnh.
OpenAI cho biết, họ đang thực hiện các bước an toàn quan trọng trước khi cung cấp Sora rộng rãi. Thông cáo của công ty nêu ra: “Chúng tôi đang làm việc với các nhóm chuyên gia về lĩnh vực như thông tin sai lệch, nội dung thù địch và thành kiến, họ sẽ thử nghiệm mô hình một cách đối nghịch giúp xây dựng các công cụ để phát hiện nội dung sai lệch, chẳng hạn như bộ phân loại phát hiện có thể cho biết thời điểm video được Sora tạo”.
Trước Sora, OpenAI đã phát hành hai sản phẩm, bao gồm ChatGPT có thể tạo văn bản giống như con người và công nghệ DALL-E tạo deepfake. Trong đó, ứng dụng sử dụng AI để tạo ra âm thanh, hình ảnh và video dạng deepfake đã vướng nhiều tai tiếng về tình trạng giả mạo người nổi tiếng, chính khách…; còn OpenAI đang bị nghi ngờ về việc sử dụng nguồn văn bản đầu vào không có bản quyền.