Vào năm 1997, hệ thống máy tính Deep Blue của IBM đã đánh bại nhà vô địch thế giới về cờ vua Garry Kasparov. Vào thời điểm đó, chiến thắng này được mô tả như là một bước tiến lớn của trí tuệ nhân tạo. Nhưng công nghệ Deep Blue thực sự chỉ hữu ích với cờ vua mà không có gì hơn. Khoa học máy tính đã không tiến tới một cuộc cách mạng.
Với AlphaGo, hệ thống chơi cờ vây đã đánh bại một trong những người chơi cờ vây mạnh nhất trong lịch sử, vậy có gì mới sẽ diễn ra hay không?
Các chuyên gia tin là có, nhưng không phải từ những lý do mà bạn đã từng nghe. Một số bài báo lấy dẫn chứng rằng cờ vây khó hơn cờ vua nên chiến thắng này là ấn tượng hơn. Hoặc một số người cho rằng họ không hy vọng máy tính có thể thắng cờ vây trong vòng mười năm tới nên đây là một bước đột phá lớn. Một số bài báo khác quan sát thấy rằng cờ vây có nhiều thế đi hơn cờ vua, nhưng họ không giải thích tại sao điều này là nguyên nhân đã làm khó đối với máy tính hơn so với con người.
Nói một cách khác, các lập luận này đã không đi thẳng vào câu hỏi chính: Phải chăng các công nghệ tiên tiến giúp AlphaGo thành công sẽ tạo ra những ảnh hưởng lớn hơn? Để trả lời câu hỏi này, đầu tiên chúng ta phải hiểu cách thức mà các công nghệ tiến bộ đã khiến AlphaGo có chất lượng và quan trọng khác biệt hơn khi đã áp dụng trong Deep Blue.
Đối với cờ vua, đầu tiên người chơi được dạy về giá trị của các quân cờ. Ở hệ thống này, một quân mã hay một quân tượng có giá trị tương đương ba quân tốt. Một quân xe khi có thể di chuyển dọc, ngang bàn cờ sẽ có giá trị lớn hơn và tương đương năm quân tốt. Và quân hậu khi có thể đi được theo các hướng sẽ có giá trị nhất và tương đương chín quân tốt. Vua có giá trị lớn nhất khi nó bị bắt đồng nghĩa bạn thua trận.
Bạn có thể sử dụng các giá trị này để đánh giá các nước đi có thể. Để đổi một quân tượng lấy một quân xe được xem là một nước đi tốt trong khi đổi một quân mã và một quân tượng lấy một quân xe không được xem là một nước đi hay.
Theo đó, Deep Blue có khoảng 8.000 yếu tố khác nhau trong chức năng để sử dụng cho đánh giá các vị trí.
Các khái nhiệm về giá trị quân cờ đặt biệt quan trọng trong cờ vua. Hầu hết các chương trình đánh cờ máy tính tìm kiếm thông qua hàng triệu hoặc hàng tỷ tổ hợp cách di quân và chống đỡ. Mục đích của các chương này là là tìm ra các bước đi để tối ưu hóa giá trị của các vị trí quân cờ trên bàn cờ và không quan tâm nhiều đến việc di chuyển quân được thực hiện bởi đối thủ.
Khởi đầu, các chương trình chơi cờ đánh giá các vị trí trên bàn cờ sử dụng một khái niệm đơn giản là “một quân tượng bằng ba quân tốt.”. Nhưng các chương trình sau này sử dụng các mô tả chi tiết hơn về kiến thức cờ vua. Chẳng hạn Deep Blue đã bao gồm hơn 8.000 yếu tố sử dụng trong chức năng đánh giá vị trí. Deep Blue đã không chỉ đánh giá một quân xe tương đương năm quân tốt. Khi một quân tốt cùng phe nằm cùng hàng với một quân xe thì nó cản đường đi của xe nên quân xe sẽ có giá trị thấp hơn. Tuy nhiên, quân tốt cũng có thể có giá trị hơn khi nó có thể di chuyển để ăn quân đối phương và không làm giảm đi nhiều giá trị của quân xe.
Ý tưởng này phụ thuộc vào trình độ hiểu biết về cờ vua và đặc biệt cho sự thành công công của Deep Blue. Theo tài liệu kỹ thuật được viết bởi nhóm Deep Blue, thì giá trị “một phần rõ ràng” của quân tốt đặc biệt quan trọng đối với Deep Blue trong ván thứ hai khi đấu với Kasparov.
Cuối cùng, các nhà phát triển Deep Blue đã sử dụng hai ý tưởng chính. Thứ nhất là xây dựng một chức năng bao gồm mô tả chi tiết về kiến thức cờ vua để đánh giá bất kỳ thế cờ nào. Thứ hai là sử dụng một sức mạnh tính toán lớn để đánh giá được nhiều tình huống nhất có thể để đưa ra nước đi đến kết quả cuối cùng tốt nhất.
Điều gì sẽ xẩy ra nếu bạn áp dụng chiến thuộc này đối với cờ vây?
Bạn sẽ gặp vấn đề lớn khi thử áp dụng. Vấn đề nằm ở chỗ là làm thế nào để đánh giá được giá trị của bàn cờ? Những người chơi cờ vây đã sử dụng rất nhiều trực giác khi đánh giá thế nào là một tình huống tốt. Chẳng hạn, họ sử dụng những thuật ngữ rất mơ hồ khi nó về tình huống bàn cờ là có hình dáng tốt và không rõ làm thế nào có thể diễn đạt trực giác này một cách đơn giản, rõ ràng như khi đánh giá các quân cờ của cờ vua.
Đây là những điểm mới và quan trọng mà các nhà phát triển AlphaGo đã đưa ra cách để định lượng cảm giác trực quan này.
Bạn có thể cho rằng bằng cách làm việc chăm chỉ và đưa ra một cách đánh giá tốt để đánh giá các vị trí trong bàn cờ. Điều không may mắn, thậm chí là sau nhiều thập kỷ cố gắng sử dụng cách tiếp cận truyền thống, thì vẫn chưa tìm được ra cách để áp dụng chiến lược tìm kiếm đã quá thành công với cờ vua sang cơ vây và các phần mềm cờ vậy chỉ đưa ra các thất vọng sau đó.
Những thay đổi bắt đầu từ năm 2006, khi một thuật toán tìm kiếm Monte Carlo được áp dụng với cố gắng sử dụng một cách tiếp cận đánh giá mới dựa trên cách thông minh hơn đối với các trò chơi mô phỏng ngẫu nhiên. Nhưng các chương trình cờ vây vẫn thua xa con người về khả năng đánh cờ. Nó cho thấy dựa vào trực giác mạnh về thế cờ là điều cần thiết để thành công.
Theo một tài liệu được đăng tải bởi nhóm AlphaGo, ban đầu nhóm đã lựa chọn 150.000 ván đấu bởi những người chơi tốt nhất và sử dụng mạng nơ-ron trí tuệ để tìm ra mẫu mà loại người thường lựa chọn. Thiết kế của AlphaGo cho phép tự cải thiện cách chơi thông qua việc liên tục được thi đấu và khả năng chiến thắng sẽ được cải thiện sau những lần chơi.
Nói một cách khác, mạng nơ-ron là một mô hình toán học phức tạo với hàng triệu tham số có thể hiệu chỉnh để thay đổi một hành vi. Từ “tự học” được sử dụng để nói về khả năng tự hiệu chỉnh các tham số trong mô hình để làm tốt hơn như của con người. Trong giai đoạn đầu của quá trình “tự học”, người máy sẽ cố gắng để có thể làm như những việc mà con người đã làm. Trong giai đoạn tiếp theo, nó sẽ cải thiện khả năng chiến thắng trận đấu khi tự chơi.
Chiến thuật này có vẻ không thực tế nhưng khi thực hiện đủ về thời gian và số lần, mạng nơ-ron trí tuệ nhân tạo sẽ thực sự tốt. Từ đây phát sinh ra một suy nghĩ kỳ lạ là nếu khi một điều gì không thực sự hiểu thì có thể cải thiện nó thông qua hàng tỷ lần hiệu chỉnh được thực hiện một cách tự động.
AlphaGo sau hai giai đoạn đào tạo đã có thể đạt ngang mức chơi cờ vậy của người nghiệp dư nhưng vẫn còn thua xa với chất lượng kiện tướng quốc tế. Nó vẫn còn một con đường dài để trở thành một vận động viên chuyên nghiệp. Theo đó, nó vẫn phải tiếp tục chơi cờ để cải thiện thành tích thi đấu. Để cải thiện thành tích của mình, AlphaGo đã phải cần đến cách dự đoán được giá trị của thế trận mà Deep Blue đã làm.
Để đạt được điều này, các nhà phát triển AlphaGo đã đưa ra một ý tưởng cho phép nó tự chơi chống lại chính nó để dự báo khi nào có thể trở thành người thắng trận. Từ đây, AlphaGo đã được tích hợp cách tiếp cận tìm kiếm đánh giá nhiều khả năng về cách chơi theo xu hướng tiến đến tìm kiếm kết quả có thể diễn ra thông qua cách đánh của nó. AlphaGo sẽ lựa chọn nước đi để có hiệu quả nhất cho tình huống.
Chúng ta có thể thấy rằng từ khi AlphaGo bắt đầu với một hệ thống không có nhiều kiến thức về cờ vây như cách mà Deep Blue đã làm. Thay vào đó, bằng cách phân tích hàng nghìn trận đấu trước đó và nhiều lần tự chơi, AlphaGo đã tạo ra một mạng nơ-ron trí tuệ nhân tạo của hàng tỷ lần hiệu chỉnh nhỏ, mỗi lần thay đổi là một lần cải thiện thành tích thi đấu.
Từ đây, AlphaGo đã tự xây dựng được một hệ thống có thể làm được một số việc như là trực giác của những người chơi cờ vây về đánh giá khác nhau về thế trận.
Theo cách này, AlphaGo đã có nhiều ưu việt hơn Deep Blue.
AlphaGo đồng thời sử dụng ý tưởng tìm kiếm-và-tối ưu hóa, cho dù có một số chút ít khôn ngoan hơn tìm kiếm. Nhưng những gì mới và không bình thường là ở giai đoạn đầu tiên khi nó đã sử dụng mạng nơ-ron để học một chức năng để bắt kịp cảm nhận khi nào là có một thế trận tốt. Sau khi hợp nhất hai giai đoạn tự cải thiện, AlphaGo đã trở thành một người chơi ở đẳng cấp cao nhất.
Khả năng nhân bản mô hình nhận dạng trực quan lại lại là một vấn đề lớn và đồng thời là một xu hướng lớn. Một số mẫu nhận dạng trực quan cũng đã được sử dụng.
Trong năm 2015, Leon Gatys, Alexander Ecker và Matthias Bethge đã học cách sử dụng mạng nơ-ron để học phong cách của các danh họa để vẽ những bức tranh khác. Ý tưởng áp dụng khá đơn giản, mạng nơ-ron sẽ khám phá một số lượng bức ảnh và tạo ra khả năng nhận dạng những bức ảnh có cùng phong cách. Nó có thể sử dụng phong cách này với những bức ảnh mới. Chẳng hạn nó có thể vẽ lại bức tranh tháp Eiffel theo phong cách của Van Gogh.
![]() |
Máy tính tự học có thể vẽ lại tháp Eiffel theo phong cách Van Gogh.
Bức ảnh không thực sự tuyệt vời, nhưng nó là một minh họa tốt cho việc sử dụng mạng nơ-ron để để học một trực gián của ai đó và ứng dụng nó vào nơi khác.
Do sự linh hoạt của AlphaGo, các chuyên gia cho rằng nó không phải là một cách mạng đột phá từ chính nó mà là do đã dẫn đầu một phát triển mới rất quan trọng: khả năng tự xây dựng hệ thống để nắm bắt trực giác và học để đưa ra các mẫu. Các nhà khoa học đã mất nhiều thập niên để làm điều này mà không có nhiều tiến triển. Nhưng nay, sự thành công của mạng nơ-ron đã tạo ra một tiềm năng vô cùng lớn để mở rộng những vấn đề khác mà công nghệ máy tính có thể tham gia.
Cho dù trí tuệ nhân tạo và mạng nơ-ron có những bước tiến thì cũng không nên tin vào những tuyên bố rằng thế hệ trí tuệ nhân tạo sẽ đến trong vòng vài năm tới. Theo một góc nhìn lô-gích thì máy tính chỉ tốt và chỉ đơn giản là mô phỏng trực giác của con người.
Một giới hạn của hệ thống hiện nay thường yêu cầu học rất nhiều từ con người. Chẳng hạn, AlphaGo đã phải học đến 150.000 trận đấu, ngược lại, con người cần rất ít. Tương tự, mạng nơ-ron có thể nhận dạng và phân tích hàng triệu bức ảnh để có một thông tin về đặc tính của ảnh. Điều quan trọng hơn là thách thức khi để cải thiện hệ thống này vẫn cần học từ những tập dữ liệu nhỏ mà con người cung cấp và nó sẽ kém khi thiếu các thông tin này.
Những hệ thống như AlphaGo thực sự thú vụ. Chúng ta nghiên cứu máy tính để nó có thể tái tạo một số trực giác của con người nhưng vẫn còn nhiều thách thức lớn hơn phía trước như mở rộng phạm vi trực giác nhất nhất có thể, đảm bảo hệ thống hoạt động ổn định, hiểu tại sao và nó làm việc như thế nào và học cách tốt nhất để tổng hợp những điểm mạnh mà hệ thống máy tính mang lại.
Cuối cùng, chúng ta còn quá sớm để từ một số thành công về trực giác của mạng nơ-ron và trí tuệ nhận tạo để viết ra những nhận định khoa học hay viết những câu chuyện giải thích về nó. Đây chính là một tương lai đầy hứa hẹn cho trí tuệ nhân tạo.