Dựa trên các cuộc phỏng vấn và báo cáo mới nhất, đây là những gì chúng ta biết cho đến nay về Gemini, hệ thống AI sắp ra mắt của Google nhằm cạnh tranh với OpenAI.
Tại hội nghị nhà phát triển Google I/O vào tháng 5 năm 2023, Giám đốc điều hành của Google là Sundar Pichai đã công bố hệ thống trí tuệ nhân tạo (AI) sắp ra mắt của họ có tên Gemini.
Mô hình ngôn ngữ lớn (LLM) đang được phát triển bởi bộ phận Google DeepMind (Brain Team + DeepMind). Nó có thể cạnh tranh với các hệ thống AI như ChatGPT của OpenAI và có thể hoạt động tốt hơn chúng.
Mặc dù thông tin chi tiết vẫn còn khan hiếm nhưng đây là những gì chúng ta có thể tổng hợp lại được từ các cuộc phỏng vấn và báo cáo mới nhất về Google Gemini.
1. Google Gemini là gì?
Gemini là kiến trúc AI thế hệ tiếp theo của Google, cuối cùng sẽ thay thế PaLM 2. Hiện tại, kiến trúc này hỗ trợ nhiều dịch vụ AI của Google, bao gồm cả chatbot Bard và Duet AI trong các ứng dụng Workspace như Google Docs. Nói một cách đơn giản, Gemini sẽ cho phép các dịch vụ này phân tích hoặc tạo đồng thời văn bản, hình ảnh, âm thanh, video và các loại dữ liệu khác.
Gemini là một tập hợp các mô hình ngôn ngữ lớn (LLM) kết hợp GPT-4 với các kỹ thuật đào tạo lấy từ AlphaGo, chẳng hạn như học tăng cường và tree search, có khả năng đánh bại ChatGPT để trở thành giải pháp AI tạo sinh vượt trội nhất trên hành tinh.
Tin tức này xuất hiện chỉ vài tháng sau khi Google kết hợp phòng thí nghiệm Brain và DeepMind AI của mình để thành lập một nhóm nghiên cứu mới có tên Google DeepMind và chỉ vài tháng sau khi ra mắt Bard và PaLM 2 LLM thế hệ tiếp theo.
Với việc các nhà nghiên cứu dự đoán rằng thị trường AI tổng quát ước tính sẽ trị giá 1,3 nghìn tỷ USD vào năm 2032, rõ ràng là Google đang dốc toàn lực đầu tư vào không gian này để duy trì vị trí dẫn đầu trong phát triển AI.
Đây là một ví dụ cho thấy khả năng ấn tượng của một mô hình đa phương thức, được cung cấp bởi blog Nghiên cứu AI của Google. Nó cho thấy AI không chỉ có thể trích xuất các tính năng từ video để tạo bản tóm tắt mà còn trả lời các câu hỏi văn bản tiếp theo.
Khả năng kết hợp hình ảnh và văn bản của Gemini cũng sẽ cho phép nó tạo ra nhiều loại dữ liệu cùng một lúc. Hãy tưởng tượng một AI không chỉ có thể viết nội dung của tạp chí mà còn có thể thiết kế bố cục và đồ họa cho tạp chí đó. Hoặc một AI có thể tóm tắt toàn bộ tờ báo hoặc podcast dựa trên các chủ đề bạn quan tâm nhất.
2. Gemini khác với các mô hình ngôn ngữ lớn khác như thế nào?
Gemini khác với các mô hình ngôn ngữ lớn khác ở chỗ nó không chỉ được đào tạo trên văn bản. Google cho biết họ đã xây dựng mô hình này với khả năng đa phương thức. Điều đó cho thấy tương lai của AI có thể có mục đích chung hơn những công cụ chúng ta có ngày nay.
Google cũng đã hợp nhất các nhóm AI của mình thành một đơn vị làm việc duy nhất, hiện có tên là Google DeepMind. Tất cả những điều này cho thấy rõ ràng rằng công ty đang đặt cược vào Gemini để cạnh tranh với GPT-4.
Một mô hình đa phương thức có thể giải mã nhiều loại dữ liệu cùng lúc, tương tự như cách con người sử dụng các giác quan khác nhau trong thế giới thực.
Vậy một AI đa phương thức như Google Gemini hoạt động như thế nào?
Bạn có một số thành phần chính hoạt động đồng bộ, bắt đầu bằng bộ mã hóa và bộ giải mã. Khi được cung cấp đầu vào có nhiều loại dữ liệu (như một đoạn văn bản và hình ảnh), bộ mã hóa sẽ trích xuất tất cả các chi tiết có liên quan từ từng loại dữ liệu (phương thức) một cách riêng biệt.
Sau đó, AI sẽ tìm kiếm các tính năng hoặc mẫu quan trọng trong dữ liệu được trích xuất bằng cơ chế chú ý – về cơ bản buộc nó phải tập trung vào một nhiệm vụ cụ thể.
Ví dụ: việc xác định con vật trong ví dụ trên sẽ chỉ liên quan đến việc chỉ nhìn vào các khu vực cụ thể của hình ảnh có chủ thể đang chuyển động. Cuối cùng, AI có thể kết hợp thông tin đã học được từ các loại dữ liệu khác nhau để đưa ra dự đoán.
3. Mọi điều chúng ta biết cho đến nay về Gemini
Trong khi nhiều người kỳ vọng rằng Google Gemini sẽ được phát hành vào mùa thu năm 2023 thì vẫn chưa có nhiều thông tin về khả năng của mô hình này.
Trở lại tháng 5, Sundar Pichai, Giám đốc điều hành của Google và Alphabet, đã phát hành một bài đăng trên blog với cái nhìn cấp cao về LLM, giải thích:
“Gemini được tạo ra ngay từ đầu để trở thành đa phương thức, tích hợp công cụ và API hiệu quả cao, đồng thời được xây dựng để hỗ trợ những đổi mới trong tương lai, như bộ nhớ và lập kế hoạch.”
Pichai cũng lưu ý rằng “Mặc dù vẫn còn sớm nhưng chúng tôi đã thấy những khả năng đa phương thức ấn tượng chưa từng thấy ở các mẫu trước đây.
“Sau khi được tinh chỉnh và kiểm tra nghiêm ngặt về độ an toàn, Gemini sẽ có sẵn ở nhiều kích cỡ và chức năng khác nhau, giống như PaLM 2.”
Kể từ đó, không có nhiều thông tin được nói về việc phát hành chính thức, ngoài cuộc phỏng vấn của Demis Hassabis với Wired, Giám đốc điều hành Google DeepMind, lưu ý rằng Gemini sẽ “kết hợp một số điểm mạnh của hệ thống loại AlphaGo với khả năng ngôn ngữ tuyệt vời của các mô hình lớn”.
Android Police cũng tuyên bố rằng một nguồn ẩn danh liên quan đến sản phẩm đã nhận xét rằng Gemini sẽ có thể tạo văn bản và hình ảnh theo ngữ cảnh, đồng thời sẽ được đào tạo về các nguồn như bản ghi video YouTube.
4. Liệu Gemini có đánh bại được ChatGPT không?
Một trong những cuộc thảo luận lớn nhất xung quanh việc phát hành Gemini là liệu mô hình ngôn ngữ bí ẩn có đủ khả năng để đánh bại ChatGPT, vốn năm nay đã đạt hơn 100 triệu người dùng hoạt động hàng tháng hay không?
Nhìn thoáng qua, khả năng tạo văn bản và hình ảnh của Gemini mang lại cho nó lợi thế vượt trội so với GPT4 về phạm vi nội dung mà nó có thể tạo ra.
Tuy nhiên, có lẽ điểm khác biệt đáng sợ nhất giữa hai bên là kho dữ liệu đào tạo độc quyền khổng lồ của Google. Google Gemini có thể xử lý dữ liệu được lấy trên các dịch vụ, bao gồm Google Search, YouTube, Google Books và Google Scholar.
Việc sử dụng dữ liệu độc quyền này để đào tạo các mô hình Gemini có thể mang lại lợi thế khác biệt về độ tinh vi của những hiểu biết sâu sắc và suy luận mà nó có thể thu được từ một tập dữ liệu. Điều này đặc biệt đúng nếu các báo cáo ban đầu cho rằng Gemini được đào tạo về số lượng token nhiều gấp đôi GPT4 là chính xác.
Ngoài ra, không thể đánh giá thấp sự hợp tác giữa nhóm Google DeepMind và Brain trong năm nay, vì nó giúp OpenAI đối đầu với một nhóm các nhà nghiên cứu AI đẳng cấp thế giới, bao gồm cả đồng sáng lập Google Sergey Brin và AI cấp cao của DeepMind. nhà khoa học và chuyên gia về máy học Paul Barham.
Đây là một đội giàu kinh nghiệm, hiểu biết sâu sắc về cách áp dụng các kỹ thuật như học tăng cường và tìm kiếm cây để tạo ra các chương trình AI có thể thu thập phản hồi và cải thiện khả năng giải quyết vấn đề của họ theo thời gian, điều mà nhóm DeepMind đã từng dạy AlphaGo đánh bại cờ vây vô địch thế giới 2016.
5. Đếm ngược tới khi Google Gemini xuất hiện
Những gì chúng ta biết cho đến nay cho thấy Gemini có thể đại diện cho một tiến bộ đáng kể trong xử lý ngôn ngữ tự nhiên – Natural Language Processing
Sự kết hợp giữa nghiên cứu AI mới nhất của DeepMind với nguồn tài nguyên tính toán khổng lồ của Google khiến cho tác động tiềm tàng khó có thể bị phóng đại.
Nếu Gemini đáp ứng được kỳ vọng, nó có thể thúc đẩy sự thay đổi trong AI tương tác, phù hợp với tham vọng của Google là “đưa AI đến với hàng tỷ người theo những cách có trách nhiệm”.