- The AI Growth
- Posts
- Mô hình hình ảnh AI của Google Gemini được nâng cấp thành 'chuối'
Mô hình hình ảnh AI của Google Gemini được nâng cấp thành 'chuối'
Ngoài ra, Tính năng tạo video tóm tắt của Google NotebookLM đã hỗ trợ tiếng Việt

Welcome, Growth Pioneers! 🚀
Chào bạn,
Google đang nâng cấp chatbot Gemini của mình bằng mô hình hình ảnh AI mới, cho phép người dùng kiểm soát tốt hơn việc chỉnh sửa ảnh, một bước đi nhằm bắt kịp các công cụ hình ảnh phổ biến của OpenAI và thu hút người dùng từ ChatGPT.
Bản cập nhật có tên Gemini 2.5 Flash Image sẽ được triển khai bắt đầu từ thứ Ba cho tất cả người dùng trong ứng dụng Gemini, cũng như cho các nhà phát triển thông qua nền tảng Gemini API, Google AI Studio và Vertex AI.
Mô hình hình ảnh AI mới của Gemini được thiết kế để chỉnh sửa hình ảnh chính xác hơn — dựa trên yêu cầu ngôn ngữ tự nhiên của người dùng — đồng thời vẫn giữ được sự nhất quán của khuôn mặt, động vật và các chi tiết khác, điều mà hầu hết các công cụ đối thủ đều gặp khó khăn. Ví dụ, yêu cầu ChatGPT hoặc Grok của xAI thay đổi màu áo của một người trong ảnh, và kết quả có thể bao gồm khuôn mặt bị biến dạng hoặc nền bị thay đổi.
Công cụ mới của Google đã thu hút sự chú ý. Trong những tuần gần đây, người dùng mạng xã hội đã dành nhiều lời khen ngợi cho một trình chỉnh sửa hình ảnh AI ấn tượng trên nền tảng đánh giá cộng đồng LMArena. Mô hình này xuất hiện với người dùng ẩn danh dưới bút danh "nano-banana".
Google cho biết họ là đơn vị tiên phong trong mô hình này (nếu điều này chưa rõ ràng từ tất cả những gợi ý liên quan đến chuối), đó thực sự là khả năng xử lý hình ảnh gốc trong mô hình AI Flash Gemini 2.5 hàng đầu của họ . Google cho biết mô hình hình ảnh này là tiên tiến nhất trên LMArena và các điểm chuẩn khác.

Google tuyên bố mô hình hình ảnh AI mới của họ là tiên tiến nhất trên một số tiêu chuẩn. TÍN DỤNG: GOOGLE
Nicole Brichtova, trưởng nhóm sản phẩm về mô hình tạo hình ảnh tại Google DeepMind, cho biết trong một cuộc phỏng vấn với TechCrunch: "Chúng tôi thực sự đang thúc đẩy chất lượng hình ảnh cũng như khả năng làm theo hướng dẫn của mô hình".
Brichtova cho biết: "Bản cập nhật này thực hiện tốt hơn nhiều việc chỉnh sửa một cách liền mạch hơn và đầu ra của mô hình có thể được sử dụng cho bất kỳ mục đích nào bạn muốn".
Các mô hình hình ảnh AI đã trở thành một chiến trường quan trọng đối với các công ty công nghệ lớn. Khi OpenAI ra mắt trình tạo hình ảnh gốc của GPT-4o vào tháng 3, lượng sử dụng ChatGPT đã tăng vọt nhờ cơn sốt meme Studio Ghibli do AI tạo ra , khiến cho theo CEO Sam Altman của OpenAI, GPU của công ty đã " tan chảy ".
Để theo kịp OpenAI và Google, Meta đã công bố tuần trước rằng họ sẽ cấp phép các mô hình hình ảnh AI từ công ty khởi nghiệp Midjourney. Trong khi đó, Black Forest Labs, một công ty khởi nghiệp của Đức được a16z hậu thuẫn, tiếp tục thống trị các điểm chuẩn với các mô hình hình ảnh AI FLUX của mình.
Có lẽ trình chỉnh sửa hình ảnh AI ấn tượng của Gemini có thể giúp Google thu hẹp khoảng cách người dùng với OpenAI. ChatGPT hiện ghi nhận hơn 700 triệu người dùng hàng tuần. Trong cuộc họp báo cáo thu nhập của Google hồi tháng 7, CEO Sundar Pichai của gã khổng lồ công nghệ đã tiết lộ rằng Gemini có 450 triệu người dùng hàng tháng - ngụ ý rằng số lượng người dùng hàng tuần thậm chí còn thấp hơn.
Brichtova cho biết Google đã thiết kế mô hình hình ảnh này đặc biệt dựa trên các trường hợp sử dụng của người tiêu dùng, chẳng hạn như giúp người dùng hình dung các dự án nhà cửa và sân vườn của họ. Mô hình này cũng có "kiến thức thế giới" tốt hơn và có thể kết hợp nhiều tham chiếu trong một lời nhắc duy nhất; ví dụ, kết hợp hình ảnh ghế sofa, ảnh phòng khách và bảng màu thành một kết xuất thống nhất.
Mặc dù trình tạo hình ảnh AI mới của Gemini giúp người dùng dễ dàng tạo và chỉnh sửa hình ảnh chân thực hơn, công ty vẫn có những biện pháp bảo vệ hạn chế những gì người dùng có thể tạo ra. Google đã từng gặp khó khăn với các biện pháp bảo vệ của trình tạo hình ảnh AI. Có thời điểm, công ty đã phải xin lỗi vì Gemini tạo ra những hình ảnh người dùng không chính xác về mặt lịch sử, và đã khôi phục hoàn toàn trình tạo hình ảnh AI.
Hiện tại, Google cảm thấy họ đã đạt được sự cân bằng tốt hơn.
“Chúng tôi muốn trao cho người dùng quyền tự do sáng tạo để họ có thể lấy được những gì họ muốn từ các mô hình,” Brichtova nói. “Nhưng không phải lúc nào cũng được như ý.”
Phần AI tạo ra trong điều khoản dịch vụ của Google cấm người dùng tạo ra "hình ảnh thân mật không được đồng thuận". Những biện pháp bảo vệ tương tự dường như không tồn tại đối với Grok, nơi cho phép người dùng tạo ra những hình ảnh rõ ràng do AI tạo ra giống với những người nổi tiếng, chẳng hạn như Taylor Swift.
Để giải quyết vấn đề gia tăng hình ảnh deepfake, vốn có thể khiến người dùng khó phân biệt đâu là ảnh thật trên mạng, Brichtova cho biết Google áp dụng hình mờ trực quan cho hình ảnh do AI tạo ra, cũng như các mã định danh trong siêu dữ liệu. Tuy nhiên, người dùng lướt qua hình ảnh trên mạng xã hội có thể không tìm kiếm các mã định danh này.
Tính năng tạo video tóm tắt của Google NotebookLM đã hỗ trợ tiếng Việt
Chỉ khoảng một tháng sau khi ra mắt, Google đã nhanh chóng tung ra bản cập nhật lớn cho tính năng Video Overviews trên nền tảng NotebookLM, qua đó mang đến khả năng hỗ trợ đa ngôn ngữ và cải tiến chiều sâu nội dung. Đây được xem là một công cụ học tập hữu ích, giúp người dùng chuyển đổi các ghi chú và tài liệu phức tạp thành những video tóm tắt sinh động.
Bản cập nhật mới nhất cho phép tính năng Video Overviews hỗ trợ hơn 80 ngôn ngữ khác nhau, bao gồm tiếng Trung, Ý, Pháp, Bồ Đào Nha và cả tiếng Việt. Trước đây, tính năng này chỉ giới hạn ở tiếng Anh. Song song đó, các bản tóm tắt dạng âm thanh (Audio Overviews) cũng được cải tiến để có thời lượng dài hơn và nội dung sâu sắc, chi tiết hơn, tương tự như phiên bản tiếng Anh.
NotebookLM là một trong những công cụ học tập hiệu quả của Google, được thiết kế để phân tích và tóm tắt thông tin từ các tài liệu người dùng tải lên, giúp họ nắm bắt các khái niệm chính một cách nhanh chóng.
Điểm nổi bật của công cụ này là tính năng Video Overviews (tạm dịch: Tổng quan bằng video). Tính năng này sẽ tự động biến các nguồn tài liệu trong ghi chú của bạn thành một video trình chiếu gồm các slide do AI tường thuật. Trí tuệ nhân tạo sẽ tự động trích xuất hình ảnh, sơ đồ, trích dẫn và số liệu từ văn bản gốc để đưa vào video, chắt lọc những thông tin phức tạp thành nội dung dễ hiểu và hấp dẫn về mặt hình ảnh.

Hướng dẫn chi tiết cách tạo video tóm tắt
Để sử dụng tính năng này, người dùng cần có quyền chỉnh sửa đối với một ghi chú (notebook).
Chuẩn bị tài liệu: Mở một ghi chú có sẵn hoặc tạo một ghi chú mới, sau đó tải lên các tài liệu nguồn mà bạn muốn tóm tắt.
Bắt đầu tạo video: Trong bảng điều khiển “Studio”, hãy chọn “Video Overview” để bắt đầu quá trình tạo video mới. Quá trình này sẽ chạy ở chế độ nền, cho phép bạn thực hiện các tác vụ khác cùng lúc.
Tùy chỉnh nâng cao: Để tùy chỉnh, hãy nhấn vào menu ba chấm bên cạnh mục “Video Overviews” và chọn “Customize”. Tại đây, bạn có thể chọn ngôn ngữ đầu ra hoặc nhập một lời nhắc định hướng (steering prompt) để yêu cầu AI tập trung vào các chủ đề cụ thể, hướng đến một đối tượng khán giả nhất định hoặc cung cấp thêm bối cảnh cho video. Ngôn ngữ mặc định sẽ được lấy từ cài đặt ngôn ngữ ưu tiên trong tài khoản Google của bạn.
Các lưu ý quan trọng
Tính chính xác: Video, bao gồm cả giọng nói và hình ảnh, đều do AI tạo ra và có thể chứa thông tin không chính xác hoặc lỗi âm thanh.
Thời gian tạo: NotebookLM có thể mất một khoảng thời gian để hoàn thành video.
Hạn chế thiết bị: Tính đến thời điểm hiện tại, ứng dụng NotebookLM trên di động chưa hỗ trợ tính năng tạo video.
Quản lý và chia sẻ video
Sau khi video được tạo, bạn có thể điều khiển trình phát bằng cách thay đổi tốc độ, tua tới hoặc lùi bằng thanh trượt, và xem ở chế độ toàn màn hình. Để chia sẻ thành quả, người dùng có ba tùy chọn chính:
Chia sẻ bằng liên kết: Chọn “Share” trong trình phát video. Bạn cần đảm bảo ghi chú được đặt ở chế độ công khai (“Anyone with a link”) và người xem có quyền truy cập vào toàn bộ ghi chú (“full notebook”). Lưu ý, việc chia sẻ ghi chú công khai hiện chỉ dành cho tài khoản người dùng cá nhân, chưa hỗ trợ tài khoản Workspace Enterprise hoặc Education.
Chia sẻ toàn bộ ghi chú: Bạn có thể chia sẻ toàn bộ ghi chú của mình cho người khác. Họ sẽ truy cập được video trong bảng điều khiển “Studio”.
Tải video về máy: Chọn “Download” để tải video về máy dưới dạng một tệp tin MP4 và chia sẻ trực tiếp.
Những thay đổi này đang được triển khai trên toàn cầu cho người dùng NotebookLM và dự kiến sẽ hoàn tất trong tuần tới.
📬 Nếu thấy bản tin hữu ích?
Hãy chia sẻ đến cộng đồng sáng tạo mà bạn yêu quý – và giúp TAG có thêm động lực lan toả sức mạnh của AI đến nhiều người hơn nữa! và đừng quên theo dõi Fanpage THE AI GROWTH để cập tin nha hơn nhé!
Và nếu bạn muốn nâng cấp kiến thức và sở hữu cho mình một hệ thống AI Agent cực đỉnh vận hành tự động cho cá nhân hay chính doanh nghiệp của mình đừng quên xem ngay các khóa học mới nhất của TAG
[KHÓA HỌC NÂNG CAO XÂY DỰNG AI AGENTS CHO DOANH NGHIỆP]: https://www.facebook.com/share/p/1ahMsEsSUy/
Một hệ thống giúp bạn:
Giảm 70% công việc lặp lại, tăng 300% output nội dung, tự động hóa 80% quy trình sale & marketing.
Tăng 40% chuyển đổi nhờ AI chatbot, giảm 60% chi phí marketing, nâng 200% chất lượng CSKH.
Vượt trội đối thủ 2-3 năm về công nghệ, sở hữu mô hình kinh doanh – dễ nhân bản, khó bị sao chép bởi USP độc quyền.
Dễ dàng mở rộng (Scale up) không giới hạn – bạn có thể x10, x100 với AI Agent mà không cần thêm nhân sự.

Cảm ơn bạn đã đồng hành cùng The AI Growth!
Trân trọng,
The AI Growth Team
Kiến tạo giá trị – Dẫn dắt cuộc chơi!