- The AI Growth
- Posts
- Alibaba tung ai mã nguồn mở Qwen3: tuyên bố mạnh hơn OpenAI o1, DeepSeek R1
Alibaba tung ai mã nguồn mở Qwen3: tuyên bố mạnh hơn OpenAI o1, DeepSeek R1
Ngoài ra, chi phí ẩn trong triển khai AI: Tại sao mô hình Claude có thể đắt hơn 20-30% so với GPT trong môi trường doanh nghiệp


Welcome, Growth Pioneers! 🚀
Gã khổng lồ công nghệ Trung Quốc Alibaba vừa chính thức tung ra Qwen3, một loạt mô hình ngôn ngữ lớn đa phương thức (LLMM) mã nguồn mở mới nhất, thông qua nhóm nghiên cứu Qwen của mình. Qwen3-235B-A22B, được tuyên bố là vượt trội hơn cả mô hình mã nguồn mở DeepSeek R1 lẫn mô hình độc quyền o1 mới nhất của OpenAI
Khi đánh giá chi phí triển khai các mô hình ngôn ngữ lớn (LLMs) trong môi trường doanh nghiệp, nhiều tổ chức thường chỉ tập trung vào giá tính theo token được công bố. Tuy nhiên, có một yếu tố thường bị bỏ qua nhưng lại ảnh hưởng lớn đến tổng chi phí vận hành: hiệu quả token hóa (tokenization efficiency)
__________________________________
Trong bản tin hôm nay, bạn sẽ được khám phá:
• Alibaba tung ai mã nguồn mở Qwen3: tuyên bố mạnh hơn OpenAI o1, DeepSeek R1
• Chi phí ẩn trong triển khai AI: Tại sao mô hình Claude có thể đắt hơn 20-30% so với GPT trong môi trường doanh nghiệp
• Trình tạo podcast AI của Google vừa hỗ trợ cả tiếng Việt, giúp tạo ra các nội dung podcast chỉ trong vài nốt nhạc
QWEN3
Alibaba tung ai mã nguồn mở Qwen3: tuyên bố mạnh hơn OpenAI o1, DeepSeek R1
Gã khổng lồ công nghệ Trung Quốc Alibaba vừa chính thức tung ra Qwen3, một loạt mô hình ngôn ngữ lớn đa phương thức (LLMM) mã nguồn mở mới nhất, thông qua nhóm nghiên cứu Qwen của mình.
Nguồn: venturebeat
Đáng chú ý, phiên bản MoE (Mixture of Experts) lớn nhất trong dòng này, Qwen3-235B-A22B, được tuyên bố là vượt trội hơn cả mô hình mã nguồn mở DeepSeek R1 lẫn mô hình độc quyền o1 mới nhất của OpenAI trên các bài kiểm tra benchmark quan trọng, đồng thời tiệm cận hiệu năng của Google Gemini 2.5-Pro. Động thái này tiếp tục khẳng định vị thế hàng đầu của Trung Quốc trong lĩnh vực AI mã nguồn mở và gia tăng sức ép cạnh tranh lên các đối thủ phương Tây.
Kiến trúc MoE, Suy luận Hybrid và Loạt mô hình đa dạng
Dòng Qwen3 bao gồm tổng cộng 8 mô hình mới, phục vụ nhiều nhu cầu khác nhau. Hai mô hình lớn nhất sử dụng kiến trúc Mixture-of-Experts (MoE) – một kỹ thuật hiệu quả giúp kích hoạt các "chuyên gia" нейрон phù hợp nhất cho từng tác vụ thay vì toàn bộ mạng lưới, giúp tiết kiệm tài nguyên khi suy luận (inference). Các mô hình MoE bao gồm bản 235 tỷ tham số (với 22 tỷ tham số hoạt động) và bản 30 tỷ tham số (với 3 tỷ tham số hoạt động). Sáu mô hình còn lại là các mô hình "dày đặc" (dense) truyền thống với kích thước từ 0.6 tỷ đến 32 tỷ tham số, phù hợp cho việc triển khai trên các thiết bị từ laptop đến cụ máy chủ.
Một tính năng độc đáo được giới thiệu là khả năng "Suy luận Hybrid" (Hybrid Reasoning) hay "Suy luận Động" (Dynamic Reasoning). Nó cho phép người dùng chủ động chuyển đổi giữa chế độ phản hồi nhanh, chính xác thông thường và chế độ "Suy nghĩ" (Thinking Mode) tốn nhiều tài nguyên tính toán hơn cho các câu hỏi phức tạp trong lĩnh vực khoa học, toán học, kỹ thuật... Người dùng có thể kích hoạt chế độ này qua nút bấm trên giao diện Qwen Chat hoặc bằng các prompt đặc biệt.
Các mô hình Qwen3 cũng được cải thiện đáng kể về khả năng đa ngôn ngữ, hiện hỗ trợ tới 119 ngôn ngữ và phương ngữ. Chúng được huấn luyện trên một tập dữ liệu khổng lồ ~36 nghìn tỷ token (gấp đôi Qwen2.5) bao gồm dữ liệu web, tài liệu và cả dữ liệu tổng hợp.
Nguồn: venturebeat
Việc Qwen3 được phát hành dưới giấy phép Apache 2.0 rất thông thoáng (cho phép sử dụng thương mại không giới hạn) là một lợi thế lớn so với các mô hình mã nguồn mở khác như Llama của Meta (vốn có các điều khoản hạn chế hơn). Điều này, kết hợp với các ưu điểm kỹ thuật, khiến Qwen3 trở thành một lựa chọn hấp dẫn cho các doanh nghiệp và nhà phát triển:
Hiệu năng cao, chi phí thấp: Mô hình MoE lớn cung cấp khả năng suy luận ngang ngửa GPT-4 với chi phí bộ nhớ GPU chỉ tương đương mô hình dense 20-30 tỷ tham số.
Dễ tích hợp: Hỗ trợ các framework phổ biến và cung cấp điểm cuối tương thích với OpenAI, giúp chuyển đổi dễ dàng.
Tùy chỉnh linh hoạt: Hỗ trợ chính thức LoRA/QLoRA cho phép doanh nghiệp tự tinh chỉnh mô hình trên dữ liệu riêng mà không cần gửi dữ liệu cho bên thứ ba.
Kiểm soát và Bảo mật: Triển khai tại chỗ (on-premises) cho phép ghi log và kiểm tra toàn bộ prompt/output; kiến trúc MoE cũng giúp giảm bề mặt tấn công khi suy luận.
Sự xuất hiện của Qwen3 cung cấp một giải pháp thay thế mã nguồn mở mạnh mẽ và khả thi không chỉ so với các mô hình độc quyền của Mỹ mà còn cả với các đối thủ Trung Quốc khác như DeepSeek, Tencent hay ByteDance. Nó cho thấy cuộc đua cung cấp các mô hình AI ngày càng mạnh mẽ và dễ tiếp cận vẫn diễn ra vô cùng quyết liệt.
Chi phí ẩn trong triển khai AI: Tại sao mô hình Claude có thể đắt hơn 20-30% so với GPT trong môi trường doanh nghiệp
Khi đánh giá chi phí triển khai các mô hình ngôn ngữ lớn (LLMs) trong môi trường doanh nghiệp, nhiều tổ chức thường chỉ tập trung vào giá tính theo token được công bố. Tuy nhiên, có một yếu tố thường bị bỏ qua nhưng lại ảnh hưởng lớn đến tổng chi phí vận hành: hiệu quả token hóa (tokenization efficiency).
Trong bài viết này, chúng ta sẽ cùng phân tích chi tiết về sự khác biệt trong cách các mô hình như Claude 3.5 Sonnet của Anthropic và GPT-4o của OpenAI xử lý token và tại sao Claude, dù có vẻ rẻ hơn trên giấy tờ, thực tế lại tốn kém hơn đến 30% trong một số trường hợp sử dụng.
Tokenization là gì và vì sao nó quan trọng?
Tokenization là quá trình chuyển đổi văn bản thành các đơn vị nhỏ hơn (tokens) mà mô hình AI có thể hiểu và xử lý. Mỗi mô hình sử dụng một bộ mã hóa riêng biệt — và sự khác biệt trong bộ mã hóa này có thể khiến cùng một đoạn văn bản bị chia nhỏ ra thành nhiều token hơn hoặc ít hơn tùy theo mô hình.
➡️ Điều này có nghĩa: số lượng token không phải lúc nào cũng giống nhau cho cùng một đầu vào, dẫn đến chi phí xử lý khác biệt dù giá token là như nhau.
Claude rẻ hơn… nhưng thực tế lại đắt hơn?
Vào tháng 6/2024, bảng giá API của Claude 3.5 Sonnet và GPT-4o cho thấy:
Giá token đầu ra (output): gần như tương đương.
Giá token đầu vào (input): Claude rẻ hơn GPT khoảng 40%.
Nguồn: Vantage
Tuy nhiên, trong các thử nghiệm thực tế với cùng một tập prompt, Claude lại tốn chi phí cao hơn GPT-4o từ 20–30%.Nguyên nhân chính: "Token hóa phình to" (Tokenizer inefficiency)
Claude có xu hướng phân tách văn bản đầu vào thành nhiều token hơn GPT. Dù giá mỗi token rẻ hơn, nhưng tổng số token bị tính phí lại cao hơn, dẫn đến chi phí tổng tăng.
Sự kém hiệu quả của tokenizer” ẩn giấu
Mặc dù tỷ lệ mã thông báo đầu vào của mô hình Anthropic thấp hơn, nhưng tổng chi phí chạy thử nghiệm (trên một tập hợp các lời nhắc cố định nhất định) với GPT-4o rẻ hơn nhiều khi so sánh với Claude Sonnet-3.5.
Tokenizer của Anthropic có xu hướng chia nhỏ cùng một đầu vào thành nhiều token hơn so với tokenizer của OpenAI. Điều này có nghĩa là, đối với các lời nhắc giống hệt nhau, các mô hình Anthropic tạo ra nhiều token hơn đáng kể so với các mô hình OpenAI tương ứng. Do đó, trong khi chi phí cho mỗi token cho đầu vào của Claude 3.5 Sonnet có thể thấp hơn, thì việc tăng tokenization có thể bù đắp cho những khoản tiết kiệm này, dẫn đến tổng chi phí cao hơn trong các trường hợp sử dụng thực tế.
Chi phí ẩn này bắt nguồn từ cách mã hóa thông tin của Anthropic, thường sử dụng nhiều mã thông báo hơn để biểu diễn cùng một nội dung. Lạm phát số lượng mã thông báo có tác động đáng kể đến chi phí và việc sử dụng cửa sổ ngữ cảnh.
So sánh mức độ “phình token” theo từng lĩnh vực
Theo nghiên cứu, sự khác biệt trong số lượng token giữa Claude 3.5 Sonnet và GPT-4o phụ thuộc vào lĩnh vực nội dung:
Nguồn: The Ai Growth
Với nội dung kỹ thuật (mã nguồn, toán học), Claude có mức “phình token” nghiêm trọng hơn do cách xử lý các ký hiệu, khoảng trắng, và cú pháp đặc biệt.
Một hệ quả khác của việc tạo nhiều token là giảm không gian khả dụng trong context window — tức số lượng token tối đa mà mô hình có thể xử lý trong một lần.
Claude 3.5 Sonnet: context window 200K tokens
GPT-4o: context window 128K tokens
Tuy nhiên, vì Claude tiêu tốn nhiều token hơn cho cùng một nội dung, khả năng thực tế tận dụng context window bị giảm đáng kể, làm hạn chế hiệu suất trong các tác vụ yêu cầu xử lý văn bản dài.
Việc Claude sử dụng tokenizer riêng và không minh bạch làm cho việc ước lượng chi phí và tối ưu hóa prompt khó khăn hơn đáng kể cho các doanh nghiệp.
Trình tạo podcast AI của Google vừa hỗ trợ cả tiếng Việt, giúp tạo ra các nội dung podcast chỉ trong vài nốt nhạc
Google vừa thông báo mở rộng tính năng Audio Overviews cho hơn 50 ngôn ngữ, bao gồm tiếng Việt giúp biến các nguồn tài liệu của người dùng thành những cuộc hội thoại hấp dẫn giống như podcast.
Nguồn: Google
Năm 2024, Google đã triển khai NotebookLM đến hơn 200 quốc gia, và giờ đây, tính năng Audio Overviews được mở rộng thêm hơn 50 ngôn ngữ, bao gồm cả tiếng Việt.
Cuối năm ngoái, tính năng Audio Overviews (Tổng quan bằng âm thanh) của NotebookLM đã tạo được hiệu ứng tốt đối với người dùng nhờ khả năng biến các nguồn tài liệu của họ thành những cuộc hội thoại hấp dẫn giống như podcast. Giờ đây, với khả năng hỗ trợ âm thanh gốc của mô hình Gemini, ngày càng nhiều người có thể sử dụng tính năng này bằng ngôn ngữ chính của họ, từ tiếng Afrikaans, tiếng Hindi đến tiếng Thổ Nhĩ Kỳ, tiếng Việt và nhiều ngôn ngữ khác. Google cho biết tính năng này chỉ mới ở giai đoạn ban đầu và hãng dự định sẽ tiếp tục xây dựng và hoàn thiện nó dựa trên phản hồi của người dùng.
Tính năng Audio Overviews sẽ đưa thông tin theo ngôn ngữ được cài đặt ưu tiên trong tài khoản của người dùng. Bản cập nhật này kèm theo tùy chọn "Ngôn ngữ đầu ra" mới trong mục cài đặt của NotebookLM; và tính năng Audio Overviews sẽ đưa thông tin theo ngôn ngữ mà bạn chọn. Bạn có thể thay đổi ngôn ngữ của âm thanh và câu trả lời bất kỳ lúc nào để có thể tạo nội dung đa ngôn ngữ hoặc tạo tài liệu học tập bằng ngôn ngữ khác khi cần.
Google cũng đã đưa Audio Overviews vào chatbot Gemini AI và Google Docs, cho phép bạn chuyển đổi nhiều loại tài liệu văn bản hơn thành podcast AI.
Hy vọng những tin tức và kiến thức trên mang đến cho bạn nhiều góc nhìn mới mẻ về biến động về AI hiện tại!
Nếu bạn muốn tiếp tục cập nhật kiến thức mới nhất, hoặc đào sâu ứng dụng AI cho bản thân hay đội ngũ – đặc biệt trong lĩnh vực Marketing, SEO và Social Media, đừng bỏ qua các khóa học chuyên sâu và tài nguyên thực chiến từ The AI Growth (TAG):
🔧Giảm 90% chi phí & X5 tốc độ lên ý tưởng và triển khai content hiện tại!
📈Tăng Traffic gấp 10 lần với Semantic Content Framework
🧠Đi đầu tối ưu AI Search Engine như ChatGPT Search, Perplexity AI, Google AI Overview,....
⚙️ Tự động hóa 70% quy trình nội dung – triển khai AI Agent xu hướng hiện nay như Make, N8n một cách chuyên nghiệp.
Đặc biệt: Cơ hội tham gia cộng đồng AI Thực Chiến – Hỗ trợ trọn đời, đồng hành cùng bạn vượt mọi thách thức!
Tham khảo khóa học ngay tại đây: LINK KHÓA HỌC
Cảm ơn bạn đã đồng hành cùng TAG.
Hẹn gặp lại trong bản tin tuần sau – nơi chúng ta không chỉ sử dụng AI, mà còn làm chủ cuộc chơi.
Trân trọng,
The AI Growth Team
Bạn nghĩ nội dung hôm nay thế nào? Trước khi bạn rời đi, chúng tôi rất mong muốn biết ý kiến của bạn về bản tin hôm nay để giúp TAG cải thiện trải nghiệm nội dung cho bạn. |