• The AI Growth
  • Posts
  • DeepSeek-OCR ra mắt: "Mắt thần" AI đọc hiểu tài liệu, tuyên bố hiệu quả gấp 20 lần con người

DeepSeek-OCR ra mắt: "Mắt thần" AI đọc hiểu tài liệu, tuyên bố hiệu quả gấp 20 lần con người

Ngoài ra, 4 câu lệnh tạo ảnh profile “tuyệt đối điện ảnh” bằng Gemini AI

Welcome, Growth Pioneers! 🚀

Chào bạn,

Startup trí tuệ nhân tạo (AI) DeepSeek của Trung Quốc một lần nữa gây bất ngờ cho giới công nghệ khi cho ra mắt DeepSeek-OCR, một mô hình AI đa phương thức mới với khả năng "đọc" và hiểu thông tin tài liệu theo một cách hoàn toàn mới. Thay vì xử lý văn bản theo cách truyền thống, mô hình này sử dụng thị giác máy tính để nén thông tin hình ảnh, giúp giảm đáng kể chi phí tính toán trong khi vẫn giữ được độ chính xác vượt trội.

Phương Pháp Tiếp Cận Đột Phá: "Đọc" Bằng Thị Giác Thay Vì Ký Tự

Thách thức lớn nhất của các mô hình ngôn ngữ lớn (LLM) hiện nay là chi phí tính toán khổng lồ khi phải xử lý các văn bản dài. Các mô hình này hoạt động bằng cách chia văn bản thành các đơn vị nhỏ nhất gọi là "token". Một tài liệu càng dài, số lượng token càng lớn, và chi phí xử lý càng tăng theo cấp số nhân.

DeepSeek-OCR giải quyết bài toán này bằng một cách tiếp cận đột phá. Thay vì "đọc" từng chữ, mô hình này chuyển đổi toàn bộ nội dung văn bản thành dạng hình ảnh, sau đó sử dụng khả năng nhận thức thị giác để nén thông tin lại. Quá trình này tương tự như cách con người đọc một trang sách bằng cách lướt qua toàn bộ đoạn văn, thay vì phải đánh vần từng ký tự.

Mô hình AI mới nhất của DeepSeek vừa ra mắt với tuyên bố có thể đọc hiểu ngữ cảnh phức tạp trong hình ảnh, ví dụ nhận ra người nào là cô giáo trong hình ảnh vẽ về lớp học

Kết quả mà DeepSeek công bố cho thấy, mô hình có thể giảm số lượng token cần xử lý từ 7 đến 20 lần so với các phương pháp truyền thống. Đây là một bước tiến mang tính cách mạng, hứa hẹn sẽ giải quyết được bài toán về "ngữ cảnh dài" (long context) vốn đang làm đau đầu toàn bộ ngành AI.
Hơn thế nữa, DeepSeek-OCR không chỉ đọc chữ. Nó có khả năng hiểu được toàn bộ bố cục, cấu trúc và ngữ nghĩa của một trang tài liệu, bao gồm cả các bảng biểu, công thức toán học, sơ đồ hình học và hình ảnh bên trong.

Kiến Trúc Kỹ Thuật Đằng Sau "Mắt Thần"

Về mặt kỹ thuật, DeepSeek-OCR bao gồm hai thành phần chính. Thành phần đầu tiên là DeepEncoder, một động cơ nén quang học cốt lõi. Nó có khả năng biến hàng nghìn mảnh hình ảnh thành một bản đồ trực quan chỉ gồm 100-200 token hình ảnh tinh gọn, đồng thời duy trì mức kích hoạt thấp ngay cả khi xử lý đầu vào có độ phân giải cao.

Thành phần thứ hai là bộ giải mã DeepSeek3B-MoE-A570M, một mô hình "Hỗn hợp chuyên gia" (Mixture-of-Experts) có nhiệm vụ tái tạo lại văn bản gốc từ các token hình ảnh đã được nén. Kiến trúc MoE cho phép hệ thống chỉ kích hoạt các mạng con chuyên biệt cần thiết để xử lý dữ liệu, giúp tối ưu hóa hiệu suất mà không cần phải huy động toàn bộ mô hình.


Một ví dụ khác về hình ảnh phức tạp như bài tập hóa học kèm với cấu tạo hóa học của hợp chất cũng được AI mới của DeepSeek nhận biết

Hiệu Suất Vượt Trội và Khả Năng Mở Rộng

Để đạt được khả năng "đọc hiểu" đa dạng, mô hình này đã được huấn luyện trên một tập dữ liệu khổng lồ, bao gồm hơn 30 triệu trang PDF bằng 100 ngôn ngữ khác nhau, 10 triệu mẫu OCR cảnh tự nhiên, 10 triệu biểu đồ và hàng triệu công thức toán học, hóa học.

Trong các bài kiểm tra chuẩn, DeepSeek-OCR cho thấy khả năng bảo toàn thông tin mạnh mẽ. Khi tỷ lệ nén dưới 10 lần, mô hình đạt độ chính xác giải mã lên tới 97%. Ngay cả khi nén tới 20 lần, độ chính xác vẫn đạt khoảng 60%. Trên bộ dữ liệu OmniDocBench, DeepSeek-OCR đã vượt trội hơn các mô hình OCR hàng đầu khác trong khi sử dụng ít token hơn đáng kể. Cụ thể, nó chỉ cần khoảng 100 token hình ảnh cho mỗi trang, so với 6.000 token mà một số mô hình khác yêu cầu.

Điểm nổi bật nhất là tốc độ xử lý. Hệ thống này có thể tạo ra hơn 200.000 trang dữ liệu huấn luyện mỗi ngày chỉ với một card đồ họa NVIDIA A100-40G duy nhất, mở ra khả năng mở rộng quy mô chưa từng có.

Ý Nghĩa và Ứng Dụng Tiềm Năng

Động thái mới nhất này của DeepSeek hoàn toàn phù hợp với triết lý mà công ty đã theo đuổi qua các mô hình mã nguồn mở đột phá trước đó: nâng cao hiệu suất AI trong khi hạ thấp chi phí xây dựng và sử dụng.

Việc "nén quang học" có thể được xem là lời giải cho bài toán xử lý ngữ cảnh dài của các LLM. Giờ đây, một tài liệu có một triệu token văn bản có thể được "thu gọn" thành một bản đồ trực quan chỉ 100.000 token, mở đường cho một thế hệ AI mới có khả năng xử lý các tài liệu cực lớn.

Các ứng dụng tiềm năng của công nghệ này là rất rộng lớn. Việc phân tích tài liệu tài chính phức tạp, dịch thuật theo thời gian thực với đầy đủ ngữ cảnh trực quan, hay khả năng tiếp cận thông tin cho người khiếm thị giờ đây đều trở nên khả thi về mặt kinh tế. DeepSeek-OCR không chỉ là một bản nâng cấp OCR thông thường, mà là một sự thay đổi mang tính cách mạng trong cách máy móc nhận thức và xử lý dữ liệu.

4 câu lệnh tạo ảnh profile “tuyệt đối điện ảnh” bằng Gemini AI

Chỉ với một câu lệnh đơn giản trên Gemini, bạn có thể tạo ra bức chân dung chuẩn studio, đẹp đến khó rời mắt.

Gemini hiện đang được xem là một trong những nền tảng AI mạnh mẽ nhất khi nói đến xử lý hình ảnh. Điểm khiến công cụ này được yêu thích chính là khả năng tạo ra những bức ảnh profile vừa chân thực, vừa sắc nét lại mang tính cá nhân hóa cao. Không cần studio chuyên nghiệp, cũng chẳng cần thiết bị đắt tiền, chỉ với vài câu lệnh (prompt), người dùng đã có ngay những bức chân dung ấn tượng như được chụp trong không gian chuyên nghiệp.

Gemini hỗ trợ đa dạng phong cách, từ hiện đại, tối giản đến đậm chất điện ảnh, giúp bạn dễ dàng chọn lựa theo nhu cầu: từ ảnh hồ sơ công việc chỉnh chu, nghiêm túc cho đến avatar mạng xã hội độc lạ, cá tính. Đây cũng là lý do mà chỉ trong một thời gian ngắn, Gemini đã trở thành công cụ “ruột” của nhiều bạn trẻ muốn bắt kịp trend nhanh mà vẫn giữ được dấu ấn riêng.

Điểm cộng lớn nhất của Gemini là mức độ tùy chỉnh chi tiết. Người dùng có thể thoải mái lựa chọn phông nền, điều chỉnh ánh sáng, trang phục, biểu cảm khuôn mặt hay thậm chí thay đổi tỷ lệ khung hình. Nhờ vậy, mỗi bức ảnh không chỉ đẹp mà còn mang đậm dấu ấn cá nhân. Gần đây, phong cách nền đỏ và đen trắng đặc biệt được ưa chuộng vì vừa nổi bật vừa tinh tế, mang lại cảm giác sang trọng và khác biệt ngay từ cái nhìn đầu tiên.

Cách tạo ảnh profile nền đỏ bằng Gemini AI

Bước 1: Truy cập Gemini

Mở Google Gemini trên web hoặc ứng dụng, chọn mục “Tạo hình ảnh”.

Bước 2: Tải ảnh và nhập prompt

Chọn một bức chân dung của bạn, sau đó copy - paste các prompt gợi ý dưới đây để AI xử lý:

Hình 1:

“Transform the reference image into a vertical portrait shot in 1080x1920 format, maintaining the exact same facial features (do not alter the face). Convert the photo to black and white with dramatic studio lighting and deep shadows to create a bold, fashion editorial look. The subject is wearing a sleek black suit, with natural-style makeup tones that enhance facial details subtly. Hair is styled in a loose, low updo for a chic and modern feel. Shot with an 85mm portrait lens, shallow depth of field, ultra sharp facial details, smooth skin texture, soft gradient background blur. Lighting should mimic high-end studio photography with contrast and mood, evoking a magazine editorial aesthetic. Clean, stylish, elegant, and powerful.”

Hình 2:

“Vertical portrait, 1080x1920. Keep the same facial features. Subject wearing a black blazer. Stark cinematic lighting with strong contrast. Shot from a slightly low, upward angle to emphasize jawline and neck, evoking quiet dominance and sculptural elegance. Deep, saturated crimson red background for bold contrast against luminous skin and dark wardrobe.”

Hình 3:

“A hyper-realistic black-and-white studio portrait of the same woman in the uploaded personal photo. Keep her actual face and features exactly the same without any changes. She is sitting on a simple round stool, leaning slightly forward with her elbow resting on her knee, her head tilted and supported gently by her hand. She has a calm, soft expression. She is wearing a fitted sleeveless white ribbed tank top and high-waist denim jeans with stitched lettering detail.”

Hình 4:

“Tạo một bức ảnh chân dung dọc theo định dạng 1080x1920, với ánh sáng điện ảnh sắc nét và độ tương phản mạnh mẽ. Góc chụp hơi thấp, hướng lên trên nhằm làm nổi bật đường nét xương hàm và cổ của mẫu, tạo cảm giác uy quyền lặng lẽ và vẻ đẹp điêu khắc tinh tế. Phông nền là một màu đỏ thẫm, bão hòa mạnh, tạo nên sự đối lập thị giác ấn tượng với làn da sáng và trang phục tối màu của mẫu. Ánh sáng được chiếu theo một hướng nhất định, tạo điểm nhấn ánh vàng ấm ở một bên khuôn mặt, trong khi bên còn lại chìm trong bóng tối mềm mại, làm nổi bật cấu trúc xương với độ chính xác gần như kiến trúc. Người mẫu mặc vest đen lịch lãm và áo sơ mi đen. Góc chụp nửa thân trên.”

Bước 3: Chờ vài giây và lưu lại

AI sẽ trả về bức ảnh hoàn chỉnh chỉ trong chớp mắt. Bí kíp nhỏ là nên thử nhiều lần, vì mỗi lần Gemini sẽ tạo ra một phiên bản khác nhau, đôi khi bạn sẽ tìm được tấm ảnh “chuẩn gu” nhất.

📬 Nếu thấy bản tin hữu ích?
Hãy chia sẻ đến cộng đồng sáng tạo mà bạn yêu quý – và giúp TAG có thêm động lực lan toả sức mạnh của AI đến nhiều người hơn nữa! và đừng quên theo dõi Fanpage THE AI GROWTH để cập tin nha hơn nhé!

Và nếu bạn muốn nâng cấp kiến thức và sở hữu cho mình một hệ thống AI Agent cực đỉnh vận hành tự động cho cá nhân hay chính doanh nghiệp của mình đừng quên xem ngay các khóa học mới nhất của TAG

Một hệ thống giúp bạn:

  • Giảm 70% công việc lặp lại, tăng 300% output nội dung, tự động hóa 80% quy trình sale & marketing.

  • Tăng 40% chuyển đổi nhờ AI chatbot, giảm 60% chi phí marketing, nâng 200% chất lượng CSKH.

  • Vượt trội đối thủ 2-3 năm về công nghệ, sở hữu mô hình kinh doanh – dễ nhân bản, khó bị sao chép bởi USP độc quyền.

  • Dễ dàng mở rộng (Scale up) không giới hạn – bạn có thể x10, x100 với AI Agent mà không cần thêm nhân sự.

Cảm ơn bạn đã đồng hành cùng The AI Growth!

Trân trọng,
The AI Growth Team
Kiến tạo giá trị – Dẫn dắt cuộc chơi!