• The AI Growth
  • Posts
  • ChatGPT O3, O4-mini “bịa thông tin” nhiều hơn, sự thật có phải như thế?

ChatGPT O3, O4-mini “bịa thông tin” nhiều hơn, sự thật có phải như thế?

OpenAI vừa công bố O3 và O4-mini, hai mô hình AI mới sở hữu khả năng tư duy logic, nhưng lại gặp vấn đề nghiêm trọng

Welcome, Growth Pioneers! 🚀

Các mô hình AI o3 và o4-mini mới được ra mắt gần đây của OpenAI là những bước tiến đáng kể trong nhiều lĩnh vực. Tuy nhiên, các mô hình mới này vẫn còn hiện tượng “ảo giác”, bịa đặt thông tin

Theo nhiều chuyên gia và người dùng trải nghiệm, Gemini 2.5 Pro hiện đang là mô hình AI có khả năng lý giải và giải quyết vấn đề phức tạp tốt nhất trên thị trường, đặt ra một tiêu chuẩn mới cho trí tuệ nhân tạo.

_____________________________________________________________________

Trong bản tin hôm nay, bạn sẽ khám phá:

• ChatGPT O3, O4-mini “bịa thông tin” nhiều hơn, sự thật có phải như thế?

• 5 ưu điểm giúp Gemini 2.5 Pro trở thành mô hình lý luận tốt nhất hiện tại

OPENAI

ChatGPT O3, O4-mini “bịa thông tin” nhiều hơn, sự thật có phải như thế?

Các mô hình AI o3 và o4-mini mới được ra mắt gần đây của OpenAI là những bước tiến đáng kể trong nhiều lĩnh vực. Tuy nhiên, các mô hình mới này vẫn còn hiện tượng “ảo giác”, bịa đặt thông tin, thậm chí tần suất xảy ra tình trạng này đối với o3 và o4-mini còn nhiều hơn so với một số mô hình cũ của OpenAI.

Hiện tượng ảo giác của các mô hình AI, trên cả các LLM lẫn mô hình suy luận logic, đã trở thành một trong những vấn đề lớn nhất và khó giải quyết nhất trong lĩnh vực AI, ảnh hưởng đến ngay cả các hệ thống hiện đại tốt nhất. Theo truyền thống, mỗi mô hình mới được phát triển thường cải thiện khả năng giảm thiểu ảo giác so với phiên bản trước đó. Nhưng điều này dường như không đúng với o3 và o4-mini.

Theo kết quả kiểm tra nội bộ của OpenAI, o3 và o4-mini, các mô hình suy luận khác biệt với GPT-3 hay 4 của họ, có xu hướng bịa đặt thông tin thường xuyên hơn so với các mô hình suy luận trước đây của họ, cụ thể hơn là o1, o1-mini và o3-mini, cũng như các mô hình ngôn ngữ truyền thống, không có khả năng suy luận như GPT-4o.

Điều đáng lo ngại hơn cả, là nhà phát triển ChatGPT thực sự không rõ nguyên nhân gây ra hiện tượng này.

Cùng lúc, thông tin này được OpenAI công bố ngay sau khi họ tuyên bố rằng, khoảng thời gian thử nghiệm an toàn vận hành AI đối với những mô hình mới được họ phát triển giờ sẽ chỉ kéo dài vài tuần, thay vì khoảng 6 tháng như trước đây.

Các mô hình AI phổ biến hiện tại của ChatGPT -Nguồn: ChatGPT

Trong báo cáo kỹ thuật mới được công bố về o3 và o4-mini, OpenAI viết rằng "cần có thêm thời gian nghiên cứu" để hiểu tại sao tình trạng ảo giác lại trở nên tồi tệ hơn, khi họ mở rộng quy mô tham số của các mô hình lý luận. o3 và o4-mini hoạt động tốt hơn trong một số lĩnh vực nhất định, bao gồm các tác vụ liên quan đến lập trình và toán học. Tuy nhiên, vì chúng "đưa ra nhiều tuyên bố mang tính tổng thể" hơn, nên thường xảy ra tình trạng mô hình đưa ra “cả những tuyên bố chính xác lẫn những tuyên bố không chính xác/ảo giác”.

OpenAI nhận thấy rằng, o3 bịa đặt thông tin trong 33% số câu hỏi trên PersonQA, một công cụ kiểm tra nội bộ của công ty, với mục đích đo lường độ chính xác của mô hình về kiến thức chung của con người. Con số này cao hơn gần gấp đôi tỷ lệ tạo sinh nội dung ảo giác của các mô hình lý luận trước đây của OpenAI, o1 và o3-mini, với tỷ lệ lần lượt “chỉ” là 16% và 14.8%. o4-mini còn hoạt động tệ hơn trên PersonQA. Nó bịa đặt thông tin trong 48% số câu hỏi được người thử nghiệm đặt ra.

Các thử nghiệm độc lập của Transluce, một phòng thí nghiệm nghiên cứu AI phi lợi nhuận, cũng tìm thấy bằng chứng cho thấy o3 có xu hướng bịa đặt các hành động mà nó đã thực hiện để đưa ra câu trả lời. Trong một ví dụ, Transluce quan sát thấy o3 tuyên bố rằng, nó đã chạy mã trên một chiếc MacBook Pro 2021 "bên ngoài ChatGPT", sau đó sao chép các số vào câu trả lời của mình. Điều này hoàn toàn bất khả thi, mô hình của OpenAI không phải mã nguồn mở, chỉ chạy được trên máy chủ của họ hoặc các bên đã mua thương quyền API, chứ không phải MacBook Pro.

Một số công ty vẫn đang thử nghiệm O3 trong môi trường thực tế. Kian Katanforoosh, giảng viên tại Stanford và CEO của Workera, cho biết nhóm của ông đánh giá O3 cao hơn các đối thủ khi dùng trong quy trình lập trình. Tuy nhiên, họ cũng phát hiện mô hình này thường xuyên tạo ra các liên kết web bị hỏng.

Mặc dù đôi khi các câu trả lời mang tính “sáng tạo” từ AI có thể dẫn đến ý tưởng mới, nhưng trong các lĩnh vực như pháp lý hay tài chính, nơi đòi hỏi độ chính xác tuyệt đối, hiện tượng ảo giác lại là rào cản lớn. Một hướng tiếp cận đầy hứa hẹn là tích hợp tính năng tìm kiếm web vào mô hình AI. Ví dụ, GPT-4o có tìm kiếm đạt độ chính xác tới 90% trên SimpleQA, theo dữ liệu từ OpenAI. 

Đại diện OpenAI, ông Niko Felix, cho biết việc cải thiện độ chính xác và giảm ảo giác là ưu tiên nghiên cứu liên tục của công ty. Tuy nhiên, nếu việc mở rộng mô hình tư duy tiếp tục làm trầm trọng thêm vấn đề này, ngành AI sẽ phải đối mặt với một bài toán cấp thiết hơn bao giờ hết.

Trong bối cảnh các phương pháp huấn luyện truyền thống bắt đầu cho thấy hiệu suất giảm dần, nhiều hãng công nghệ đang chuyển hướng sang các mô hình tư duy. Dù tiết kiệm tài nguyên và hiệu quả ở nhiều nhiệm vụ, nhưng rõ ràng vẫn còn nhiều rào cản cần vượt qua để chúng thực sự đáng tin cậy.

GEMINI

5 ưu điểm giúp Gemini 2.5 Pro trở thành mô hình lý luận tốt nhất hiện tại

Vừa qua, Google đã thu hút sự chú ý lớn trong cộng đồng công nghệ với việc ra mắt Gemini 2.5 Pro, một mô hình ngôn ngữ AI được đánh giá cao về khả năng suy luận. Theo nhiều chuyên gia và người dùng trải nghiệm, Gemini 2.5 Pro hiện đang là mô hình AI có khả năng lý giải và giải quyết vấn đề phức tạp tốt nhất trên thị trường, đặt ra một tiêu chuẩn mới cho trí tuệ nhân tạo.

Theo trang MakeUseOf, sở dĩ Gemini 2.5 Pro được đánh giá cao như vậy là nhờ vào 5 ưu điểm cốt lõi, giúp nó vượt trội trong việc xử lý thông tin và đưa ra kết luận logic. Những ưu điểm của hô mình này bao gồm khả năng suy luận đa phương, cửa sổ ngữ cảnh cực lớn, tốc độ và hiệu quả, v.v.

Khả năng suy luận đa phương thức cực mạnh (Unmatched Multimodal Reasoning)

Điểm nổi bật hàng đầu của Gemini 2.5 Pro là khả năng xử lý và suy luận đồng thời trên nhiều định dạng dữ liệu khác nhau như văn bản, hình ảnh và video. Mô hình này có thể “nhìn”, “đọc” và “suy nghĩ” kết hợp thông tin từ các nguồn đa dạng, tương tự như cách con người tổng hợp thông tin. Từ việc phân tích biểu đồ, diễn giải tài liệu chứa hình ảnh, đến hiểu nội dung video cả về hình ảnh lẫn âm thanh, Gemini 2.5 Pro cho thấy sự liền mạch và tinh tế trong việc đưa ra kết luận chính xác.

Nguồn: Vatvostudio

Cửa sổ ngữ cảnh cực lớn (Long Context Window)

Với khả năng xử lý lên đến 1 triệu token (và dự kiến tăng lên 2 triệu trong tương lai), Gemini 2.5 Pro có thể tiếp nhận và ghi nhớ một lượng thông tin khổng lồ. Điều này tương đương với việc đọc và hiểu toàn bộ cuốn sách, các tài liệu nghiên cứu dài, kho mã nguồn phức tạp hay lịch sử trò chuyện kéo dài mà không bị “quên” các chi tiết quan trọng. Khả năng duy trì ngữ cảnh sâu rộng này là yếu tố then chốt cho các tác vụ đòi hỏi suy luận phức tạp trong lĩnh vực pháp lý, nghiên cứu khoa học và phân tích dữ liệu doanh nghiệp.

Nguồn: Gemini

Tốc độ và Hiệu quả (Surprisingly Fast and Efficient)

Thông thường, các mô hình AI mạnh mẽ đòi hỏi tài nguyên tính toán lớn và có độ trễ cao. Tuy nhiên, Gemini 2.5 Pro đã phá vỡ định kiến này. Mô hình mang lại hiệu suất suy luận hàng đầu, có thể thực hiện các tác vụ phức tạp như giải toán từng bước, đánh giá lập luận, nhưng vẫn đảm bảo tốc độ phản hồi nhanh chóng, đủ để ứng dụng trong các hệ thống thời gian thực.

Khả năng suy luận mã nguồn thông minh hơn (Smarter Code Reasoning)

Gemini 2.5 Pro không chỉ dừng lại ở việc tạo mã theo yêu cầu. Mô hình này thể hiện sự hiểu biết sâu sắc về logic lập trình, nguyên tắc phát triển phần mềm và cách thức hoạt động của mã nguồn. Nó có thể tự đọc tài liệu kỹ thuật để học cách sử dụng thư viện, đề xuất sửa lỗi logic, và kết nối các tập lệnh, công cụ một cách thông minh, mô phỏng quy trình làm việc của lập trình viên chuyên nghiệp, trở thành trợ lý đắc lực cho các nhà phát triển.

Nguồn: MakeUseOf

Xử lý tốt về sự mơ hồ và không chắc chắn (Better Handling of Ambiguity and Uncertainty)

Theo MakeUseOf, khả năng suy luận hiệu quả trên các mô hình AI đòi hỏi chúng phải có khả năng đối phó với những thông tin không đầy đủ hoặc không rõ ràng. Đáng chú ý, Gemini 2.5 Pro có thể nhận diện sự mơ hồ trong câu hỏi của người dùng, chủ động đặt câu hỏi làm rõ khi cần, và đưa ra các phân tích dựa trên xác suất khi đối mặt với dữ liệu không chắc chắn. Điều này cực kỳ quan trọng trong các lĩnh vực như y tế, tài chính, nơi việc ra quyết định thường dựa trên thông tin không hoàn hảo.

Nguồn: MakeUseOf

Với sự kết hợp giữa khả năng suy luận đa phương thức, bộ nhớ ngữ cảnh lớn, tốc độ xử lý nhanh, hiểu biết sâu về mã nguồn và khả năng xử lý những câu hỏi không chắc chắn từ phía người dùng, Google Gemini 2.5 Pro đang định hình lại những gì một mô hình AI có thể làm được. Nó không chỉ cung cấp thông tin mà còn thực sự “suy nghĩ”, mở ra tiềm năng lớn cho việc giải quyết các vấn đề phức tạp trong thế giới thực và hứa hẹn những bước tiến xa hơn của trí tuệ nhân tạo trong tương lai.

Tương lai nội dung là do AI kiến ​​tạo – Ai cập nhật sớm, là người làm chủ cuộc chơi.

Và nếu bạn muốn tiếp tục cập nhật và đào sâu kiến thức AI cho bản thân hoặc đội ngũ của mình, đừng bỏ lỡ các khóa học AI chuyên sâu và tài nguyên mà The AI Growth (TAG) đang cung cấp. Cơ hội để bạn dẫn đầu xu hướng AI ngay hôm nay!

👉 Khám phá khóa học AI mới nhất tại TAG: LINK KHÓA HỌC

📬 Nếu bạn thấy email này hữu ích, hãy chia sẻ cho cộng đồng sáng tạo của bạn!
Để TAG có thêm động lực tiếp tục cập nhật các tin tức mới nhất và hot nhất về chuyển động AI hiện tại!

Cám ơn đã đồng hành cùng TAG Chúc bạn thành công trên hành trình chinh phục AI,

The AI Growth Team ❤️

Bạn nghĩ nội dung hôm nay thế nào? Trước khi bạn rời đi, chúng tôi rất mong muốn biết ý kiến của bạn về bản tin hôm nay để giúp TAG cải thiện trải nghiệm nội dung cho bạn.

Login or Subscribe to participate in polls.