• The AI Growth
  • Posts
  • Gemini dẫn đầu bảng xếp hạng LLM

Gemini dẫn đầu bảng xếp hạng LLM

Ngoài ra: Cuộc đua AI đang bùng nổ với cải tiến vượt bậc và cam kết minh bạch từ các ông lớn như Google, OpenAI, và AI2.

Welcome, Growth Pioneers! 🚀

Google ra mắt Gemini-exp-1121, vượt OpenAI để đứng đầu LM Arena với cải tiến lớn trong code, toán học, và lập luận. Cuộc đua gay gắt giữa hai ông lớn với các bản phát hành liên tục.

Anthropic giới thiệu công cụ tinh chỉnh prompt giúp tối ưu câu lệnh AI bằng kỹ thuật prompt engineering, nâng cao độ chi tiết và hiệu quả của đầu ra. Viện AI Allen ra mắt Tülu 3 dựa trên Llama 3.1, hiệu suất cao, điểm an toàn tốt, và công khai toàn bộ dữ liệu. Đây là cột mốc lớn về minh bạch trong AI.

Email Newsletter này sẽ đề cập:

  • Gemini giành lại vị trí dẫn đầu trên bảng xếp hạng LLM

  • Nâng cao độ chính xác của prompt với công cụ cải tiến prompt của Anthropic

  • Những tiêu chuẩn mới trong Open AI

GEMINI
GEMINI DÀNH LẠI VỊ TRÍ DẪN ĐẦU TRÊN BẢNG XẾP HẠNG LLM

Nguồn: LM Arena AI

Mô hình thử nghiệm Gemini mới nhất của Google (1121) vừa giành lại vị trí dẫn đầu trong bảng xếp hạng hiệu suất AI của LM Arena, đánh dấu sự thay đổi thứ ba giữa OpenAI và Google chỉ trong tuần qua.

Gemini-exp-1121 mới của Google cho thấy những cải tiến lớn trên các chỉ số chính, chiếm vị trí đầu tiên trong các hạng mục viết code, toán học, viết sáng tạo và các câu hỏi khó.

Các bản phát hành nhanh chóng bắt đầu với phiên bản 1114 của Google dẫn đầu vào ngày 14 tháng 11, tiếp theo là 'anonymous-chatbot' (GPT-4o được cập nhật) vài ngày sau đó.

Phiên bản mới nhất của Gemini cải thiện 20 điểm so với phiên bản tiền nhiệm, củng cố vị trí của mình trong các tác vụ thị giác đồng thời cải thiện khả năng lập luận.

Bản cập nhật của OpenAI ưu tiên khả năng viết sáng tạo và sử dụng tệp, mặc dù phân tích mới cho thấy tốc độ được cải thiện trong một số điểm chuẩn nhất định.

Nói về việc OpenAI và Google so kè nhau, sự cạnh tranh cũng lan sang cả bảng xếp hạng LLM. Trước đây, OpenAI đã duy trì các vị trí hàng đầu thông qua các bản cập nhật liên tục, nhưng Google dường như cũng đã tăng tốc độ phát hành. Lửa thử vàng, gian nan thử sức, cả trên chiến trường lẫn trong LM Arena.

Nguồn tham khảo: The Rundown

ANTHROPIC
NÂNG CAO ĐỘ CHÍNH XÁC CỦA PROMPT VỚI CÔNG CỤ CẢI TIẾN CỦA ANTHROPIC

Nguồn: Anthropic

Claude gần đây đã phát hành một công cụ cải tiến prompt mới, có khả năng tinh chỉnh prompt hiện có bằng các kỹ thuật prompt engineering như chain-of-thought reasoning.

Dưới đây là cách sử dụng:

  • Truy cập Anthropic’s Console và đăng ký/đăng nhập vào tài khoản của mình.

  • Chọn tùy chọn ‘Improve an existing prompt’ để truy cập trình tối ưu hóa prompt.

    Sau khi chọn Improve an existing prompt

  • Thêm một mẫu prompt và mô tả cách mình muốn cải thiện nó.

Trong mẫu, mình cần có ít nhất một {variable}. Đây là các giá trị giữ chỗ mà mình có thể thay thế và tái sử dụng trong prompt của mình.

Mẫu yêu cầu: Tạo bản nháp để tìm hiểu về chủ đề {nhập biến}

Yêu cầu cho phần ‘Bạn muốn cải thiện điều gì’: Làm cho đầu ra chi tiết

  • Bây giờ, hãy chọn ‘Improve Prompt’ và nhấp vào ‘Open in Workbench’ để thay thế {variables} bằng các chi tiết tùy chỉnh của mình.

  • Nhấp vào ‘Run’ sau khi prompt của mình đã sẵn sàng và mình đã hoàn tất.

OPENAI
NHỮNG TIÊU CHUẨN MỚI TRONG OPENAI

Nguồn: Tülu 3

Viện Allen về Trí tuệ Nhân tạo (AI2) vừa cho ra mắt một sản phẩm đặc biệt. Bộ mô hình Tülu 3 mới của họ không chỉ là một bản phát hành khác - mà còn là một tuyên bố về tính minh bạch trong AI. Được xây dựng trên nền tảng Llama 3.1 của Meta, những mô hình này mang đến những con số ấn tượng:

  • Hai phiên bản mạnh mẽ: 8B và 70B tham số

  • Hiệu suất vượt trội: Mô hình 70B đạt 93,5 trên GSM8K và 92,4% trên HumanEval

  • An toàn là trên hết: Đạt điểm 88,3 trong các bài đánh giá an toàn

  • Hoàn toàn mở: Tất cả dữ liệu đào tạo, mã đánh giá và phương pháp luận đều có sẵn

Đây là một trong những bản phát hành lớn đầu tiên công khai mọi thứ – từ dữ liệu đến mã đánh giá. Đó là một chiến thắng lớn cho tính minh bạch của AI.

Nguồn: Newsletter

PROMPT OF THE DAY (Prompt của ngày)

Nhờ AI tạo ra một chiến dịch quảng cáo Facebook hấp dẫn và hiệu quả cho dòng sản phẩm quần áo thể thao mới của một thương hiệu.

Tôi là người chạy quảng cáo trên Facebook, giúp tôi tạo chiến dịch quảng cáo Facebook hấp dẫn để quảng cáo dòng sản phẩm quần áo thể thao mới cho một thương hiệu thể thao. Tạo một bảng trình bày với các hình thức quảng cáo mang tính sáng tạo, bao gồm nội dung quảng cáo, hình ảnh và mục tiêu chiến lược.

Tống Long

Bạn nghĩ nội dung hôm nay thế nào?

Trước khi bạn rời đi, chúng tôi rất mong muốn biết ý kiến của bạn về bản tin hôm nay để giúp TAG cải thiện trải nghiệm nội dung cho bạn.

Login or Subscribe to participate in polls.

Cảm ơn bạn đã lắng nghe!

Hẹn gặp bạn ở lần tới.

The AI Growth Team 😄 😄 ❤️