The AI Growth
Posts
Anthropic thách thức hacker tấn công hệ thống AI mới của mình

Anthropic thách thức hacker tấn công hệ thống AI mới của mình

Ngoài ra: Tự động hóa chuẩn bị cuộc họp với AI Agents

The AI Growth Team
February 06, 2025

Welcome, Growth Pioneers! 🚀

Anthropic thách thức hacker với AI bảo mật mới. Hệ thống Constitutional Classifiers của Anthropic chặn 95,6% cuộc tấn công jailbreak. Sau 3.000 giờ thử nghiệm, không ai phá vỡ được hệ thống. Thử nghiệm công khai đến 10/2.

Trợ lý AI của Lindy AI nghiên cứu người tham dự, thu thập email & gửi tóm tắt trước họp 15 phút. Meta ra mắt DivPO giúp AI linh hoạt hơn bằng cách tối ưu phản hồi đa dạng mà vẫn đảm bảo chất lượng. Ứng dụng cho chatbot, giáo dục, nghiên cứu & sáng tạo.

Email Newsletter này sẽ đề cập:

Anthropic thách thức hacker tấn công hệ thống AI mới của mình
Tự động hóa chuẩn bị cuộc họp với AI Agents
Meta ra mắt DivPO – Giải pháp tối ưu hóa đa dạng phản hồi cho AI

ANTHROPIC
ANTHROPIC THÁCH THỨC HACKER TẤN CÔNG HỆ THỐNG AI MỚI CỦA MÌNH

Nguồn: TAG

Anthropic vừa ra mắt hệ thống an toàn AI mang tên "Constitutional Classifiers" với kết quả đầy hứa hẹn và kêu gọi cộng đồng tham gia thử nghiệm sau khi hệ thống này vượt qua hơn 3.000 giờ tấn công mà không bị phá vỡ.

Chi tiết về hệ thống:

"Constitutional Classifiers" sử dụng trí tuệ nhân tạo (AI) để tự động tạo dữ liệu huấn luyện bằng nhiều ngôn ngữ và phong cách viết, giúp phát hiện các nỗ lực tấn công (jailbreak) đa dạng.
Trong thử nghiệm với 10.000 cuộc tấn công nâng cao, hệ thống đã chặn được 95,6% trường hợp, so với chỉ 14% trên phiên bản Claude không được bảo vệ.
183 chuyên gia săn lỗi bảo mật (bug bounty hunters) đã dành hơn 3.000 giờ cố gắng khai thác lỗ hổng để nhận phần thưởng 15.000 USD, nhưng không ai thành công trong việc phá vỡ hệ thống hoàn toàn.
Anthropic đang mở cửa thử nghiệm công khai đến ngày 10/2, mời cộng đồng kiểm tra khả năng bảo mật của hệ thống.

Khi AI ngày càng trở nên mạnh mẽ, việc ngăn chặn chúng bị lợi dụng để gây hại trở thành ưu tiên hàng đầu. Trong khi hầu hết các công ty chủ yếu tập trung vào việc huấn luyện AI để nâng cao tính an toàn, cách tiếp cận mới của Anthropic – sử dụng chính AI để phát hiện và ngăn chặn jailbreak – cho thấy tiềm năng lớn.

Việc mở thử nghiệm công khai cũng là một cách thể hiện cam kết của công ty trong việc đảm bảo an toàn cho AI.

AI AGENT
TỰ ĐỘNG HÓA CHUẨN BỊ CUỘC HỌP VỚI AI AGENT

Nguồn: Google

Lindy AI cho phép bất kỳ ai tạo trợ lý AI mà không cần lập trình, chẳng hạn như “Trợ lý Chuẩn bị Họp” có thể tự động nghiên cứu người tham dự, thu thập lịch sử email và gửi tóm tắt đầy đủ trước mỗi cuộc họp.

🔹 Dùng thử ngay tại đây: https://www.lindy.ai/

Cách thực hiện:

1️⃣ Truy cập https://www.lindy.ai/ và tạo quy trình tự động mới hoặc chọn mẫu có sẵn.
2️⃣ Thiết lập “Kích hoạt khi sự kiện trên lịch bắt đầu”, tùy chỉnh thời gian gửi tóm tắt trước cuộc họp.
3️⃣ Thêm điều kiện kiểm tra người tham dự bên ngoài và cấu hình các hành động nghiên cứu (tìm kiếm trên internet, quét lịch sử email…).
4️⃣ Cài đặt gửi email tóm tắt với tất cả thông tin đã thu thập.
5️⃣ Trợ lý AI có thể gửi tóm tắt 15 phút trước cuộc họp, giúp bạn có thêm thời gian chuẩn bị trong lịch trình dày đặc.

META
META RA MẮT DIVPO - GIẢI PHÁP TỐI ƯU HÓA ĐA DẠNG PHẢN HỒI CHO AI

Nguồn: Meta

Meta, hợp tác cùng các nhà nghiên cứu từ NYU và ETH Zurich, vừa giới thiệu Diverse Preference Optimization (DivPO) – một phương pháp mới giúp tăng cường tính đa dạng trong phản hồi của AI mà không làm giảm chất lượng.

🔹 Dùng thử ngay tại đây: 👉 Trải nghiệm DivPO

Diverse Preference Optimization (DivPO) là một phương pháp giúp cải thiện sự đa dạng trong phản hồi của AI mà không làm giảm chất lượng. Công nghệ này có thể được áp dụng trong nhiều lĩnh vực khác nhau, đặc biệt là trong việc phát triển các mô hình ngôn ngữ lớn (LLMs – Large Language Models).

Ứng dụng của DivPO trong thực tế:

Cải thiện chatbot AI & trợ lý ảo
Nâng cao chất lượng nội dung do AI tạo ra
Tối ưu hóa AI trong lĩnh vực giáo dục
Hỗ trợ nghiên cứu & tổng hợp dữ liệu
Cải thiện AI trong lĩnh vực sáng tạo

DivPO hoạt động như thế nào?

Khác với các phương pháp tối ưu hóa truyền thống chỉ tập trung vào phản hồi có điểm thưởng cao nhất, DivPO cân bằng giữa chất lượng và tính đa dạng bằng cách:

✅ Tạo nhiều phản hồi cho một câu lệnh và đánh giá chúng bằng mô hình phần thưởng.
✅ Chọn phản hồi chất lượng cao và đa dạng nhất làm kết quả tối ưu.
✅ Loại bỏ phản hồi lặp lại nhưng vẫn đạt mức chất lượng tối thiểu.
✅ Áp dụng tiêu chí đa dạng như tần suất từ, xác suất mô hình, và đánh giá từ các mô hình AI khác.

Với phương pháp này, DivPO giúp AI linh hoạt hơn, tránh tình trạng phản hồi rập khuôn và có thể thích ứng tốt hơn với nhiều lĩnh vực khác nhau.

PROMPT OF THE DAY (Prompt của ngày)
Tạo lịch nội dung social media trong 30 ngày nhằm thảo trực tuyến sắp tớiquảng bá hội và tăng số lượng đăng ký, tương tác, cũng như tạo khách hàng tiềm năng với AI 📝

Act as a Social Media Marketing Expert specializing in lead generation and webinar promotions.

You are working on a campaign to promote an upcoming webinar for [TARGET AUDIENCE]. The webinar, titled "[WEBINAR TITLE]", will take place on [DATE & TIME] and will cover [TOPIC OVERVIEW]. The goal is to drive registrations, increase engagement, and ultimately generate leads for [SERVICES/PRODUCTS].

Create a 30-day social media content calendar for [PLATFORMS: Instagram, LinkedIn, Twitter, Facebook, TikTok, etc.]. The content should include:

- Engaging post ideas (e.g., teaser videos, countdowns, testimonials)

- Call-to-action strategies to drive sign-ups

- Hashtag recommendations to boost reach

- Best posting times for maximum visibility

- Engagement strategies (polls, Q&As, DMs)

Make sure the tone aligns with [BRAND VOICE: professional, friendly, authoritative, etc.].

If anything is unclear or you need additional details to improve your response, please ask me for clarification.

Jonathan Mast

Cảm ơn bạn đã lắng nghe!

Hẹn gặp bạn ở lần tới.

The AI Growth Team 😄 😄 ❤️