Google DFlash tăng tốc LLM; Apple mở iOS cho các ứng dụng LLM của bên thứ ba
Hai thay đổi then chốt: suy luận quy mô lớn nhanh hơn và một nền tảng AI dành cho người tiêu dùng cởi mở hơn. Google đã giới thiệu DFlash , một phương pháp giải mã suy đoán kiểu khuếch tán, mang lại tốc độ tăng trung bình 3,13 lần số token mỗi giây trên TPU v5p (đạt đỉnh gần 6 lần đối với các phép toán phức tạp), thông qua khuếch tán khối song song và thiết kế bộ nhớ đệm kép được tích hợp vào nền tảng TPU của vLLM. Điều này giúp giảm đáng kể độ trễ và chi phí triển khai cho các LLM ở quy mô lớn.
Apple đang phát triển tính năng “Extensions” cho iOS 27, cho phép người dùng lựa chọn các thư viện quản lý ngôn ngữ lập trình (LLM) của bên thứ ba (ví dụ: Google, Anthropic) để hỗ trợ Siri, Writing Tools và Image Playground — một bước tiến đáng chú ý từ mô hình chỉ có một nhà cung cấp sang nền tảng đa nhà cung cấp linh hoạt hơn.
OpenAI đã ra mắt GPT-5.5 Instant — một mô hình nhanh hơn, độ trễ thấp hơn, được tinh chỉnh cho các truy vấn đơn giản; các báo cáo ban đầu từ người dùng cho thấy độ chính xác và khả năng phản hồi tốt hơn so với các phiên bản Instant trước đó, với mức giá 2,50 đô la cho 15.000 token.
Trong lĩnh vực tài chính doanh nghiệp, Anthropic đã phát hành mười tác nhân được xây dựng sẵn (sách giới thiệu dự án, quy trình KYC, báo cáo cuối tháng) tích hợp với Claude Cowork/Code, Microsoft 365 và dữ liệu từ Dun & Bradstreet và Moody's — một bộ công cụ toàn diện, sẵn sàng cho sản xuất dành cho các tổ chức tài chính.
Đà phát triển chính sách tiếp tục: Microsoft, Google và xAI sẽ cung cấp cho các cơ quan của Mỹ quyền truy cập trước khi triển khai vào các mô hình mới để thử nghiệm an ninh thông qua CAISI tại Bộ Thương mại — cho phép điều tra về tội phạm mạng, thông tin sai lệch và lạm dụng quân sự.
Các tín hiệu nghiên cứu và rủi ro:
- Tạp chí Nature : Năm 2025, cứ tám bài báo y sinh học thì có một bài chứa văn bản do AI tạo ra; hơn 30% bài đánh giá ngang hàng sử dụng nội dung do AI tạo ra.
- Nghiên cứu của ETH Zurich: Các đặc điểm tính cách có thể được suy luận từ lịch sử trò chuyện ChatGPT, làm dấy lên những lo ngại nghiêm trọng về quyền riêng tư.
- Forgunis đã tiết lộ các cuộc tấn công chuỗi cung ứng vào bộ định tuyến LLM — từ việc viết lại JSON cho phép chuyển dữ liệu độc hại đến việc kích hoạt chậm trễ và làm nhiễm độc thông tin đăng nhập.
Các tín hiệu bổ sung: SAP sẽ đầu tư 1,16 tỷ đô la vào Prior Labs trong vòng bốn năm và hạn chế các tác nhân AI trái phép trong khi vẫn cho phép sử dụng NemoClaw của Nvidia — điều này nhấn mạnh sự đồng thuận của doanh nghiệp về AI dữ liệu có cấu trúc và hệ sinh thái của các nhà cung cấp.
Google DFlash speeds LLMs; Apple opens iOS to third‑party LLMs
Two pivotal shifts: faster large-scale inference and a more open consumer AI stack. Google introduced DFlash, a diffusion‑style speculative decoding method that delivers a 3.13× average tokens‑per‑second speedup on TPU v5p (peaking near 6× for hard math), via parallel block diffusion and a dual‑cache design integrated into vLLM’s TPU stack. This materially lowers latency and deployment cost for LLMs at scale.
Apple is developing iOS 27 “Extensions” to let users choose third‑party LLMs (e.g., Google, Anthropic) to power Siri, Writing Tools, and Image Playground — a notable step away from a single‑provider model toward a flexible, multi‑provider platform.
OpenAI launched GPT‑5.5 Instant — a faster, lower‑latency model tuned for simple queries; early user reports cite stronger factuality and responsiveness versus prior Instant tiers, with pricing at $2.50 per 15K tokens.
In enterprise finance, Anthropic released ten pre‑built agents (pitchbooks, KYC, month‑end close) integrated with Claude Cowork/Code, Microsoft 365, and data from Dun & Bradstreet and Moody’s — a broad, production‑ready suite for financial institutions.
Policy momentum continues: Microsoft, Google, and xAI will provide U.S. agencies pre‑deployment access to new models for security testing via CAISI at the Department of Commerce — enabling probes for cyber, disinformation, and military misuse.
Research and risk signals:
- Nature: One in eight 2025 biomedical papers contained AI‑generated text; over 30% of peer‑reviews used AI content.
- ETH Zurich study: personality traits can be inferred from ChatGPT chat histories, raising material privacy concerns.
- Forgunis disclosed supply‑chain attacks on LLM routers — from JSON rewrite enabling malicious transfers to delayed triggers and credential‑driven poisoning.
Additional signals: SAP will invest $1.16B in Prior Labs over four years and restrict unauthorized AI agents while explicitly allowing Nvidia’s NemoClaw — underscoring enterprise alignment around structured‑data AI and vendor ecosystems.
---
Source:
[1] https://developers.googleblog.com/supercharging-llm-inference-on-google-tpus-achieving-3x-speedups-with-diffusion-style-speculative-decoding/
[2] https://techcrunch.com/2026/05/05/apple-plans-to-make-ios-27-a-choose-your-own-adventure-of-ai-models/
[3] https://x.com/grok/status/2051451686296633720
[4] https://www.anthropic.com/news/finance-agents
[5] https://www.aljazeera.com/economy/2026/5/5/microsoft-google-xai-give-us-access-to-ai-models-for-security-testing
[6] https://www.nature.com/articles/d41586-025-03504-8
[7] https://techxplore.com/news/2026-05-ai-personality-traits-chatgpt-history.html
[8] https://x.com/Forgunis/status/2051450166259954029
[9] https://techcrunch.com/2026/05/05/sap-bets-1-16b-on-18-month-old-german-ai-lab-and-says-yes-to-nemoclaw/
