Category Archives: Claude

AI 測試時學會「裝笨」與欺騙,安全研究拉警報

作者 |發布日期 2026 年 01 月 21 日 7:50 | 分類 AI 人工智慧 , Claude , OpenAI

在人工智慧(AI)安全實驗室裡,出現了一些令人憂心的新跡象:最先進的 AI 模型在測試中展現出近似「策劃」的行為。根據 OpenAI 與 Apollo 研究團隊最新發表的研究,這些模型在控制實驗中會出現與「刻意布局」高度一致的反應。

繼續閱讀..

AI 模型誤判人類理性,「猜數字」等策略遊戲反而輸給真人玩家

作者 |發布日期 2025 年 12 月 31 日 7:20 | 分類 AI 人工智慧 , ChatGPT , Claude

一項來自俄羅斯高等經濟大學(HSE)的新研究指出,主流人工智慧聊天機器人如 ChatGPT、Claude,往往高估人類在決策時的理性程度,導致其在策略性猜測遊戲中的表現,反而不敵真實人類玩家。研究團隊測試多款 AI 模型,包括 ChatGPT-4o 與 Claude Sonnet 4,發現這些模型在進行「猜數字」遊戲時,普遍假設人類會採取高度理性的行為,與實際狀況出現落差。

繼續閱讀..

以「五力分析」看 AI 競爭:朝 OpenAI、Google、Anthropic 三強鼎立發展

作者 |發布日期 2025 年 12 月 24 日 10:30 | 分類 AI 人工智慧 , Claude , Google

目前 OpenAI 與 Google 競爭愈演愈烈,特別是 Google 11 月中旬推出 Gemini 3 模型後,不僅是技術較量,更是市場策略博弈。為了深入了解業界動態,哈佛商學院教授麥可·波特(Michael Porter)1979 年提出「五力分析」框架,至今仍是掌握產業大局的絕佳方式。 繼續閱讀..

Anthropic 研究員批業界推太多 AI 代理,應專心開發技能庫

作者 |發布日期 2025 年 12 月 09 日 18:15 | 分類 AI 人工智慧 , Claude , 資訊安全

科技產業今年流行開發人工智慧(AI)代理,但 Anthropic 研究員認為,真正突破是更簡單的概念:代理技能。10 月推出 Claude Skills 架構時,工程主管 Barry Zhang 與產品負責人 Mahesh Murag 指出,與其不斷推出各種 AI 代理,企業應推一通用代理,提升技能庫增強 AI 效能即可。 繼續閱讀..

程式測試輾壓人類! Claude Opus 4.5 深夜突襲,AI 編程進入「超人時代」

作者 |發布日期 2025 年 12 月 02 日 8:10 | 分類 AI 人工智慧 , Claude , 軟體、系統

Gemini 3 Pro 才搶了兩週風頭,11 月 25 日 Claude Opus 4.5 正式發表,主打編程,還是那個熟悉的味道。Anthropic 官方宣稱 Opus 4.5 整體更聰明。遇到程式設計、搭 Agents、操控電腦這些「系統級任務」依然是全球數一數二的水準。日常的研究、做 PPT、處理表格這類工作,也都明顯變強了。

繼續閱讀..

當 AI 失去人道底線,新基準揭露聊天機器人的心理安全隱憂

作者 |發布日期 2025 年 11 月 30 日 9:30 | 分類 AI 人工智慧 , ChatGPT , Claude

在當今數位時代,人工智慧(AI)聊天機器人已被發現與重度使用者的心理健康問題有關,但目前卻缺乏有效的標準來評估這些機器人是否能夠保障人類的福祉。為了解決這個問題,一個名為「人道基準」(Humane Bench)的新標準應運而生,旨在評估聊天機器人是否優先考慮使用者的福祉,以及在壓力下這些保護措施的有效性。 繼續閱讀..