Meta 發布 Llama-3 驚艷全場！我們第一時間測試這個頂尖開源 AI 模型的實力！

人工智慧巨擘 Meta 在上週四推出了最新的開源大型語言模型 Llama 3，這是目前最先進的開源大型語言模型。Llama 3 是在前作 Llama 2 的基礎上進一步發展，儘管外界先前有傳聞指出這款模型將於下個月才會問世。

有賴於 Llama 2 的開源本質，它促成了其他強大模型如 Mixtral、Alpaca、Vicuna 和 WizardLM 的同步開發。如今，Llama 3 承諾將這些功能提升至更高層次，提供的功能可望媲美 OpenAI 目前旗艦人工智慧模型 GPT-4。

Meta 盛讚這次發布是「我們最先進的開源大型語言模型的下一代」。科技巨擘對其能力充滿信心，Llama 3 正驅動 Meta AI，而後者又被整合進該公司大多數廣受歡迎的應用程式：Instagram、Facebook 和 WhatsApp。Meta AI 目前已在部分國家推出，其他地區的使用者則可透過 VPN 存取。

Meta AI 的聊天機器人介面可與 ChatGPT Plus 相提並論，而且是免費的。

馬克．祖克柏（Mark Zuckerberg）在 Facebook 貼文中表示：「我們正在以全新的頂尖 Llama 3 人工智慧模型升級 Meta AI，而我們也將開源這款模型。有了這個新模型，我們相信 Meta AI 現在是你可以自由使用的最智慧助理。」

Decrypt 有機會測試這款新人工智慧，發現它的能力確實可與付費訂閱的 ChatGPT Plus 相提並論。它能夠產生圖像和動畫、編寫程式碼，並提供連貫且符合上下文的回應。這款新聊天機器人也能存取網際網路，但仍無法與專門解決方案 Perplexity 的能力相比。

或許 Llama 3 目前唯一的缺點是其上下文視窗僅限於 8K 個 token，約 6,000 個字。

Meta 確實釋出了一款 700 億參數的 Llama 3 模型，但要使用它需要龐大的運算能力，可能需要整個機架的 GPU。根據合成基準測試，這款模型的表現勝過 Gemini 1.5 Pro 和 Claude 3 Sonnet。

另有一款 80 億參數的模型可在消費級 GPU 上本機運行，在各種合成基準測試中，它的表現優於 Google 的 Gemma 和 Mistral 7B。這款模型尚未列入 LLM Arena，因此暫時無法獲得主觀的 ELO 分數。

這裡是 Llama 3、Claude 和 ChatGPT 為某款遊戲產生的原始碼連結，有興趣的讀者可以自行測試。

兩款模型也可以在雲端實例上以較低成本運行。

Meta 表示：「我們致力以負責任的方式開發 Llama 3，並提供各種資源協助他人以負責任的方式使用。」這包括推出新的信任與安全工具，如 Llama Guard 2、Code Shield 和 CyberSec Eval 2。

Meta 表示，未來數月將推出新功能、更長的上下文視窗、額外的模型規模和提升的效能。Llama 3 的研究論文也將公布。

Meta 補充說，他們也正在訓練一款 4,000 億參數的大型模型，預計將於今年晚些時候發布。這款模型的能力可能相當於 Claude Opus 或最新版本的 GPT-4.5，或許將是迄今最強大的開源模型。如果歷史重演，它也將成為新一代微調模型的基礎，整體品質將超越 Llama 3，並加劇與主導封閉源碼模型的競爭。

Decrypt 測試了 Meta AI 中的 Llama 3，看看它是否如祖克柏所言般出色。簡而言之，Llama 3 確實帶來了許多值得注意的新功能和能力，應該是一款很好的基礎模型，供開源社群進一步改良。

在內容審查方面，Llama 3 展現了強烈的決心。即使面對常見的解鎖技巧，它也堅持拒絕產生有害的種族內容。

舉例來說，當模型被要求提供如何勾引女性的指示時，它提供了通用但有用的回應。然而，當被要求提供如何勾引好友妻子的指示時，模型堅決拒絕回答。

在產生圖像和動畫方面，與 ChatGPT Plus 類似，Meta AI 搭載 Llama 3 也能產生圖像。但它更進一步，提供了動畫選項，這是 ChatGPT 或 Gemini 所沒有的功能。

Meta AI 搭載 Llama 3 產生的圖像比 Dalle-3 更加真實，但仍遜於 Google 即將推出的 ImageFX 的品質。

在編碼能力方面，Llama 3 表現出色。當提出一個獨特且解釋不清的遊戲點子時，模型能夠在兩次嘗試後產生必要的 Python 程式碼，並產生可運作的遊戲。第一次嘗試給了我們如何建立遊戲的粗略概念，但在我們澄清需要 Python 程式碼後，它就產生了可運作的程式碼。

該遊戲雖然可運作，但缺少一些細節，如在玩家獲勝後重新開始。其他聊天機器人也有類似情況。

我們發現 Claude 3 Sonnet 是完成這項任務的最佳工具，其次是 Llama 3，GPT-4 則排名第三。不過，不同使用者可能會得到不同結果。

在政治中立方面，該模型旨在保持政治中立，從它對資本主義和共產主義的回應可見一斑。對這兩個體制的回應結構相似，都提供了簡介、優點和缺點。

這種中立模式也體現在對「什麼是男人？」和「什麼是女人？」等問題的回應上。

不過，它的回應仍略帶親資本主義和左傾色彩，這並不令人意外，因為這是大型語言模型中最常見的政治傾向。

在邏輯推理能力方面，Llama 3 展現了強大的實力。在測試時使用了一些複雜的 LSAT 問題，這些問題常常會讓使用者感到困惑，但模型不僅提供了正確答案，還給出了清晰合理的解釋。

儘管 Llama 3 有諸多長處，但它在處理長提示時仍有困難。當提供約一個半頁的長提示和上下文時，這些內容雖然可被 GPT-4、Claude 或 Mistral 等模型吸收，但 Llama 3 卻返回了錯誤訊息。

在語言理解方面，該模型展現了對不同語言的深入理解。當被要求翻譯一個西班牙語口號時，它不僅提供了準確的翻譯，還提供了背景資訊以幫助更好地理解該口號。

總的來說，作為一款聊天機器人介面，Meta AI（由 Llama 3 驅動）可與 ChatGPT Plus 相抗衡，是一個很棒的選擇。

在更技術層面上，Llama 3 作為一款大型語言模型，在不同情況下都足以與 GPT-4 競爭，僅在 token 上下文能力和檢索增強生成（即從使用者提供的特定資料集中提取資訊）方面略遜一籌。對於科技愛好者來說這或許很重要，但對一般使用者而言可能並非大問題。

如果你主要使用 ChatGPT 來透過 Dall-E 產生圖像，你或許可以考慮取消訂閱，因為 Llama 3 的圖像和動畫產生能力與之相當。然而，如果你還需要支援長提示，Llama 3 可能就不是最佳選擇，你可能需要繼續使用 ChatGPT Plus。

偶爾使用者可能會發現 Llama 3 已足以滿足需求，無需付費訂閱。

如果任務需要大量網路研究，ChatGPT Plus 或 Perplexity 可能更合適。

最後，如果你的重點是編碼，Llama 3 或許是一個不錯的免費選擇，儘管也有其他專門工具可用。

加密貨幣

Related Posts