中國 人工智慧 新創DeepSeek近期推出的同名免費App,在短時間內於美國等地區的App Store吸引大量用戶下載使用,其中標榜其使用開源設計的人工智慧模型「DeepSeek V3」性能超越Meta的Llama 3.1,更與Anthropic的Claude-3.5、OpenAI 的GPT-4o性能相當,同時模型背後所需硬體算力更遠低於市場其他競爭對手,而開發成本甚至不到600萬美元。
DeepSeek於2023年4月創立,創辦人梁文鋒同時也是量化對沖基金幻方量化 (High-Flyer)創辦人,意味本身運作能以對沖基金為支撐,意味不像其他人工智慧新創仰賴外部投資資金運作,同時也能在運作決策上更有彈性。
而DeepSeek第一款人工智慧模型DeepSeek Coder免費提供研究人員使用,甚至可用於商業用途,後續則推出其第一款大型自然語言模型DeepSeek LLM,更在去年5月推出第二款大型自然語言模型DeepSeek-V2,並且標榜以更低成本與更高性能吸引眾人使用,更讓字節跳動 、騰訊、百度、阿里巴巴等中國科技業 者調降其人工智慧模型使用費用,避免流失原本用戶族群。
至於近期推出的第三款大型自然語言模型DeepSeek-V3,則是標榜將參數規模增加至6710億組,性能更標榜超過Meta的Llama 3.1 4050億組參數版本,而背後更僅使用2048組NVIDIA的H800 GPU,並以2個月時間完成訓練,花費成本僅約560萬美元,遠低於其他科技業者投入訓練成本。
DeepSeek推出人工智慧模型可用於網頁、App,或是透過API呼叫使用。而其推出的DeepSeek-R1版本,同樣也以採用相對寬鬆、目前被廣泛使用的軟體授權條款MIT提供,同樣標榜能任意用於各類商用需求,因此也吸引不少業者導入。
由於相比其他科技業者採購大量GPU等加速硬體,並且投入數十億美元經費訓練人工智慧模型,DeepSeek的出現則是展現人工智慧模型並非僅能以大量金錢堆疊而成,而是能以更低成本建造,因此也讓NVIDIA等科技股大幅下跌。
另一方面,DeepSeek的異軍突起,不僅呈現僅以更少硬體資源、更少經費資源即可建構性能更高的人工智慧模型,本身更標榜能以NVIDIA更早之前推出的A100加速器建構人工智慧模型,意味即使在當前美國政府的技術禁令限制下,仍可不受限制地打造其人工智慧技術。
同時,DeepSeek的發展也代表以低成本建構更高性能人工智慧技術可行性,更凸顯諸多美國境內大型科技業者帶動的人工智慧技術投入成本可能不合理,進而導致更多業者更傾向投入低成本、快速、有效的人工智慧技術發展,甚至可能影響當前美國境內人工智慧技術發展競爭。
《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》