中共中央政治局常委、國務院總理李強1月20日下午主持召開專家、企業(yè)家和教科文衛(wèi)體等領域代表座談會,聽取對《政府工作報告(征求意見稿)》的意見建議。其中,“深度求索”(DeepSeek)公司創(chuàng)始人、“85后”廣東小伙梁文鋒的出席,刷屏科技圈。
梁文鋒為何能夠成為李強總理的“座上賓”?梁文鋒所創(chuàng)立的“深度求索”(DeepSeek)公司究竟是什么來頭?
深度求索(DeepSeek)創(chuàng)始人梁文鋒。
撼動全球AI圈的“深度求索”(DeepSeek)
公開資料顯示,梁文鋒,1985年出生于廣東省湛江市。17歲那年,他考入浙江大學電子信息工程專業(yè),畢業(yè)后在浙大攻讀碩士研究生。
2015年,梁文鋒與朋友一同創(chuàng)辦“幻方量化”,立志成為世界頂級的量化對沖基金。2016年10月,幻方量化推出第一個AI模型,第一份由深度學習生成的交易倉位上線執(zhí)行。到2017年底,幾乎所有的量化策略都采用AI模型計算。
2023年7月,幻方量化宣布成立創(chuàng)新性大模型公司“深度求索”(DeepSeek),全稱“杭州深度求索人工智能基礎技術研究有限公司”,專注于AI大模型的研究和開發(fā)。據(jù)悉,“深度求索”(DeepSeek)包括創(chuàng)始人梁文鋒在內,僅有139名工程師和研究人員。與此同時,OpenAI有1200名研究人員,Anthropic則有500多名研究人員。
創(chuàng)新性大模型公司深度求索(DeepSeek)。
去年5月,“深度求索”(DeepSeek)發(fā)布DeepSeek-V2,憑借創(chuàng)新的模型架構和史無前例的性價比,迅速出圈。DeepSeek-V2的關鍵開發(fā)者之一羅福莉曾在社交平臺撰文表示,“單論DeepSeek-V2模型的中文水平,是真實處在國內外閉源模型的第一梯隊”,“外加1元/百萬輸入Tokens的價格,只有GPT4價格的1/100,性價比之王”。順帶一提,此前傳聞中小米創(chuàng)始人雷軍曾開出千萬元年薪希望挖走羅福莉,領導小米AI大模型團隊。
而2024年12月26日,該公司宣布開源AI模型DeepSeek-V3的上線,更是引爆國內外AI圈、科技圈。
直新聞注意到,DeepSeek微信公眾號發(fā)布的貼文寥寥,集中于招聘信息、大模型上線的消息。但值得注意的是,自2024年年底該公號推出名為“DeepSeek-V3 正式發(fā)布”的貼文后,多篇貼文的閱讀量飆升至10萬+。
DeepSeek公眾號。
據(jù)DeepSeek推文顯示,DeepSeek-V3多項評測成績超越了Qwen2.5-72B和Llama-3.1-405B等其他開源模型,并在性能上和世界頂尖的閉源模型GPT-4o(OpenAI大模型)以及Claude-3.5-Sonnet不分伯仲。令AI圈驚嘆的是,DeepSeek-V3在性能上與頂尖的閉源大模型GPT-4o(OpenAI大模型)比肩的同時,全部訓練成本總計僅為557.6萬美元,甚至不到GPT-4o訓練成本的二十分之一。
在多個基準測試中,DeepSeek-V3的性能與頂尖的閉源大模型GPT-4o不相上下。
此外,在性能上,DeepSeek-V3在數(shù)學、代碼能力和中文知識問答方面還超過了ChatGPT-4o。
前Open AI聯(lián)合創(chuàng)始人、Tesla AI團隊負責人安德烈·卡帕西(Andrej Karpathy)在社交平臺上發(fā)文稱,DeepSeek-V3的出現(xiàn)也許意味著不需要大型GPU集群來訓練前沿的大語言模型。他還表示,如果此模型還能通過各項評估,那么這將是資源受限條件下研究與工程能力的高度令人印象深刻的展示。
前Open AI 聯(lián)合創(chuàng)始人、Tesla AI 團隊負責人安德烈·卡帕西(Andrej Karpathy)在X上發(fā)文。
Scale AI創(chuàng)始人亞歷山大·王(Alexander Wang)則發(fā)文稱,DeepSeek-V3展示給外界苦澀的教訓是:就在美國休息時,中國在工作,并以更便宜、更快、更強的產品迎頭趕上。
亞歷山大·王(Alexander Wang)在社交平臺上的貼文。
為何“深度求索”(DeepSeek)受邀參與座談會?
此次“深度求索”(DeepSeek)創(chuàng)始人梁文鋒受邀出席李強總理主持召開的座談會,足以看出中央與國家層面對于科技、人工智能(AI)產業(yè)的高度重視。
在座談會上,李強總理提到,“要以科技創(chuàng)新推動新舊動能轉換,集中力量突破關鍵核心技術和前沿技術,加快推進科技成果產業(yè)化,努力培育更多經濟新增長點。”
值得注意的是,2024年,《政府工作報告》不僅3次提到“人工智能”,更首次提出了開展“人工智能+”行動。而過去的一年中,中國在人工智能領域發(fā)力明顯,中央陸續(xù)出臺一系列支持人工智能產業(yè)發(fā)展的政策。
1月20日,就在參加總理座談會的當天,DeepSeek正式發(fā)布DeepSeek-R1模型。這款大模型在數(shù)學、代碼、自然語言推理等任務上,性能比肩OpenAI o1正式版。
梁文鋒此前接受采訪時曾表示,回望過去30多年IT浪潮,中國基本沒有參與到真正的技術創(chuàng)新里。被外界視為理想主義者的梁文鋒稱,“我們覺得現(xiàn)在最重要的是參與到全球創(chuàng)新的浪潮里去。”他說,“過去很多年,中國公司習慣了別人做技術創(chuàng)新,我們拿過來做應用變現(xiàn),但這并非一種理所當然。這一波浪潮里,我們的出發(fā)點,就不是趁機賺一筆,而是走到技術的前沿,去推動整個生態(tài)發(fā)展。”