通博娛樂城人工智能大模型需要怎樣的芯片?

  AI交談機械人ChatGPT的走紅,讓大模子的熱度從學術界、行業界一路燒到了民眾媒體。信息顯示,ChatGPT是一款由大型語言模子驅動的聊天機械人,在它背后起作用的是OpenAI最強盛的大型語言模子GPT-3,參數目高達1750億。

  大模子的突起,也為AI專業的地基——芯片帶來了主要的商機與嚴格的專業挑釁。據Lambda試驗室測算,假如采用英偉達V100 GPU和其時最廉價的云辦事進行算計,GPT-3培訓一次需求355個GPU年(一塊GPU運行355年的運算量)、消費460萬美元。大模子需求奈何的AI芯片,AI芯片企業又該如何接應?帶著這樣的問題,采訪了有關專家和企業家。

  算力需要:對于AI芯片的要求普遍拉升

  4年的時間、1500倍的參數目增加,大型語言模子顯現出強勁的擴大態勢。2018年,OpenAI推出第一代生成式預培訓語言模子GPT-1,佔有117億個參數。2019年推出的GPT-2佔有12億參數,是GPT-1的10倍多。一年后面世的GPT-3,參數目到達1750億個,是GPT-2的100多倍,預培訓數據量高達45TB。ChatGPT正是基于GPT-35——一個基于GPT-3的微調版本。

  與參數目一起飆漲的,是大模子的算力需要。燧原科技創始人、董事長兼CEO趙立東向《中國電子報》表明,以ChatGPT為典型的生成式AI模子為了實現高質量的內容生成,具備兩大特徵:參數規模龐大的模子、海量的培訓數據集。因此,大模子在底層算子支撐、體制條理計劃、軟件生態支持方面都和原本的決策式AI模子有著明顯的區別,需求芯片廠商打造加倍領先的體制級軟硬件計劃,并在專業和產物層面打破原有的路線與壁壘。

  從算力芯片角度,重要有三方面的需要:一是分布式算計本事,包含有數據并行、模子并行、流水通博并行等分布式算計計劃,算計效率尤其要害。二是大容量高帶寬的內存計劃,在每個AI芯片內部有效增加數據處置本事和算力應用率,交融HBM以及CXL等新型儲備專業,進一步增加當地儲備本事和算力應用率。三是更通博被抓高的單芯片算計本事,以減低整體體制復雜度,并減低TCO本錢。趙立東說。

  昆侖芯科技擔當人也向表明,陪伴著ChatGPT的迭代,大模子算法對算力的要求不停提高,而算力的核心即是人工智能芯片。大模子對算計的要求重要表現在三個方面,一是算力,二是互聯,三是本錢。大模子的熱潮也將加快AI芯片專業的首創和先進,包含有芯片條理、算法優化、功耗管理等方面的增加。AI芯片公司可以在這些方面進行研發和首創,不停提高產物競爭力。

  除了在已有的AI芯片路徑連續迭代調優,牟取更優的算力、效率、功耗、本錢,大模子強烈的高算力需要,也呼叫芯片電路與條理層面的進一步首創。北京大學集成電路學院研討員賈天宇向《中國電子報》指出,大模子專業的顯露和遍及,將進一步推進AI芯片的成長,拉升多方利用行業對于AI芯片的需要,對于增加AI芯片的主要性和不能或缺性有著積極的意義。但同時也應熟悉到,支持大模子算計的AI芯片算力需要高、設計復雜度高,其設計要和解門檻也隨之增加。

  由于傳統芯片專業成長的限制,當前芯片設計的電路與條理面對著存算力瓶頸、能效瓶頸、設計復雜度瓶頸等多方面挑釁。如何解決算力需要和芯片設計瓶頸之間的矛盾,還需求多方的首創和專業進展。賈天宇說。

  專業路徑:通用與定制的均衡

  在AI芯片的成長過程中,通用性和定制化像是兩個相互拉扯的作用力,衍生出一系列的芯片條理。此中,GPU和ASIC差別是通用性和定制化的典型條理,也有著各別的優勢和局限性。

  GPU條理提供了大批數據并行組織,因此或許提供大批的AI并行算計,實用于AI培訓等。ASIC等定制化AI芯片針對特定的利用配景進行芯片優化,或許贏得更高的算計能效,但通用性相對較弱。賈天宇表明。

  好在,跟著芯片專業的成長,通用性與定制化已不再壁壘森嚴。一方面,英偉達在GPU條理中引入了Tensor Core(張量算計核心),一種專門針對深度吸取利用而設計的專用ASIC單位,使GPU加倍合適深度吸取。另一方面,定制化芯片也逐步提升了通用算計單位,并引入可編程或部門可編程的條理,加強芯片的配景蓋住本事。

  已往被以為只具備專用性的ASIC或DSA(領域專用條理),此刻不光含有用于AI加快算計的專用單位,還含有與英偉達GPU中CUDA Core相似的通用算計單位,同樣可以實現對不同種類指令的處置。因此,不論是GPU、ASIC,還是DSA條理,云端AI芯片企業在條理設計中需求注目的是通用和專用算計單位的搭配,以便接應AI算計連續演化帶來的挑釁。昆侖芯科技關連人員向表明。

  鑒于大模子對于大算力的明顯需要,以及模子培訓算子的多樣性,具有大算力、通用性的芯片將是大算力利用的首選。在現存的專業計劃中,GPU是或許提供算力和開闢生態的抉擇。然而,由于GPU的功耗過高,類GPU條理的定制化大算力AI芯片也將存在市場,知足對于芯片算計能效的增加需要。賈天宇指出。

  而通用與定制的配比,要依據具體配景設計。昆侖芯科技關連人員表明,在通用性、易用性和功能之間實現均衡,需求在實質設計中交融需要。除了單一專業或者算力指標,更要講究產物的綜合競爭力是否平衡。百度的AI利用配景,為昆侖芯提供了驗證和調優時機。就大模子而言,昆侖芯在產物定義上已經做了布局,昆侖芯2代AI芯片相較昆侖芯第1代產物大幅優化了算力、互聯和功能,在百度內外部的大模子配景中都有落地,昆侖芯在研的下一代產物將為大模子和AIGC等利用提供更佳的功能體會。

  硬件和配景是雙輪驅動的,配景催生新的專業計劃,新的專業促使配景更好地成長。大模子作為一個趨勢配景,其需要定義清晰了,設計和實現專業就會水到渠成。昆侖芯科技關連人員通知。

  另有,不論是通用芯片還是定制芯片,抑或是通用、專用算計單位兼而有之,設計環節之后的制造、封裝環節,也將作用于AI芯片的功能增加。

  不論GPU還是定制化AI芯片路線,Chiplet、3D堆疊等進步集成與封裝專業將成為進一步增加大模子算計本事的主要專業策略,也將在前程AI芯片成長中起到主要作用。賈天宇表明。

  內地企業:需進一步加強軟件及體制本事

  固然ChatGPT還沒有進入盈利階段,但英偉達已經成為第一波吃到紅利的企業。從2023年第一個美股買賣日至今(截稿前最后一個買賣日2月24日),英偉達的股價增幅過份60,為處于下行周期的半導體行業添加了一絲亮色。在北京時間2月23日清晨的財報發行中,英偉達創始人兼首席執行官黃仁勛表明,從初創公司到大型企業,對于生成式AI的多性能性與本事的嗜好越來越濃重。英偉達將協助客戶從生成式AI和大型語言模子專業的衝破中獲取優勢。

  英偉達在AI芯片的先發優勢和占比優勢,雖然有硬件功能的來由,但更要害的是軟件生態的加持。在21世紀初,GPU的并行算計本事引起了學術界和行業界的注目。不過,開闢者想要調用英偉達GPU的算計本事進行圖形處置以外的工作,必要編寫大批的底層語言代碼,這對于習性高等語言的步驟員極其不便。2006年,英偉達推出CUDA平臺,支持開闢者用認識的高等步驟語言進行編程,敏捷調用GPU的算力。自此,GPU的採用范圍不再局限于顯卡,而是開拓到所有合適并行算計的領域。GPU與CUDA構造的軟硬件體制,形成了英偉達的產物壁壘。

  比年來,內地AI芯片企業在條理首創、算力功能、平臺計劃等領域涌現出一系列成績,但仍然需求在軟件、體制和生態層面進一步向國際領先企業看齊。趙立東表明,針對大模子對于AI芯片的需要,芯片廠商一方面通過拆解大模子的體制級需要,快速迭代下一代芯片,從底層增加功能和支持效率。另一方面,要基于既有的芯片打造體制級計劃,通過軟件升級解決大模通博娛樂子加快遭遇的內存容量小、通訊占比高級核心痛點疑問。

  要對標國際領先的AI芯片廠商,需求在三個層面開闢優化:一是芯片升級,在算力、內存、微條理等層面針對大模子算計做優化;二是軟件升級,從傳統的單卡以及以單機多卡為主的支持本事拓展至萬卡級別大集群支持,有效提供面向大模子支持的分布式算計、融合并行、內存優化等整體軟件計劃;三是通博娛樂城體制計劃,以AI芯片為核心,交融算計、儲備、網絡打造深度優化的體制級計劃,面向大模子提供極致的功能和本錢優勢。趙立東說。

  據介紹,燧原科技已經基于千卡培訓集群進行大模子培訓,并將推理產物通過云辦事商,為內容生成模子開闢商提供算力支撐。基于體制級大集群大模子,燧原將連續首創迭代,焦點聚焦生態建設,知足利用開闢者對AI通 博 優惠算力的強勁需要。

  昆侖芯科技關連人員也表明,具體到軟件生態,AI算法和利用開闢者在構建AI利用和業務的過程中,需求一套成熟的編程語言,以及完善的軟件器具集來快速迭代開闢工作。昆侖芯SDK可以提供從底層驅動環境到上層模子轉換等全棧的軟件器具,已經適配百度飛槳、PyTorch、TensorFlo等主流框架和辦事器,漸漸完善生態建設。要實現像OpenAI的ChatGPT這樣的大肆深度吸取模子,需求大批的數據和算法優化,以及關連領域的技術常識。因此,要更好地實現ChatGPT的商用落地,需求相應的專業隊伍和研討機構,與AI芯片企業協力推動。