時間:2023-07-10 10:54:59來源:信息化時代
包含了“預訓練”和“大模型”兩層含義,即模型在大規模數據集上完成了預訓練后無需微調,或僅需要少量數據的微調,就能直接支撐各類應用。
AI大模型成為人工智能邁向通用智能的里程碑技術。AI大模型的落地應用使得AI的三要素由“數據、算法、算力”演變為“場景、產品、算力”;跀祿幕ヂ摼W時代和基于算力的云計算時代之后,我們將進入基于大模型的AI時代。
AI大模型的發展歷程
? 從參數規模上看,AI大模型先后經歷了預訓練模型、大規模預訓練模型、超大規模預訓練模型三個階段,每年參數規模至少提升10倍,參數量實現了從億級到百萬億級的突破。目前千億級參數規模的大模型成為主流。
?從技術架構上看, Transformer架構是當前大模型領域主流的算法架構基礎,由此形成了GPT和BERT兩條主要的技術路線,其中BERT最有名的落地項目是谷歌的AlphaGo。在GPT3.0發布后,GPT逐漸成為大模型的主流路線。綜合來看,當前幾乎所有參數規模超過千億的大型語言模型都采取GPT模式,如百度文心一言,阿里發布的通義千問等。
? 從模態支持上看,AI大模型可分為自然語言處理大模型,CV大模型、科學計算大模型等。AI大模型支持的模態更加多樣,從支持文本、圖片、圖像、語音單一模態下的單一任務,逐漸發展為支持多種模態下的多種任務。
?從應用領域上看,大模型可分為通用大模型和行業大模型兩種。通用大模型是具有強大泛化能力,可在不進行微調或少量微調的情況下完成多場景任務,相當于AI完成了“通識教育”,ChatGPT、華為的盤古都是通用大模型。行業大模型則是利用行業知識對大模型進行微調,讓AI完成“專業教育”,以滿足在能源、金融、制造、傳媒等不同領域的需求,如金融領域的BloombergGPT、航天-百度文心等。
當前,AI大模型的發展正從以不同模態數據為基礎過渡到與知識、可解釋性、學習理論等方面相結合,呈現出全面發力、多點開花的新格局。
AI大模型發展階段
AI大模型發展歷經三個階段,分別是萌芽期、沉淀期和爆發期。
?萌芽期(1950-2005):以CNN為代表的傳統神經網絡模型階段。1956年,從計算機專家約翰·麥卡錫提出“人工智能”概念開始,AI發展由最開始基于小規模專家知識逐步發展為基于機器學習。1980年,卷積神經網絡的雛形CNN誕生。1998年,現代卷積神經網絡的基本結構LeNet-5誕生,機器學習方法由早期基于淺層機器學習的模型,變為了基于深度學習的模型,為自然語言生成、計算機視覺等領域的深入研究奠定了基礎,對后續深度學習框架的迭代及大模型發展具有開創性的意義。
?沉淀期(2006-2019):以Transformer為代表的全新神經網絡模型階段。2013年,自然語言處理模型 Word2Vec誕生,首次提出將單詞轉換為向量的“詞向量模型”,以便計算機更好地理解和處理文本數據。2014年,被譽為21世紀最強大算法模型之一的GAN(對抗式生成網絡)誕生,標志著深度學習進入了生成模型研究的新階段。2017年,Google顛覆性地提出了基于自注意力機制的神經網絡結構——Transformer架構,奠定了大模型預訓練算法架構的基礎。2018年,OpenAI和Google分別發布了GPT-1與BERT大模型,意味著預訓練大模型成為自然語言處理領域的主流。在探索期,以Transformer為代表的全新神經網絡架構,奠定了大模型的算法架構基礎,使大模型技術的性能得到了顯著提升。
?爆發期(2020-至今):以GPT為代表的預訓練大模型階段。
2020年,OpenAI公司推出了GPT-3.模型參數規模達到了1750億,成為當時最大的語言模型,并且在零樣本學習任務上實現了巨大性能提升。隨后,更多策略如基于人類反饋的強化學習(RHLF)、代碼預訓練、指令微調等開始出現, 被用于進一步提高推理能力和任務泛化。2022年11月,搭載了GPT3.5的ChatGPT橫空出世,憑借逼真的自然語言交互與多場景內容生成能力,迅速引爆互聯網。2023年3月,最新發布的超大規模多模態預訓練大模型——GPT-4.具備了多模態理解與多類型內容生成能力。在迅猛發展期,大數據、大算力和大算法完美結合,大幅提升了大模型的預訓練和生成能力以及多模態多場景應用能力。如ChatGPT的巨大成功,就是在微軟Azure強大的算力以及wiki等海量數據支持下,在Transformer架構基礎上,堅持GPT模型及人類反饋的強化學習(RLHF)進行精調的策略下取得的。
國內外企業發展概況
目前,在大模型領域,國內外巨頭的競爭已經白熱化。OpenAI已成為引領大模型發展的標桿企業。繼多模態大模型GPT-4發布后,預計今年四季度OpenAI將發布更為高級的ChatGPT-5版本。微軟借助對OpenAI的投資與合作,將旗下Office辦公產品全線整合,已在3月下旬推出Copilot Office。5月24日,微軟宣布Win11接入GPT-4.
圖片來源:賽迪智庫
5月10日,微軟的直接競爭對手谷歌推出新一代大模型PaLM 2.已有超過25個AI產品和功能全線接入PaLM 2.包括原有對話機器人Bard,AI+辦公助手Duet AI、AI+搜索引擎等,Meta則發布大模型LLaMA,加入競賽。亞馬遜與人工智能初創公司Hugging Face合作開發ChatGPT競品——BLOOM。
國內,產投研各方均已加快布局步伐。一是國內科技龍頭企業密集發布自研大模型。百度發布大模型文心一言,阿里發布首個超大規模語言模型通義千問,騰訊混元AI大模型團隊推出了萬億級別中文NLP預訓練模型HunYuan-NLP-1T。華為發布的鵬城盤古大模型是業界首個千億級生成和理解中文NLP大模型。
二是投創界積極入局大模型競賽。美團聯合創始人王慧文自帶5000萬美元入局AI大模型,搜狗前CEO王小川與搜狗前COO茹麗云共同創立百川智能,瀾舟科技發布其語言生成模型——孟子MChat可控大模型,西湖心辰也推出了心辰Chat大模型。
三是高校與科研院所積極布局大模型。復旦大學推出國內首個類ChatGPT大模型MOSS,清華大學知識工程實驗室與其技術成果轉化公司智譜AI發布ChatGLM,中科院自動化所推出多模態大模型紫東太初,IDEA 研究院 CCNL推出開源通用大模型“姜子牙”。
目前大模型面臨四個挑戰
第一,評估驗證:當前針對大模型的評估數據集往往是更像“玩具”的學術數據集,但是這些學術數據集無法完全反應現實世界中形形色色的問題與挑戰,因此亟需實際的數據集在多樣化、復雜的現實問題上對模型進行評估,確保模型可以應對現實世界的挑戰;
第二,倫理道德:模型應該與人類的價值觀相符,確保模型行為符合預期,作為一個高級的復雜系統,如果不認真處理這種道德問題,有可能會為人類醞釀一場災難;
第三,安全隱患:需要更多的做好模型的可解釋性、監督管理工作,安全問題應該是模型開發的重要組成部分,而非錦上添花可有可無的裝飾;
第四,發展趨勢:模型的性能還會隨著模型規模的增加而增長嗎?這個問題估計 OpenAI 也難以回答,我們針對大模型的神奇現象的了解仍然十分有限,針對大模型原理性的見解仍然十分珍貴。
上一篇:人工智能在5G和6G網絡中的應用
中國傳動網版權與免責聲明:凡本網注明[來源:中國傳動網]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(www.yzzhiyu.com)獨家所有。如需轉載請與0755-82949061聯系。任何媒體、網站或個人轉載使用時須注明來源“中國傳動網”,違反者本網將追究其法律責任。
本網轉載并注明其他來源的稿件,均來自互聯網或業內投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。
產品新聞
更多>2023-12-19
KAF107-11-YVI7.5KW減速機,傘齒輪減速電...
2023-12-15
KAD89-LEN100LN4E-L32NH減速機廠家瓦瑪特
2023-12-15
2023-12-13
2023-12-07
2023-12-05