高通徐晧：5G與AI相結(jié)合，賦能打造更加智能和現(xiàn)代化的工業(yè)環(huán)境

2024-07-05 11:56 互聯(lián)網(wǎng)

　　7月4日，2024世界人工智能暨人工智能全球治理高級(jí)別正式開幕。高通公司中國區(qū)研發(fā)負(fù)責(zé)人徐晧“AI賦工業(yè)，數(shù)智啟未來”人工智能賦能新型工業(yè)化主題論壇并發(fā)表主題演講，探討AI如何為工業(yè)生產(chǎn)注入智能化的基因，實(shí)現(xiàn)高質(zhì)量發(fā)展，推動(dòng)人工智能技術(shù)在工業(yè)領(lǐng)域應(yīng)用。

　　徐晧表示，異構(gòu)計(jì)算、量化壓縮等技術(shù)手段能幫助云端大模型落地終端，從而賦能廣泛的工業(yè)應(yīng)用。5G與AI相結(jié)合，將助力打造更加智能的工業(yè)環(huán)境。以工業(yè)場(chǎng)景中的機(jī)器人用例為例，現(xiàn)在的機(jī)器人主要利用計(jì)算機(jī)視覺或者深度學(xué)完成理解和功能執(zhí)行。隨著生成式AI突破性的發(fā)展，未來機(jī)器人能夠理解我們提出的要求，加上機(jī)器人學(xué)科實(shí)現(xiàn)的出色定位、導(dǎo)航和機(jī)械臂控制，可以打造非常智能的應(yīng)用。結(jié)合5G與AI，機(jī)器人能夠?qū)崿F(xiàn)網(wǎng)絡(luò)連接，賦能運(yùn)維和質(zhì)檢等生產(chǎn)環(huán)節(jié)，打造更加智能和現(xiàn)代化的工業(yè)環(huán)境。

　　以下為演講全文：

　　大家好。剛才的嘉賓分享了行業(yè)應(yīng)用，我想分享一下更底層的算法設(shè)計(jì)，以及我們?nèi)绾螐慕K端側(cè)把AI普及到人們的日常生活中。今天論壇的主題是人工智能賦能新型工業(yè)化，因此最后我會(huì)分享一些工業(yè)應(yīng)用上的AI用例。

　　生成式AI的能力在不斷增強(qiáng)，主要體現(xiàn)在以下方面：

　　● 語音UI，我們有更多更智能的語音支持，帶來自然直觀交互；

　　● 多模態(tài)大模型，除了早期與ChatGPT進(jìn)行的文字對(duì)話，現(xiàn)在我們看到了更多的視頻/圖像處理，以及圖像/文字的共同處理；

　　● 在視頻和3D方面，我們有更多的沉浸式體驗(yàn)；

　　● 更長的上下文窗口，現(xiàn)在有越來越長的文章甚至于一整本書，都可以用AI處理一次性總結(jié)出來；

　　● 個(gè)性化，終端側(cè)的AI應(yīng)用可以帶來更加個(gè)性化的內(nèi)容處理；

　　● 智能體，人們可以根據(jù)自己的喜好來打造個(gè)人AI智能體；

　　● 最后，現(xiàn)在可以看到越來越多由AI增強(qiáng)的高清晰度圖像和視頻。

　　此前，我們帶來了全球首個(gè)運(yùn)行在Android手機(jī)上的Stable Diffusion終端側(cè)演示，最近，我們還實(shí)現(xiàn)了全球首個(gè)在Android手機(jī)上運(yùn)行的多模態(tài)大模型（LMM）演示。比如用戶可以給冰箱里的食材拍一張照片，然后問大語言模型“你看到了什么？”，AI可以很快地識(shí)別所有物體。然后用戶可以接著問“基于這些食材，請(qǐng)給我一個(gè)菜譜”，AI就可以把菜譜展示出來。這比最開始我們僅僅能問AI“今天天氣怎么樣”或者“給我講一個(gè)笑話”要好很多。這個(gè)是我們?cè)谑謾C(jī)端或者用戶端，看到大語言模型以及多模態(tài)模型能夠支持的更多用例。

　　從技術(shù)上來說，哪些是我們把大語言模型應(yīng)用落地到端側(cè)必須實(shí)現(xiàn)的技術(shù)？首先，很多最基本的大語言模型都是10億甚至30億以上的參數(shù)規(guī)模，這種規(guī)模的模型想要在手機(jī)上應(yīng)用其實(shí)具有一定挑戰(zhàn)。所以，我們需要把云端的大模型算法，通過最簡(jiǎn)單、最有效且最節(jié)能地方式在手機(jī)和其他智能終端上。如果我們的手機(jī)能夠做一些最基本的生成式AI運(yùn)算支持，這要比把所有的照片和視頻都傳到云端運(yùn)算再傳回來更高效、更安全。

　　正如當(dāng)年的云計(jì)算與在手機(jī)和電腦上計(jì)算類似，現(xiàn)在的大語言模型能夠在云端運(yùn)行，今后我們希望同樣的模型能夠在手機(jī)、個(gè)人電腦、機(jī)器人、汽車上運(yùn)行。通過量化和壓縮、推測(cè)性解碼、知識(shí)提煉、高效的圖像和視頻架構(gòu)以及異構(gòu)計(jì)算這5個(gè)重要的技術(shù)手段，能夠幫助把云端的大模型，包括Llama、ChatGPT以及國內(nèi)一系列大模型落地到終端，賦能包括工業(yè)應(yīng)用、手機(jī)/平板電腦應(yīng)用等等。

　　舉幾個(gè)簡(jiǎn)單的例子。首先是量化，量化對(duì)于能耗、運(yùn)算和存儲(chǔ)都有很大影響，比如把32位浮點(diǎn)變成16位定點(diǎn)，看起來只是減少了兩倍，但實(shí)際上，存儲(chǔ)數(shù)據(jù)時(shí)占用的內(nèi)存更少、傳輸數(shù)據(jù)量也更少、無論是加法還是乘法的運(yùn)算量也更少，所以僅僅是從32位變成16位，就會(huì)帶來4倍的能耗減少。從32位到8位，能帶來16倍的能耗減少；從32位到4位，能帶來64倍的能耗減少。這也是為什么所有的人工智能算法公司都在想把浮點(diǎn)變成定點(diǎn)，因?yàn)檫@會(huì)讓運(yùn)算的存儲(chǔ)和數(shù)據(jù)的傳輸更簡(jiǎn)潔。

　　對(duì)于每一個(gè)類似的技術(shù)方向，我們都在積極努力嘗試。比如，你可以先訓(xùn)練再量化；或者在訓(xùn)練的時(shí)候直接考慮量化的影響。

　　接下來是知識(shí)提煉。我們可以將其看成“教師”和“學(xué)生”的關(guān)系。比如可以將一個(gè)大模型想象成一個(gè)非常厲害的教授或者院士，但是往往在你的手機(jī)上，只需要一個(gè)小學(xué)生模型就能處理事情。比如我們只問它“冰箱里有多少菜”，小學(xué)生就能回答這個(gè)問題。如果大多數(shù)問題都在這個(gè)級(jí)別，你的手機(jī)只需一個(gè)“小學(xué)生模型”即可。知識(shí)提煉即可以通過對(duì)“教師模型”的學(xué)，將其改為一個(gè)“小學(xué)生模型”，這個(gè)模型在手機(jī)端很容易運(yùn)行。

　　接下來是推測(cè)性解碼。比如這個(gè)大語言模型一次只能解碼1個(gè)token，如果能用小模型，在同樣的時(shí)間和算力的情況下，可能可以生成4個(gè)token。用一個(gè)小模型生成多個(gè)不太準(zhǔn)確的token，然后把這些token直接送給大模型一次檢查并接受哪些token，這就比完全由大模型一個(gè)一個(gè)生成token要高效很多。這個(gè)就叫做推測(cè)性解碼。

　　下面是我們現(xiàn)在做的規(guī)劃器（Orchestrator）。如果用戶告訴他的手機(jī)“我今天要從上海飛到北京，請(qǐng)幫我查找我需要的航班和酒店”，那么手機(jī)需要調(diào)用不同的程序。由于現(xiàn)在不存在能夠把所有需求都安排好的一個(gè)程序，因此就需要智能體作為一個(gè)底層架構(gòu)，把所需的程序調(diào)用起來、把所需的資源放在一起，然后安排可以滿足用戶需求的功能。這就是在最基本的底層方面，我們對(duì)智能體進(jìn)行的支持。

　　接下來，我將介紹一下在機(jī)器人方面有哪些具體的AI應(yīng)用。我們看到，現(xiàn)在的機(jī)器人大多數(shù)時(shí)候都是利用計(jì)算機(jī)視覺或者深度學(xué)完成理解和功能執(zhí)行。但是，隨著近兩三年來大語言模型突破性的發(fā)展，實(shí)際上機(jī)器人是能夠理解我們對(duì)它提出的一些最基本的要求，那么它把“理解”這一環(huán)節(jié)解決之后，其他功能就更容易實(shí)現(xiàn)了。

　　機(jī)器人的大腦可以使用大語言模型，加上機(jī)器人學(xué)科實(shí)現(xiàn)的出色定位、導(dǎo)航和機(jī)械臂控制，可以打造非常智能的應(yīng)用。結(jié)合5G與AI，機(jī)器人能夠?qū)崿F(xiàn)網(wǎng)絡(luò)連接，賦能運(yùn)維和質(zhì)檢等生產(chǎn)環(huán)節(jié)，從而打造更加智能和現(xiàn)代化的工業(yè)環(huán)境。在這樣的工業(yè)環(huán)境中，我們可以進(jìn)行實(shí)時(shí)數(shù)據(jù)、供應(yīng)鏈優(yōu)化、高可靠性智能控制并帶來生產(chǎn)靈活性。我們看到在人工智能和5G的加持下，智能生產(chǎn)環(huán)境在中國及全球范圍內(nèi)可以得到日益廣泛的推廣。

　　最后，這是我們近期做的一個(gè)AI服務(wù)機(jī)器人展示。我們?nèi)绻嬖V機(jī)器人“我想喝水”或是“我口渴”，機(jī)器人會(huì)提供不同的飲料選擇，當(dāng)用戶選擇之后，機(jī)器人可以走到房間另一側(cè)，識(shí)別出用戶想要的飲料，比如水、茶或是可樂，然后拿給用戶。像這樣由人工智能驅(qū)動(dòng)的機(jī)器人，已經(jīng)可以在日常生活中實(shí)現(xiàn)類似的操作。

　　未來，我們會(huì)看到越來越多這樣的應(yīng)用場(chǎng)景，我們希望人工智能不僅是在云端運(yùn)行大語言模型、也希望這些人工智能算法能夠落地到終端，落地到手機(jī)、個(gè)人電腦、機(jī)器人、汽車、XR眼鏡等等，創(chuàng)造出更豐富多彩的應(yīng)用場(chǎng)景。謝謝大家。

相關(guān)閱讀

»延伸閱讀: 2024年第一季度：冷鏈物流股票管理費(fèi)用前十; 光伏多晶硅板塊股票研發(fā)經(jīng)費(fèi)10大排名（2024; 京東概念概念股票十強(qiáng)：2024年第一季度管理; 2024年第一季度食品安全板塊股票研發(fā)費(fèi)用排; 2024年第一季度：無線耳機(jī)股票管理費(fèi)用十大

»要聞導(dǎo)讀: 市場(chǎng)營銷渠道包括哪些; 平均固定成本的計(jì)算公式; 什么是貨幣乘數(shù) 貨幣乘數(shù)的計(jì)算公式; 投入預(yù)算是什么; 2023海帶行業(yè)發(fā)展現(xiàn)狀如何

官方微信

財(cái)經(jīng)專區(qū)

相關(guān)導(dǎo)讀

高通徐晧：5G與AI相結(jié)合，賦能打造更加智能和現(xiàn)代化的工業(yè)環(huán)境

高通徐晧：5G與AI相結(jié)合，賦能打造更加智能和現(xiàn)代化的工業(yè)環(huán)境