亚洲日韩欧美视频|亚洲国产天堂在线观看|日韩AV免费无码久久|无码中出人妻中文字幕av|激情国产av做激情国产爱|国产精品99一区二区三区|亚洲欧美综合国产精品免费一区|国产刚发育娇小性色XXXXX

當前位置:首頁 > 新聞中心 > 新聞資訊 > 車市評論

合眾新能源汽車:大模型上車成為“車大腦”,如何賦能智能語音交互?

2024年1月7日來源:廣西汽車網(wǎng)

2023年12月12日,在2023第五屆智能座艙與用戶體驗大會上,據(jù)合眾新能源汽車股份有限公司軟件開發(fā)總工程師蔡勇介紹,語音作為座艙的第一交互方式,自2010年語音輸入法的推出開始萌芽;2016年,語音助手的前裝上車開始引起行業(yè)的關注。但直到2019年,行業(yè)推出“全場景的連續(xù)對話”才使得語音助手的發(fā)展走向成熟。2023年,大模型技術的出現(xiàn)將帶來新的賽道。

蔡勇表示,哪吒汽車的語音助手一直圍繞自然、全面、聰穎三個關鍵詞進行設計。而大模型技術表現(xiàn)為通才、專業(yè)、自然三個特點。從C端來看,大模型將來個性化服務的變革,比如個性化頭像,昵稱,情感陪伴;從B端來看,將主要實現(xiàn)降本增效,在文本、圖片、視頻、編程、報表等方面帶來助力。當前,大模型上車仍處于萌芽期,在應用上主打功能移植、以宣傳為主、與車的結(jié)合較少。

面向大模型的思考,蔡勇認為大模型實現(xiàn)可以作為內(nèi)部工具使用,比如,可以進行數(shù)據(jù)和評價上的應用;當前大模型上車還處于探索期,重點方向應該是大模型要跟車場景結(jié)合;最后在成長期,大模型將發(fā)揮“車大腦”的功能,進行座艙功能的主動執(zhí)行,并且是“最適合你”的。

image.png

蔡勇 | 合眾新能源汽車股份有限公司軟件開發(fā)總工程師

以下為演講內(nèi)容整理:

首先簡單介紹我們的公司——合眾新能源汽車股份有限公司。我們公司的Logo是由人、樹、泉三個元素疊合而成,這不僅體現(xiàn)了我們公司對大自然的敬畏,也象征著我們以人為本、與自然和諧共生的理念。

公司的品牌初心是為人民造車,這不僅僅是一句口號,更是我們對社會、對消費者的承諾。我們的價值觀是“科技平權(quán)”,這四個字雖然簡單,但卻承載著我們的使命和愿景。我們希望通過科技的力量,打破傳統(tǒng)豪華車與普通消費者之間的壁壘,讓更多的人能夠享受到高品質(zhì)的汽車生活。

目前,我們公司推出了五款車型,包括哪吒V、哪吒U、哪吒S、哪吒GT以及剛剛上市的哪吒X。這些車型各具特色,滿足了不同消費者的需求。 

image.png

圖源:演講嘉賓素材

車載語音現(xiàn)狀

接下來,和大家分享車載語音的發(fā)展歷程。作為一名從業(yè)多年的專業(yè)人士,我見證了車載語音從無到有、從簡單到復雜的發(fā)展過程。2010年,隨著智能手機的普及,語音輸入法應運而生。那個時候,我們還在思考如何將語音技術應用到汽車上。隨著技術的不斷進步,車載語音助手逐漸成為現(xiàn)實。2016年,斑馬與上汽合作推出了eRX5車型,將語音助手前裝至車內(nèi),實現(xiàn)了與整車功能的緊密結(jié)合,這標志著一個新的時代的開始。

然而,車載語音助手的發(fā)展并非一帆風順。在2019年之前,語音助手的使用體驗并不理想。每次只能執(zhí)行一個命令,無法連續(xù)對話;與車輛功能的結(jié)合也相對較少。直到行業(yè)在2019年推出了全場景連續(xù)對話功能,才真正解決了這些問題。如今,頭部車企的語音助手都已經(jīng)具備了全場景連續(xù)對話的特點,這為用戶帶來了更加便捷、智能的用車體驗。未來,隨著技術的不斷突破,車載語音助手將會迎來更加廣闊的發(fā)展空間。新的賽道、新的產(chǎn)品將會不斷涌現(xiàn),為用戶帶來更加美好的生活體驗。

image.png

圖源:演講嘉賓素材

接下來,以哪吒汽車的語音助手為例,與大家探討2019年之后所呈現(xiàn)出的幾個重要特點。我們的云助手產(chǎn)品始終堅守三個核心理念:自然、全面和聰穎。

首先是“自然”,這涉及到交互的自然流暢性。其中,喚醒速度是一個關鍵因素。經(jīng)過大量的優(yōu)化工作,我們在合作伙伴的代碼基礎上實現(xiàn)了行業(yè)領先的喚醒速度,端到端僅需300毫秒。我們采用目前最先進的流式理解技術,實現(xiàn)字詞的邊識別邊理解。這就像人們在對話時,每說一個字或詞,大腦都在對其進行處理。

今年10月,我們OTA成功推送了“兩字喚醒”功能,只需簡單的“哪吒”命令,無需再添加“你好”?蛻羝毡榉答佭@種簡化方式更為友好。實踐證明,只要下定決心,技術難題都可以克服。

其次,我們的語音助手實現(xiàn)了70%的車控功能全覆蓋。無論是打開車窗、調(diào)節(jié)音量還是其他控制功能,用戶都可以通過語音助手輕松實現(xiàn)。在“可見即可說”方面,我們也做到了全覆蓋。去年2月,我們推出了“圖片可見即可說”功能,用戶只需用自然語言描述圖片,助手就能識別并與之互動。今年5月,我們再次引領行業(yè)潮流,推出了更先進的多模態(tài)語音交互功能。例如,當副駕駛乘客要求聽歌或看視頻時,語音助手會根據(jù)OMS攝像頭捕捉到的副駕駛視線所及的屏幕,自動切換到相應的中控屏或副駕屏。這大大提升了用戶體驗和交互的自然性。

最后是“聰穎”。語音導航的自學習。盡管目前的語音識別技術在準確率方面取得了顯著進步,但對于某些特定的POI地點,尤其是新出現(xiàn)的地點,仍然存在一定挑戰(zhàn)。例如,上海的金科中心,其名字中的“金”和“晶”的發(fā)音對于普通人來說,可能難以通過發(fā)音區(qū)分清楚。為了解決這一問題,我們開發(fā)了一項自學習技術。當用戶首次使用語音導航,識別出錯時,只需手動發(fā)起導航至該地點,系統(tǒng)便會自學習成功。下次再導航至同一地點時,系統(tǒng)將自動調(diào)整語音識別結(jié)果,從而提高語音導航的準確性。

語音使用量是一個關鍵指標,它反映了語音產(chǎn)品對車輛貢獻的價值。為了更直觀地展示語音助手的價值,我向大家分享一組關于我們公司用戶數(shù)據(jù)的統(tǒng)計結(jié)果。在我們的用戶群體使用中,“意圖使用量”達到800+。與其他企業(yè)相比,我們的用戶特點呈現(xiàn)出較弱的“長尾效應”。這意味著用戶的需求分布相對均勻,而不僅僅是集中在少數(shù)幾個常用功能上。例如,后視鏡調(diào)節(jié)、座椅加熱、打開后備箱等功能的語音使用率都很高,而不僅僅局限于空調(diào)、音樂等頭部效應的功能。這種多樣化的需求分布使得語音助手在功能覆蓋方面更具挑戰(zhàn)性,同時也更加有價值。

另一個值得關注的數(shù)據(jù)是平均日活躍率。我們?nèi)栈钴S率的下限是80%,這在國內(nèi)同行中并不容易實現(xiàn)。有些同行可能會將一些不必要的主動交互計入日活率,例如上車時的問候語等。而我們定義的日活率是必須基于用戶主動喚醒語音助手執(zhí)行任務的場景。這意味著每天有80%的車輛在行駛過程中主動使用了語音助手來完成各種任務。同時,每輛車平均使用有效指令的下限是10次,這些指令涵蓋了從空調(diào)調(diào)節(jié)、座椅調(diào)整到音樂播放等各種功能。

想象一下,駕駛員每天駕駛車輛的時間大約為2小時,其中來回各占1小時。在這段時間里,駕駛員需要處理許多與駕駛相關的任務,如調(diào)節(jié)空調(diào)、座椅等。而我們的語音助手能夠協(xié)助完成十項任務,這意味著它為駕駛員節(jié)省了大量的時間和精力。

大模型的三大特點——通才、專業(yè)和自然

從使用者的角度,大模型具備三大特點:通才、專業(yè)和自然。

首先,通才。GPT采用全社會的語料學習,這意味著它在知識的廣度上具有顯著優(yōu)勢。它知道的內(nèi)容涵蓋了各個方面,無論是娛樂、教育還是專業(yè)領域的知識,都能夠給予較為準確的回應。

其次,專業(yè)。大模型在覆蓋面很廣的情況下,也能夠在每個領域表現(xiàn)出深刻理解。目前,GPT3.5已經(jīng)可以看作是一個全科畢業(yè)生,具備扎實的基礎知識。而當GPT發(fā)展到4.0、5.0等更高版本時,它將成為全科博士畢業(yè)生,知識水平和理解能力將達到新的高度。我了解到,今年年底Open AI將推出GPT4.5,我們有望見證更為震撼的表現(xiàn)。

最后,自然。大模型的交流方式非常自然,就像人與人之間的對話一樣。使用者不需要采用特殊的專業(yè)術語與模型溝通,只需使用日常語言即可。這種自然的交流方式使得大模型在各個領域的應用更加廣泛,不僅限于AI領域。

對于2C和2B兩個領域來說,大模型的影響和價值是顯而易見的。

從C的角度來看,大模型能夠帶來個性化體驗。例如,現(xiàn)在市面上有一些創(chuàng)業(yè)公司利用大模型為用戶生成個性化的職業(yè)照、證件照或頭像等。這些服務都與個性化息息相關,滿足了用戶對于獨特性和定制化的需求。

此外,大模型在工具類應用中也表現(xiàn)出色。例如,微軟推出的Copilot工具可以幫助用戶更高效地使用復雜的軟件,如Office和幻燈片等。這種工具類應用能夠大大提高用戶的生產(chǎn)力和效率,使工作變得更加便捷和高效。

在B端領域,大模型的作用更加突出。它就像電力一樣,為生產(chǎn)和生活帶來了效率的大幅提升。例如,在文本創(chuàng)作方面,大模型可以自動生成文章、摘要等文本內(nèi)容,大大減輕了寫作者的負擔。在視頻生成方面,大模型可以根據(jù)給定的劇本或小視頻片段自動生成后續(xù)內(nèi)容,極大地提高了視頻創(chuàng)作的效率。

image.png

圖源:演講嘉賓素材

此外,大模型在編程和報表能力方面也表現(xiàn)出色。對于企業(yè)而言,報表的生成是一項重要的任務。而有了大模型的支持,報表的生成將變得更加高效和準確。這不僅可以提高企業(yè)的運營效率,還可以為企業(yè)決策提供更加可靠的數(shù)據(jù)支持。

接下來,我將對大模型的現(xiàn)狀進行簡要的探討。自2022年大模型推出以來,目前仍處于萌芽期。然而,何時結(jié)束這一階段,我暫時無法給出明確的答案。但我認為,一個重要的標志是當具有強烈感知能力的智能場景落地時,這一階段才算告一段落。尤其需要注意的是與車輛緊密相關的智能場景。

大模型上車現(xiàn)狀

目前,國內(nèi)在大模型上車方面呈現(xiàn)出三個顯著特點:

第一,以功能移植為主。簡單將手機或電腦上的大模型直接移植到車上,而不考慮其與車輛的契合度。

第二,以PR宣傳為主。企業(yè)過度強調(diào)自己在車輛上應用了大模型,而忽略了實際的應用效果和用戶體驗。

第三,與車輛功能的結(jié)合較少。大部分已上車的大模型應用與車輛的實際功能并無太大關聯(lián),如娛樂八卦、天文地理、歷史知識、情感聊天、兒童教育、成語故事等。雖然這些內(nèi)容對于豐富駕駛體驗有一定作用,但它們與車輛的核心功能并無直接關聯(lián)。

現(xiàn)在整個行業(yè)都面臨著降本增效的壓力,資源有限。因此,企業(yè)要更加聚焦于真正與車輛功能相關的應用場景,而不是過度追求PR效果。

我們對大模型的思考

首先,大模型可以作為內(nèi)部工具,提高工作效率。比如在語音團隊中,我們有很多數(shù)據(jù)相關的工作,如準備語料、數(shù)據(jù)增強等。而有了大模型后,這些工作變得異常輕松,大大提高了數(shù)據(jù)生成的質(zhì)量和效率。

再者,大模型還可以用于多語種翻譯。隨著車企的全球化戰(zhàn)略加速,多語言支持變得尤為重要。像我們公司即將進軍泰國市場,我們需要泰語的語料支持。而大模型可以幫助我們快速、準確地完成翻譯工作。

其次,大模型還可以應用于自動化標注和自動化評價等方面。例如,我們可以通過大模型對語音評價系統(tǒng)進行優(yōu)化,讓它更好地完成用戶的任務。我們將用戶的埋點信息和上下文信息提供給大模型,讓它判斷任務是否完成。

最后,由于用戶的所有語音指令都會被記錄在日志中,我們可以通過大模型對這些日志進行分析,挖掘出用戶的意圖和需求。例如,用戶可能希望通過語音調(diào)節(jié)氛圍燈,但我們的車型并未提供這一功能。通過大模型的分析,我們可以發(fā)現(xiàn)這一需求,進而考慮是否需要加入這一功能。

image.png

圖源:演講嘉賓素材

對于在C端的應用,我認為目前還處于萌芽期。而結(jié)束這一階段的一個重要標志將是與車輛相契合的智能場景落地。進入探索期后,我們應該重點關注語音功能與車場景和智能駕駛的深度融合,借助大模型使語音助手真正進入成長期。

從座艙的角度來看,希望大模型能夠助力我們實現(xiàn)全車的語音可控、全生態(tài)的語音融合以及全車機的語音支持。沒有大模型的幫助雖然也可以實現(xiàn)這些功能,但成本和效率將無法得到有效控制。而大模型的最大優(yōu)勢正是降本增效,這與當前行業(yè)的核心需求高度契合。

在智能駕駛方面,語音與智能駕駛的結(jié)合已經(jīng)開始顯現(xiàn),但還處于初級階段。這主要是因為智能駕駛尚未普及,因此沒有太多精力去考慮與語音的結(jié)合。但隨著智能駕駛的逐步普及,這種結(jié)合將變得更加緊密。例如,在自動駕駛過程中,用戶可能因為特殊需求而產(chǎn)生的臨時干預路線或請求停車等操作,而這些都可以通過語音指令實現(xiàn)。大模型能夠?qū)④囕v、道路和人的信息整合在一起,從而提供更加智能化的服務。

隨著大模型和語音助手的不斷滲透,當整個汽車行業(yè)的智能化水平達到一定高度時,我們將進入主推的成長期。在這個階段,車輛能夠接收和處理的信息將大大增加,大模型的多模態(tài)輸入功能將得到充分應用。這些信息包括車輛自身的傳感器信息、道路導航軟件提供的POI信息以及車外攝像頭捕捉到的圖像信息等。

image.png

圖源:演講嘉賓素材

通過將這些信息輸入到大模型中,我們可以獲得一個類似于“車大腦”的功能。這個“車大腦”將主動執(zhí)行最適合用戶的操作,包括車窗、空調(diào)、座椅、天窗、雨刷、車鎖等功能的調(diào)節(jié)。它能夠根據(jù)用戶的歷史信息和多模態(tài)輸入信息來做出最適合用戶的決策。例如,在駕駛過程中,用戶可以根據(jù)自己的需求選擇不同的駕駛模式,而“車大腦”將根據(jù)用戶的選擇主動執(zhí)行相應的操作。

總之,大模型在汽車行業(yè)的應用前景廣闊,尤其是在語音系統(tǒng)方面,從而為用戶提供更加智能化、個性化的服務。相信隨著技術的不斷進步和發(fā)展,大模型將在汽車行業(yè)中發(fā)揮越來越重要的作用,為人類帶來更加智能、便捷的出行體驗。

(以上內(nèi)容來自合眾新能源汽車股份有限公司軟件開發(fā)總工程師蔡勇于2023年12月12日-13日在2023第五屆智能座艙與用戶體驗大會發(fā)表的《大模型賦能的智能語音交互》主題演講。)

相關閱讀更多相關閱讀

  • 指導價:5.99-7.59萬元
  • 級 別:微型車
  • 排 量:40 55
  • 變速箱:31.18kWh 38.54kWh
    哪吒V 商家快訊更多
    最新車訊更多
      本類熱門更多
      微信掃一掃
      微信掃一掃

      關于我們 | 聯(lián)系我們 | 加入收藏 | 廣告服務 | 經(jīng)銷商注冊 | 人才招聘
      © 2005-2019 Gxqcw Inc. All rights reserved. 廣西汽車網(wǎng) 版權(quán)所有
      E_Mail:vip@gxqcw.com  電話:15077070808  地址:南寧市青秀區(qū)濱湖路48號南湖聚寶苑D區(qū)15樓
      桂ICP備06004827號    經(jīng)營許可證編號:桂B(yǎng)2-20090044
    • 網(wǎng)絡資源
    • 國家資源
    • 全球資源
    • 人口普查為什么既要“查人”還要“查房”?官方回應來了
    • 寧大學子編寫中英文對照漫畫版《傳習錄》
    • 7名江蘇游客失聯(lián) 家屬赴泰多部門開啟綠色通道
    • 長春長生公司董事長等15人被刑拘
    • 惡攻擊中共,蓬佩奧倍顯偏執(zhí)淺薄 用偏見筑墻是鬧劇
    • 海外車商加速進軍中國市場步伐
    • 上海又添“打卡圣地” 豫園聯(lián)手美影廠打造200米“網(wǎng)紅墻”
    • 人民網(wǎng)評:面對丑書橫行 為何中國書協(xié)如此淡定?
    • 蔡英文的“出訪慶功會”被緊急取消 民調(diào)也被收回
    • 俄媒:地質(zhì)學家解開馬丘比丘古城地處山隅之謎
    • 法國公布11處“先驅(qū)性”頻段5G試驗平臺