-
深耕場(chǎng)景智能化升級(jí)實(shí)踐 聯(lián)通元景RAG技術(shù)獲最高級(jí)認(rèn)證
2025/1/15 16:09:38 來(lái)源:人民郵電報(bào) 【字體:大 中 小】【收藏本頁(yè)】【打印】【關(guān)閉】
核心提示:當(dāng)下,企業(yè)內(nèi)部積累了海量且結(jié)構(gòu)多樣的知識(shí)數(shù)據(jù),包括業(yè)務(wù)手冊(cè)、技術(shù)文檔、政策法規(guī)、標(biāo)準(zhǔn)流程以及內(nèi)部培訓(xùn)資料等,而傳統(tǒng)的人工數(shù)據(jù)整理和查詢過(guò)程費(fèi)時(shí)費(fèi)力,愈發(fā)低效。如何在海量信息當(dāng)下,企業(yè)內(nèi)部積累了海量且結(jié)構(gòu)多樣的知識(shí)數(shù)據(jù),包括業(yè)務(wù)手冊(cè)、技術(shù)文檔、政策法規(guī)、標(biāo)準(zhǔn)流程以及內(nèi)部培訓(xùn)資料等,而傳統(tǒng)的人工數(shù)據(jù)整理和查詢過(guò)程費(fèi)時(shí)費(fèi)力,愈發(fā)低效。如何在海量信息中又快又準(zhǔn)地查詢到所需內(nèi)容,為業(yè)務(wù)發(fā)展提供即時(shí)、可信的信息服務(wù),成為企業(yè)數(shù)字化轉(zhuǎn)型及智能化升級(jí)亟待解決的問(wèn)題。
人類查詢動(dòng)態(tài)信息要借助搜索而無(wú)法事先背誦記憶,遇到記不住的生僻字要查字典,在嚴(yán)肅場(chǎng)景發(fā)言時(shí)要依賴講稿。大模型也類似,事先訓(xùn)練時(shí)用的數(shù)據(jù)集里缺少最新動(dòng)態(tài)信息、個(gè)人或企業(yè)私有數(shù)據(jù)等,有時(shí)會(huì)一本正經(jīng)地“胡說(shuō)八道”,而通過(guò)外掛即時(shí)數(shù)據(jù)庫(kù)、私有知識(shí)庫(kù)、參考文檔等可以有效緩解。基于此,大模型的RAG(Retrieval-Augmented Generation,檢索增強(qiáng)生成)技術(shù)迅速崛起,成為有效破解這一難題的主流解決方案。
然而用戶的實(shí)際需求和數(shù)據(jù)是多樣的,導(dǎo)致通用RAG在實(shí)踐中仍面臨多重挑戰(zhàn),如檢索信息缺失、復(fù)雜PDF解析困難、無(wú)法提取特定內(nèi)容、格式處理不佳、統(tǒng)計(jì)類問(wèn)答能力缺失等。這些問(wèn)題削弱了RAG在實(shí)際場(chǎng)景中的精度與可信度,亟須通過(guò)技術(shù)創(chuàng)新與優(yōu)化進(jìn)行解決。中國(guó)聯(lián)通發(fā)揮其豐富業(yè)務(wù)場(chǎng)景和廣泛客戶觸點(diǎn)等優(yōu)勢(shì),通過(guò)大量項(xiàng)目經(jīng)驗(yàn)歷練深耕與創(chuàng)新實(shí)踐打造了元景RAG技術(shù),首批通過(guò)中國(guó)信通院檢索增強(qiáng)生成評(píng)估,并獲得當(dāng)前最高評(píng)級(jí)“4+”,并在企業(yè)真實(shí)落地場(chǎng)景中進(jìn)行了多項(xiàng)自主創(chuàng)新突破,例如級(jí)聯(lián)切分與自適應(yīng)切分、多路檢索融合、OCR精準(zhǔn)解析、富文本知識(shí)問(wèn)答、融合代碼模型支持統(tǒng)計(jì)分析類問(wèn)答、支持答案定位至出處等,顯著提升了RAG技術(shù)在真實(shí)場(chǎng)景中的召回率、問(wèn)答準(zhǔn)確率及答案可追溯性。目前,元景RAG已成功應(yīng)用于聯(lián)通內(nèi)外部企業(yè)的多個(gè)項(xiàng)目中,成為助力企業(yè)智能化升級(jí)的關(guān)鍵引擎。
級(jí)聯(lián)切分:提升長(zhǎng)文本召回匹配度。元景RAG通過(guò)級(jí)聯(lián)切分技術(shù),可以將原描述較長(zhǎng)的文本塊逐級(jí)切分至與用戶的問(wèn)題長(zhǎng)度相當(dāng)、語(yǔ)義相似的短文本,以解決用戶問(wèn)題短,但文本塊描述較長(zhǎng)導(dǎo)致的匹配相似度差的問(wèn)題,提升信息檢索的召回率,確保每一次檢索都更加精準(zhǔn)高效。
自適應(yīng)切分:增強(qiáng)知識(shí)理解的完整性。在表格問(wèn)答場(chǎng)景,傳統(tǒng)RAG切分容易導(dǎo)致完整描述被切斷,知識(shí)切片缺失表頭、標(biāo)題等,影響信息檢索效果。元景RAG自適應(yīng)切分可以做到自適應(yīng)語(yǔ)料拆分與整合,為切片補(bǔ)全表頭、標(biāo)題等關(guān)鍵信息,大大提升了表格問(wèn)答場(chǎng)景的召回率和問(wèn)答準(zhǔn)確率。
多路檢索融合:增加檢索能力多樣性。檢索環(huán)節(jié),聯(lián)通元景RAG技術(shù)在語(yǔ)義檢索的基礎(chǔ)上,擴(kuò)展了稀疏向量、關(guān)鍵詞等多維檢索方式,對(duì)用戶查詢?cè)~進(jìn)行全方位、多角度的檢索,實(shí)現(xiàn)信息的全面覆蓋和精準(zhǔn)定位,最終融合各路檢索結(jié)果進(jìn)行綜合排序,這一突破,讓信息檢索更加全面精準(zhǔn)。
元景OCR解析:實(shí)現(xiàn)PDF內(nèi)容精準(zhǔn)查找。聯(lián)通元景自研攻關(guān)融合多種視覺(jué)模型解決RAG應(yīng)用中PDF類文檔OCR識(shí)別(Optical Character Recognition,光學(xué)字符識(shí)別)、分欄順序、表格解析等難點(diǎn)問(wèn)題,實(shí)現(xiàn)PDF內(nèi)容“查得更準(zhǔn)、答得更對(duì)”,且基于實(shí)際數(shù)據(jù)集評(píng)測(cè),元景RAG性能領(lǐng)先業(yè)界一流競(jìng)品。
富文本知識(shí)問(wèn)答:圖文并茂生成答案。除了解析、處理和回答文檔中的文本內(nèi)容,元景RAG創(chuàng)新性增加了對(duì)文檔中圖片等富文本知識(shí)的解析、處理和回答,可以根據(jù)用戶提問(wèn)找出文檔中的相關(guān)圖片,圖文并茂生成答案,使得答案更加直觀易懂。
融合代碼模型:支持統(tǒng)計(jì)類問(wèn)答。傳統(tǒng)RAG問(wèn)答主要以非結(jié)構(gòu)化文本類知識(shí)問(wèn)答為主,在結(jié)構(gòu)化數(shù)據(jù)統(tǒng)計(jì)類問(wèn)答方面能力不足。元景RAG通過(guò)融合代碼模型,在統(tǒng)計(jì)類問(wèn)題中,能夠智能識(shí)別并檢索相關(guān)代碼和數(shù)據(jù),利用代碼模型進(jìn)行深度分析和計(jì)算,生成準(zhǔn)確可靠的答案,為用戶帶來(lái)統(tǒng)計(jì)類問(wèn)答領(lǐng)域的智能體驗(yàn)。
答案出處定位:追根溯源,有據(jù)可依。知識(shí)庫(kù)問(wèn)答中,獲得答案固然重要,知道答案的來(lái)源也同樣關(guān)鍵。元景RAG在生成答案時(shí),創(chuàng)新性根據(jù)答案的出處,精準(zhǔn)定位到答案在原文中的位置,這一功能增強(qiáng)了RAG生成答案的可信度和可追溯性,在專業(yè)知識(shí)問(wèn)答領(lǐng)域尤其重要,可以幫助用戶清楚了解答案來(lái)源,從而更加信任系統(tǒng)的輸出結(jié)果。
基于以上檢索、增強(qiáng)、生成等環(huán)節(jié)的多項(xiàng)突破性成果,聯(lián)通元景RAG在多個(gè)行業(yè)項(xiàng)目評(píng)測(cè)集中,召回率達(dá)到90%以上,問(wèn)答準(zhǔn)確率達(dá)到85%以上,達(dá)到業(yè)界領(lǐng)先水平。作為新質(zhì)生產(chǎn)力的重要組成部分,元景RAG全方位賦能聯(lián)通內(nèi)外部企業(yè),助力企業(yè)實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型和智能化升級(jí),在醫(yī)院?jiǎn)栐儭⒉少?gòu)招投標(biāo)、招生咨詢、辦公助手、黨建、設(shè)備故障診斷、專利開(kāi)發(fā)等場(chǎng)景中打造了數(shù)十個(gè)行業(yè)標(biāo)桿案例,在智能問(wèn)答領(lǐng)域?yàn)橛脩籼峁┝饲八从械闹悄堋⒏咝У男畔@取體驗(yàn)。
在廣州市中山三院,依托聯(lián)通元景RAG技術(shù)打造的醫(yī)療智能問(wèn)答助手,已經(jīng)成為醫(yī)護(hù)人員日常工作中不可或缺的智能助手。無(wú)論是最新醫(yī)療政策的解讀,還是院內(nèi)各類操作流程與規(guī)范的查詢,醫(yī)護(hù)人員都可以隨時(shí)隨地咨詢,輕松獲得準(zhǔn)確、權(quán)威的答案,為工作提供強(qiáng)有力的支持。
中國(guó)聯(lián)通集團(tuán)采購(gòu)部基于聯(lián)通元景RAG技術(shù)打造了“聯(lián)通易達(dá)”應(yīng)用,實(shí)現(xiàn)針對(duì)供應(yīng)鏈領(lǐng)域近萬(wàn)份法律法規(guī)、規(guī)章制度的智能咨詢服務(wù),面向全國(guó)授權(quán)用戶開(kāi)放,為內(nèi)部用戶及合作伙伴查詢國(guó)家招投標(biāo)法規(guī)提供隨身寶典,為了解聯(lián)通采購(gòu)規(guī)則提供專業(yè)指南,為挖掘潛在商機(jī)拓展業(yè)務(wù)合作提供合作錦囊。
為解決大學(xué)在招生階段無(wú)法快速回復(fù)學(xué)生、家長(zhǎng)咨詢的問(wèn)題,中國(guó)聯(lián)通與寧夏各高校達(dá)成合作,依托聯(lián)通元景RAG服務(wù)自研構(gòu)建高校大模型智能問(wèn)答助手,已在寧夏大學(xué)應(yīng)用,可有效解決高校回復(fù)不及時(shí)、不準(zhǔn)確的問(wèn)題,緩解高校在高峰期的答疑壓力。
中國(guó)聯(lián)通基于豐富落地實(shí)踐,借鑒人類職業(yè)技能形成規(guī)律,突破大模型開(kāi)發(fā)應(yīng)用范式技術(shù),打造“類人特色”的大模型開(kāi)發(fā)應(yīng)用工具集--一站式、零代碼、低門(mén)檻、易定制的元景大模型MaaS平臺(tái),融合開(kāi)源和生態(tài)模型,提供模型塑造、模型能力擴(kuò)展、通用標(biāo)準(zhǔn)功能沉淀、模型安全防護(hù)等“接地氣”工具,降低模型開(kāi)發(fā)使用門(mén)檻,讓更多行業(yè)自主高效打造具備“職業(yè)技能”的行業(yè)模型及應(yīng)用。其中,元景RAG是元景大模型MaaS平臺(tái)中模型能力擴(kuò)展組件的重要組成部分,已正式對(duì)內(nèi)外部開(kāi)發(fā)者提供服務(wù)。
未來(lái),聯(lián)通元景RAG將繼續(xù)探索和創(chuàng)新,為企業(yè)提供更多、更好、更智能的信息服務(wù),持續(xù)推動(dòng)人工智能的普惠化發(fā)展。(連欣)
轉(zhuǎn)自:人民郵電報(bào)
鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如有侵權(quán)行為,請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除,郵箱:cidr@chinaidr.com。- 熱點(diǎn)資訊
- 24小時(shí)
- 周排行
- 月排行
- “西藏游”熱度攀升
- 2.5萬(wàn)億元、9.8萬(wàn)億元,拔節(jié)生長(zhǎng)!地方特色產(chǎn)業(yè)優(yōu)勢(shì)“百花齊放”
- 多樣化“小小娃”托育服務(wù) “幼有善育”托起民生幸福
- 讓算力像水、電一樣便捷使用
- 假期出游火 文化味更濃——2025年端午節(jié)假期盤(pán)點(diǎn)
- 從鄉(xiāng)村出發(fā),赴一場(chǎng)開(kāi)心旅行
- “兒童食品”,是營(yíng)養(yǎng)升級(jí)還是營(yíng)銷(xiāo)游戲?
- 2024年6月社會(huì)融資規(guī)模存量統(tǒng)計(jì)數(shù)據(jù)報(bào)告
- 我國(guó)最大采油廠單日外輸天然氣量創(chuàng)歷史新高
- 4月交通運(yùn)輸經(jīng)濟(jì)運(yùn)行情況