2023-09-08 09:31:58來源:DataFunTalk
首先介紹知識圖譜的一些基礎(chǔ)概念。
(資料圖片)
知識圖譜旨在利用圖結(jié)構(gòu)建模、識別和推斷事物之間的復雜關(guān)聯(lián)關(guān)系和沉淀領(lǐng)域知識,是實現(xiàn)認知智能的重要基石, 已經(jīng)被廣泛應(yīng)用于搜索引擎、智能問答、語言語義理解、大數(shù)據(jù)決策分析等眾多領(lǐng)域。
知識圖譜同時建模了數(shù)據(jù)之間的語義關(guān)系和結(jié)構(gòu)關(guān)系,結(jié)合深度學習技術(shù)可以把這兩者關(guān)系更好得融合和表征。
2、為什么要建知識圖譜我們要建設(shè)知識圖譜主要是從如下兩點出發(fā)考慮:一方面是螞蟻本身的數(shù)據(jù)來源背景特點,另一方面是知識圖譜能帶來的好處。
[1] 數(shù)據(jù)來源本身是多元和異構(gòu)的,缺乏一套統(tǒng)一的知識理解體系。
[2] 知識圖譜能夠帶來多個好處,包括:
語義標準化:利用圖譜構(gòu)建技術(shù)提升實體、關(guān)系、概念等的標準化和歸一化水平。領(lǐng)域知識沉淀:基于語義、圖結(jié)構(gòu)實現(xiàn)知識表示和互聯(lián),從而積累豐富的領(lǐng)域知識。知識復用:構(gòu)建高質(zhì)量的螞蟻知識圖譜,通過融合、鏈接等服務(wù)多下游,為業(yè)務(wù)降本提效。知識推理發(fā)現(xiàn):基于圖譜推理技術(shù)發(fā)現(xiàn)更多長尾知識,服務(wù)風控、信貸、理賠、商家運營、營銷推薦等場景。3、如何構(gòu)建知識圖譜的概覽在構(gòu)建各類業(yè)務(wù)知識圖譜的過程中,我們沉淀出了一套螞蟻知識圖譜的通用構(gòu)建范式,主要分為如下五個部分:
從業(yè)務(wù)數(shù)據(jù)出發(fā),作為圖譜冷啟動的重要數(shù)據(jù)來源。他域的知識圖譜同現(xiàn)有圖譜進行融合,通過實體對齊的技術(shù)來實現(xiàn)。業(yè)務(wù)領(lǐng)域結(jié)構(gòu)化的知識庫同現(xiàn)有的知識圖譜的進行融合,也是通過實體對齊的技術(shù)實現(xiàn)。非結(jié)構(gòu)和半結(jié)構(gòu)化的數(shù)據(jù),例如文本會對其進行信息抽取,通過實體鏈指技術(shù)實現(xiàn)對現(xiàn)有圖譜進行更新。領(lǐng)域概念體系和專家規(guī)則的融入,將相關(guān)概念、規(guī)則與現(xiàn)有知識圖譜進行鏈接。有了通用的構(gòu)建范式后,就需要進行體系化的建設(shè)。從兩個視角來看螞蟻知識圖譜的體系化建設(shè)。首先是從算法視角來看,有各種算法能力,比如知識推理、知識匹配等等。從落地視角來看,自下而上,最下面的基礎(chǔ)依賴包括圖計算引擎和認知底座計算;其上是圖譜底座,包括NLP&多模平臺以及圖譜平臺;往上是各種圖譜構(gòu)建技術(shù),基于此我們就可以構(gòu)建螞蟻知識圖譜;在知識圖譜的基礎(chǔ)上,我們可以做一些圖譜推理;再往上,我們提供一些通用的算法能力;最上面是業(yè)務(wù)應(yīng)用。
二、圖譜建設(shè)接下來分享螞蟻集團建設(shè)知識圖譜的一些核心能力,包括圖譜構(gòu)建、圖譜融合、圖譜認知三個方面。
1、圖譜構(gòu)建圖譜構(gòu)建的流程主要包括六步:
數(shù)據(jù)源,獲取多元數(shù)據(jù)。知識建模,將海量數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化的數(shù)據(jù),從概念、實體和事件三個域來建模。知識獲取,搭建了知識加工研發(fā)平臺。知識存儲,包括Ha3存儲和圖存儲等。知識運營,包括知識編輯、在線查詢、抽取等。持續(xù)學習,讓模型自動地進行迭代學習。構(gòu)建過程中的三個經(jīng)驗與技巧融合專家知識的實體分類在構(gòu)建知識圖譜中,需要對輸入的實體進行分類,在螞蟻場景下是一個大規(guī)模多標簽分類的任務(wù)。為了融合專家知識來進行實體分類,主要做如下三點優(yōu)化:
語義信息增強:引入label語義圖表示學習的Embedding。對比學習:加入層次label監(jiān)督的對比。邏輯規(guī)則約束:融入專家先驗知識。領(lǐng)域詞表注入的實體識別在實體識別的基礎(chǔ)上,從字詞連邊的圖結(jié)構(gòu)出發(fā),讓模型學習到對連邊的合理賦權(quán),對噪聲詞連邊減小權(quán)重。提出了邊界對比學習和語義對比學習兩個模塊:
邊界對比學習,用來解決邊界沖突問題。在詞表注入之后,構(gòu)建一個全連接圖,用GAT來學習每個token的表征,邊界分類正確的部分構(gòu)建一個正例的圖,錯誤的部分構(gòu)建負例的圖,通過對比讓模型學到每個token的邊界信息。語義對比學習,用來解決語義沖突問題。借鑒了原型學習思想,把label的語義的表征加進來,強化每個token與label語義之間的關(guān)聯(lián)關(guān)系。邏輯規(guī)則約束的小樣本關(guān)系抽取在領(lǐng)域問題上我們的標注樣本很少,會面臨few-shot或zero-shot的場景,在這種情況下進行關(guān)系抽取的核心思想就是引入外部知識庫,為了解決語義空間不同導致的性能下降問題,設(shè)計了基于邏輯規(guī)則的推理模塊;為了解決實體類型匹配導致的死記硬背問題,設(shè)計了細微差異感知模塊。
2、圖譜融合圖譜融合是指不同業(yè)務(wù)領(lǐng)域下圖譜之間的信息融合。
圖譜融合的好處:
跨業(yè)務(wù)的知識復用:基于圖譜本體模型,實現(xiàn)跨業(yè)務(wù)的知識連接。減少無效數(shù)據(jù)拷貝:連接即可應(yīng)用,標準化知識服務(wù)鏈路。業(yè)務(wù)快速價值落地:減少業(yè)務(wù)找數(shù)據(jù)的成本,通過知識復用帶來更大業(yè)務(wù)價值,降本提效。圖譜融合中的實體對齊知識圖譜融合過程中一個核心技術(shù)點就是實體對齊,這里我們采用了SOTA算法BERT-INT,主要包括兩個模塊,一個是表示模塊,另一個是交互模塊。
算法的實現(xiàn)流程主要包括召回和排序:
召回:在表示模塊,利用標題文本的 BERT向量相似度召回。
基于標題+屬性+鄰居的排序模型:ü 利用表示模塊,完成對標題、屬性和鄰居的向量表示:
計算標題的cos相似度。分別計算兩個實體的屬性和鄰居集合間的相似度矩陣,并提取一維相似度特征。將三個特征拼接為特征向量計算Loss。3、圖譜認知這一部分,主要介紹一下螞蟻內(nèi)部的知識表示學習框架。
螞蟻提出了一個基于Encoder-Decoder框架的知識表示學習。其中Encoder是一些圖神經(jīng)的學習方法,Decoder是一些知識表示的學習,比如鏈接預測。這套表示學習框架可以自監(jiān)督產(chǎn)出通用的實體/關(guān)系Embedding,有幾個好處:1)Embedding Size遠小于原始特征空間,降低了存儲成本;2)低維向量更稠密,有效緩解數(shù)據(jù)稀疏問題;3)同一向量空間學習,對多源異質(zhì)數(shù)據(jù)的融合更自然;4)Embedding具有一定的普適性,方便下游業(yè)務(wù)使用。
三、圖譜應(yīng)用接下來分享幾個在螞蟻集團中知識圖譜的典型應(yīng)用案例。
1、圖譜的場景應(yīng)用模式在介紹具體案例前,先來介紹一下螞蟻知識圖譜場景應(yīng)用的幾種模式,主要包括知識獲取、知識管理和推理,以及知識服務(wù)。如下圖所示。
2、一些典型的案例案例1:基于知識圖譜的結(jié)構(gòu)化匹配召回業(yè)務(wù)場景是支付寶主搜里面的小程序的內(nèi)容下掛,要解決的業(yè)務(wù)痛點是:
商品實體,以及商品上下位關(guān)系匱乏。小程序商品級理解能力弱。解決方案是,構(gòu)建了商家知識圖譜。結(jié)合商家圖譜的商品關(guān)系,實現(xiàn)對用戶query商品級別的結(jié)構(gòu)化理解。
案例2:用戶意圖實時預測在推薦系統(tǒng)應(yīng)用這一案例是針對首頁推薦進行用戶意圖實時預測,構(gòu)建了AlipayKG,框架如上圖所示。相關(guān)工作也發(fā)表在頂會www 2023上,可以參考論文做更進一步的理解。
案例3:融合知識表征的營銷券推薦這個場景是消費券推薦的一個場景,業(yè)務(wù)面臨的痛點為:
頭部效應(yīng)嚴重。用戶核銷領(lǐng)取行為稀疏。冷啟動用戶和券很多,缺少對應(yīng)的足跡數(shù)據(jù)。為了解決上述問題,我們設(shè)計了融合動態(tài)圖表征的深度向量召回算法。因為我們發(fā)現(xiàn)用戶消費券的行為是有周期性的,靜態(tài)的單條邊是無法建模這種周期性行為的。為此我們首先構(gòu)建了動態(tài)圖,接著采用團隊自研的動態(tài)圖算法來學習Embedding表征,得到表征之后再放到雙塔模型中去,進行向量召回。
案例4:基于診療事件的智能理賠專家規(guī)則推理最后一個案例是關(guān)于圖譜規(guī)則推理。以醫(yī)療保險健康圖譜為例,包括醫(yī)學知識、理賠規(guī)則、“人”的健康的信息,進行實體鏈指,再加上邏輯規(guī)則,來作為決策的依據(jù)。通過圖譜實現(xiàn)了專家理賠效率的提升。
四、圖譜與大模型最后簡單探討一下在當前大模型快速發(fā)展的背景下知識圖譜的機遇。
1、知識圖譜與大模型的關(guān)系知識圖譜與大模型各有優(yōu)缺點,大模型的主要有通用知識建模和普適性等優(yōu)點,而大模型的缺點正好是知識圖譜的優(yōu)點所能彌補的。圖譜的優(yōu)點包括準確性很高、可解釋性強等。大模型和知識圖譜是能夠相互影響的。
圖譜和大模型的融合通常存在三種路線,一種是利用知識圖譜來增強大模型;第二種是利用大模型來增強知識圖譜;第三種是大模型和知識圖譜協(xié)同并進,優(yōu)勢互補,大模型可以認為是一種參數(shù)化的知識庫,知識圖譜可以認為是一種顯示化的知識庫。
2、大模型與知識圖譜相應(yīng)用的案例大模型應(yīng)用于知識圖譜構(gòu)建在知識圖譜構(gòu)建的過程中,可以利用大模型來進行信息抽取、知識建模和關(guān)系推理。
如何利用大模型來應(yīng)用于知識圖譜的信息抽取達摩院的這個工作將信息抽取問題分解成了兩個階段:
在第一階段,我們想要找到文本中存在的實體、關(guān)系或者事件類型,以減小搜索空間和計算復雜度。在第二階段,我們根據(jù)前面抽取的類型和給定的對應(yīng)列表,進一步抽取出相關(guān)信息。將知識圖譜應(yīng)用于大模型將知識圖譜應(yīng)用于大模型主要包括三個方面:
將知識圖譜整合到大模型輸入中。可以利用知識圖譜來進行數(shù)據(jù)清洗,或利用知識圖譜直接顯式地進行形式化拼接。
將知識圖譜融合到大模型訓練中。比如同時進行兩個任務(wù)的訓練,知識圖譜可以做知識表示的任務(wù),大模型做MLM的預訓練,兩者聯(lián)合建模。
將知識圖譜注入到大模型推理中。首先可以解決大模型的兩個問題,一是將知識圖譜作為先驗約束,來避免大模型“胡說八道”;第二就是解決大模型時效性問題。另一方面,基于知識圖譜,可以為大模型生成提供可解釋方案。
知識增強的問答系統(tǒng)主要包括兩類,一塊是知識圖譜增強的問答系統(tǒng),即用大模型來優(yōu)化KBQA的模式;另一個是信息檢索增強,類似LangChain、GopherCite、New Bing等用大模型來做知識庫問答的形式。
知識增強的生成式搜索問答系統(tǒng),有如下優(yōu)勢:
通過接入搜索系統(tǒng),解決時效性問題。通過提供Reference鏈接,可以進行人工核查,以解決事實性錯誤問題。引入搜索結(jié)果,豐富上下文,增強大模型生成效果。3、總結(jié)與展望知識圖譜與大模型如何更好地交互協(xié)同共進,包括如下三個方向:
推進知識圖譜和大模型在NLP、問答系統(tǒng)等領(lǐng)域的深入應(yīng)用。使用知識圖譜進行大模型的幻覺檢測和去毒。結(jié)合知識圖譜的領(lǐng)域大模型研發(fā)。關(guān)鍵詞:
一、圖譜概覽首先介紹知識圖譜的一些基礎(chǔ)概念。1、什么是知識圖譜知識
在C 中,可以使用System Drawing Bitmap類實現(xiàn)圖片轉(zhuǎn)內(nèi)存緩存,以方便
無疑,元宇宙是當下炙手可熱的風口行業(yè)。無論是傳統(tǒng)玩家,抑或是互聯(lián)網(wǎng)
API(應(yīng)用程序接口)是一種允許不同應(yīng)用程序之間交換數(shù)據(jù)和功能的軟件接
在C++中,純虛函數(shù)和抽象類是面向?qū)ο缶幊讨兄匾母拍?。本文將會深?/p>
好消息,開發(fā)者心心念念的GPT-5終于要來了?今日,OpenAI官宣其首屆開
數(shù)據(jù)中心是現(xiàn)代生活的基本組成部分。在這個萬物互聯(lián)的時代,其是我們經(jīng)
MQTT和CoAP都是物聯(lián)網(wǎng)(IoT)使用的輕量級協(xié)議。它們在許多方面相似,但
生成式AI越來越流行,尤其是在商業(yè)領(lǐng)域。不久前,沃爾瑪宣布推出生成式
我是從Oracle5開始使用Oracle的,不過Oracle5、6的時代,我只是幫用戶
自去年ChatGPT發(fā)布后,業(yè)內(nèi)外都涌現(xiàn)出了一股對大型語言模型的狂熱情緒
把Span歸于語法糖,可能有些偏了,但偏了就偏了,哈哈,只要是分享就好
MongoDB是一種可伸縮的數(shù)據(jù)庫,支持數(shù)據(jù)分片和負載均衡,以實現(xiàn)高性能
世界最強AI——ChatGPT可以通過各種考試,甚至輸出回答讓人難以辨別真
開學季|“芝士”就是力量,5分鐘上學不遲到的早餐,真的漲知識了