知識圖譜演算法
『壹』 鐭ヨ瘑鍥捐氨鈥滀笘鐣屾澂鈥濇滃崟鎻鏅擄紝搴﹀皬婊TranS綆楁硶鍒鋒柊涓栫晫綰褰
https://ogb.stanford.e/docs/leader_linkprop/#ogbl-wikikg2
OGB鏄鏂鍧︾忓ぇ瀛﹀彂甯冪殑鍥介檯鐭ヨ瘑鍥捐氨鍩哄噯鏁版嵁闆嗭紝涔熸槸鍥劇炵粡緗戠粶棰嗗煙鏈鏉冨▉銆佹渶鍏鋒寫鎴樻х殑鈥滅珵鎶鍦衡濓紝姣忓勾Meta錛堝師Facebook錛夈佽挋鐗瑰埄灝斿ぇ瀛︺佽殏鋩侀噾鏈嶃佺戝ぇ璁椋炵瓑浼楀氶《綰х爺絀舵満鏋勫拰浼佷笟閮戒細鍓嶆潵鍙傝禌銆
鍦ㄨ繖鍦衡滈珮鎵嬩簯闆嗏濈殑鍥介檯絝炶禌涓錛屽害灝忔弧鏁版嵁鏅鴻兘閮ˋI-Lab鍥㈤槦鎻愬嚭鍒涙柊鎬х煡璇嗗浘宓屽叆(KGE)妯″瀷TranS錛屽埛鏂頒簡OGBL-Wikikg2鍩哄噯鏁版嵁闆嗘渶楂樿板綍銆傝ュ洟闃熻〃紺簑ikikg2鍥炬暟鎹瑙勬ā宸ㄥぇ錛岃緇冭凱浠f椂闂撮暱錛屽湪鍒嗘暟浼樺寲絀洪棿宸叉帴榪戞瀬闄愮殑鎯呭喌涓嬶紝浠栦滑浠呬嬌鐢╒100-16G鏄懼瓨鐨凣PU灝辨墦璐ヤ簡鍏朵粬浣跨敤A100-40G鐨勫洟闃熴
搴﹀皬婊$殑AI鍐呭姛
鍥劇炵粡緗戠粶灝辨槸鍥炬暟鎹涓庣炵粡緗戠粶鐨勭粨鍚堛傚叾涓錛屽浘鏁版嵁鍙浠ョ畝鍗曠悊瑙d負涓縐嶇嫭鐗逛俊鎮琛ㄧ幇褰㈠紡鈥斺斿浘鐨勬瘡涓鑺傜偣鐪嬪仛鏄涓縐嶅疄浣擄紝姣斿備竴涓鐢ㄦ埛銆佷竴涓鍟嗗搧錛屾垨鑰呬竴涓浜嬩歡錛屽浘鐨勮竟鍒欒〃紺轟笉鍚屽疄浣撳拰浜嬩歡涔嬮棿鐨勫叧緋匯
鍥炬暟鎹鍦ㄧ幇瀹炰笘鐣屾棤澶勪笉鍦錛岄珮搴︾粨鏋勫寲鐨勫浘鏁版嵁褰㈡垚浜嗗簽澶х殑鐭ヨ瘑鍥捐氨錛岃繖縐嶇煡璇嗚〃紺哄艦寮忥紝涓篈I緋葷粺鎻愪緵浜嗗彲瀛︿範鐨勫厛楠岀煡璇嗭紝鑳藉熻幏寰楀勭悊澶嶆潅浠誨姟鐨勮兘鍔涖傚洜姝わ紝鍥劇炵粡緗戠粶綆楁硶鍦ㄩ噾鋙嶉庢帶棰嗗煙鏈夌潃騫挎硾鐨勫簲鐢ㄥ墠鏅銆
姣斿傞噾鋙嶉庢帶棰嗗煙寰寰渚濊禆浜庡ぇ閲忕殑鏂囨湰淇℃伅錛岃屽疄闄呬笂榪樺瓨鍦ㄧ潃澶ч噺鐨勭粨鏋勫寲鐨勭煡璇嗗浘璋變俊鎮寰呴庢帶妯″瀷浣跨敤銆傚逛簬鍩轟簬紲炵粡緗戠粶鐨勯庢帶妯″瀷鏉ヨ達紝濡備綍灝嗙繪暎鐨勫浘淇℃伅杞鎹㈡垚榪炵畫鐨勫悜閲忚〃紺哄嶮鍒嗛噸瑕併傝岄氳繃TranS妯″瀷鍙浠ユ湁鏁堟彁鍗囧浘緇撴瀯涓瀹炰綋鍜屽叧緋葷殑琛ㄧず鏁堟灉錛岃繘鑰屾寲鎺樻綔鈃忕殑澶嶆潅鍏崇郴錛屾彁鍗囬庢帶妯″瀷鐨勫噯紜搴︿笌鍖哄垎搴︺
搴炲ぇ鏁版嵁閲忥紝鏄閲戣瀺琛屼笟AI鍖栫殑澶╃劧浼樺娍錛屼絾鏁版嵁鐨勫嶆潅鎬э紝澶氱淮鎬э紝浠ュ強闅愮佺瓑闂棰樹篃涓洪噾鋙嶄紒涓氬甫鏉ヤ簡涓嶅皬鐨勬寫鎴樸傚害灝忔弧AI-Lab鍥㈤槦鍚屽﹁〃紺猴紝鍥劇炵粡緗戠粶鎶鏈錛岃兘澶熷府鍔╄屼笟闄嶆湰澧炴晥銆佽В鍐蟲暟鎹瀛ゅ矝鍜屽畨鍏ㄩ棶棰橈紝鍦ㄦ櫤鑳借幏瀹銆佹櫤鑳介庢帶銆佹櫤鑳界粡钀ャ佹櫤鑳芥満鍣ㄤ漢絳夊簲鐢ㄦ柟闈㈠彂鎸ョ潃閲嶈佷綔鐢ㄣ
鍦ㄥ浘紲炵粡緗戠粶涔嬪栵紝搴﹀皬婊AI-Lab鍦ㄦ繁搴﹀︿範銆佽$畻鏈鴻嗚夈佽嚜鐒惰璦澶勭悊錛屽寘鎷鏂囨湰鍚戦噺鍖栥佹枃鏈鍒嗙被銆佷俊鎮鎶藉彇絳夋柟鍚戜笂涔熸棭鏈夊竷灞銆傚幓騫3鏈堬紝璇ュ洟闃熷嚟鍊烡ML綆楁硶鑾峰緱MSMARCO鍥介檯姣旇禌涓鏂囨。鎺掑簭浠誨姟鐨勫啝鍐涖傚幓騫12鏈堬紝璇ュ洟闃熷張鐮斿彂浜嗚僵杈(XuanYuan)棰勮緇冩ā鍨嬶紝鍦ㄥ浗闄呮潈濞佹祴璇勫熀鍑咰LUE1.1姒滃崟涓銆屽姏鍘嬬兢闆勩嶆柀鑾風涓錛岃窛紱諱漢綾昏〃鐜頒粎宸3.38鍒嗐
鈥滄湭鏉ュ害灝忔弧AI-Lab鍥㈤槦灝嗙戶緇鍥寸粫鐭ヨ瘑鍥捐氨琛ュ叏銆佸疄浣撳歸綈絳夊叿浣撻棶棰樺睍寮娣卞叆鐮旂┒錛屽悓鏃跺吋欏炬洿騫誇箟鐨勫浘緗戠粶鍦ㄩ噾鋙嶉庢帶鏂瑰悜鐨勫簲鐢錛屽笇鏈涢氳繃璇稿傜ぞ浜ゅ叧緋匯佷氦鏄撳叧緋匯佸湴鐞嗗叧緋葷瓑淇℃伅鏋勫緩鐨勫ぇ瑙勬ā鍥劇綉緇滐紝榪愮敤鍥劇炵粡緗戠粶絳夌畻娉曟彁鍗囨ā鍨嬪湪淇$敤椋庨櫓璇勪及鍜屽弽嬈鴻瘓絳夋柟闈㈢殑浣跨敤鏁堟灉銆傗濆害灝忔弧鏁版嵁鏅鴻兘閮ㄨ礋璐d漢鏉ㄩ潚璇淬
『貳』 鐭ヨ瘑鍥捐氨
鍥犱負宸ヤ綔涓鍙備笌浜嗕竴涓鏅鴻兘闂絳旂浉鍏崇殑欏圭洰錛屾墍浠ラ渶瑕佷簡瑙b滅煡璇嗗浘璋扁濈殑鐩稿叧鐭ヨ瘑銆備綔涓轟竴涓闈炴妧鏈綾葷殑B絝浜у搧緇忕悊錛屽垰娑夎凍AI棰嗗煙錛屾湁浜涢檶鐢熷拰涓嶄範鎯銆
浜庢槸鎴戠湅浜嗗緢澶氭枃鐚鍜屾妧鏈縐戞櫘錛屼篃鍜ㄨ浜嗚韓杈歸兘鏄疉I鐨勬妧鏈鐢燂紝浠庝腑澶ц嚧浜嗚В浜嗏滅煡璇嗗浘璋扁濈殑涓浜涘師鐞嗭紝鏁寸悊浜嗕互涓嬫枃絝犮
甯屾湜鎴戠殑鏂囩珷鑳藉府鍔╅潪鎶鏈浜у搧緇忕悊錛屾垨鑰呭叾浠栧矖浣嶇殑鍚屽︼紝鏇寸畝鍗曞揩鎹風殑鐞嗚В浠涔堟槸鈥滅煡璇嗗浘璋扁濄
鍦ㄤ粙緇嶇煡璇嗗湴鍥句箣鍓嶏紝鍏堣翠竴涓嬬煡璇嗗湴鍥懼湪鏃ュ父鐢熸椿涓鐨勪嬌鐢ㄣ
鍐嶆瘮濡傦紝鍦ㄧ嚎鍖葷枟琛屼笟錛屾偅鑰呮兂鎸傚彿鍗翠笉鐭ラ亾鎸傚摢涓縐戝ょ殑鏃跺欙紝鍙浠ラ氳繃棰勮瘖鍔╂墜鑾峰彇縐戝や俊鎮銆傞勮瘖鍔╂墜鍩轟簬涓撲笟鍖葷枟鐭ヨ瘑鍥捐氨錛岄噰鐢ㄥ氱嶇畻娉曟ā鍨嬪拰澶氳疆鏅鴻兘娌熼氫簡瑙f偅鑰呯棶鎯咃紝鏍規嵁鎮h呯棶鎯呯簿鍑嗗尮閰嶅氨璇婄戝ゃ
浠ユ敮浠樺疂涓轟緥銆傚湪鏀浠樺満鏅涓嬶紝鍒╃敤鐭ヨ瘑鍥捐氨灝嗙エ鎹璇堥獥銆佷俊鐢ㄥ崱濂楃幇絳夎屼負鎵兼潃鍦ㄦ憞綃閲屻傞氳繃鐭ヨ瘑鍥捐氨鐨勫浘璋辨暟鎹搴擄紝閽堝逛笉鍚岀殑涓浣撳拰緹や綋榪涜屽叧鑱斿垎鏋愶紝浠庝漢鐗╁湪鎸囧畾鏃墮棿鍐呯殑琛屼負鏉ュ垽鏂鐢ㄦ埛錛屾瘮濡傚幓榪囩殑鍦版柟鐨処P鍦板潃錛屼嬌鐢ㄨ繃鐨凪AC鍦板潃(鍖呮嫭鎵嬫満銆丳C銆乄IFI絳夈)錛岀ぞ浜ょ綉緇滅殑鍏寵仈搴﹀垎鏋愶紝閾惰岃處鎴蜂箣闂存槸鍚︽湁鍘嗗彶浜ゆ槗淇℃伅銆
鍦ㄦ弿榪板畾涔変箣鍓嶏紝鎴戜滑鍏堟潵鐪嬬湅鐭ヨ瘑鍥捐氨3354 [E-R鍥綸鐨勮〃鐜板艦寮忥細
浠庝笂鍥懼彲浠ュ彂鐜幫紝鏃犺篍-R鍥懼彉鎹㈡垚浠涔堝艦鐘訛紝澶栬傚備綍涓嶅悓錛岄兘鏄鐢卞氫釜鐐瑰拰綰胯繛鎺ヨ屾垚鐨勫叧緋葷綉緇溿
鎴戜滑縐頒箣涓虹偣[瀹炰綋]鍜岀嚎[鍏崇郴]錛屾瘡涓瀹炰綋鍙鑳戒笌涓涓鎴栧氫釜瀹炰綋鏈夊叧緋匯傚熀浜庢わ紝瑕佸艦鎴愭渶綆鍗曠殑鍏崇郴緗戠粶錛屽彧闇瑕佷笁涓瑕佺礌錛氫袱涓瀹炰綋鍜屼竴涓鍏崇郴銆傝繖縐嶇粨鏋勶紝鎴戜滑縐頒箣涓衡滀笁鍏冪粍鈥濓紝澶氫釜涓夊厓緇勫艦鎴愪竴涓鐭ヨ瘑鍥捐氨銆
(涓夊)
姣斿傦細鈥滃皬鏂瑰拰灝忔槑鏄鍚屼簨錛屼袱浜洪兘鏄鍥犱負宸ヤ綔闇瑕佷拱絎旇版湰銆傚皬鏄庤夊緱鐢ㄨ嫻鏋滅瑪璁版湰浼氭洿鏈夎存湇鍔涳紝浜庢槸涓嬫墜浜嗭紝鑰屽皬鏂硅夊緱鑱旀兂絎旇版湰鏇翠究瀹滐紝鎵浠ラ夋嫨浜嗚仈鎯熾傚悗鏉ュ皬鏂瑰彂鐜幫紝鍚屼簨瀹夊埄榪囩殑杞浠秙ketch錛屽彧鏈夎嫻鏋滅數鑴戞墠鏈夈傚畠姣擜xure鏇存櫤鑳姐佹洿瀹規槗浣跨敤銆傗濅粠榪欏彞璇濅腑錛屾垜浠鍙浠ユ媶瑙e嚭澶氫釜涓夊厓緇勶細
鐭ヨ瘑鍦板浘涓夊厓緇勪笉浠呭彲浠ヨ〃杈懼疄浣撻棿鐨勫叧緋諱互澶栵紝榪樿兘琛ㄧず瀹炰綋鐨勬煇縐嶅睘鎬с傛瘮濡傗滃皬鏄庘濇槸瀹炰綋錛屼粬鐨勨滄у埆銆佸嚭鐢熸棩鏈熴佺睄璐鈥濈瓑鍙鍒掍負灞炴с
浜嬬墿琚瀹氫箟涓哄疄浣撶殑鈥滃睘鎬р濓紝鏈変袱涓鍩烘湰鍘熷垯錛
鍚屾椂鍊煎緱娉ㄦ剰鐨勬槸錛屾牴鎹瀹為檯鎯呭喌錛屽疄浣撴湁鏃跺彲浠ユ槸灞炴э紝灞炴т篃鍙浠ユ槸瀹炰綋銆
涓嬪浘鏄涓涓渚嬪瓙錛氣滃憳宸モ濇槸涓涓瀹炰綋錛屸滃憳宸ョ紪鍙楓佸撳悕銆佸勾榫勨濇槸鍛樺伐鐨勫睘鎬с傚傛灉鈥滆亴縐扳濇病鏈変笌鈥滃伐璧勩佸矖浣嶆觸璐淬佺忓埄鈥濇寕閽╋紝鎹㈠彞璇濊達紝瀹冩病鏈夊彲浠ヨ繘涓姝ユ弿榪扮殑鐗瑰緛錛岄偅涔堟牴鎹鍑嗗垯1錛屽畠鍙浠ヤ綔涓哄憳宸ュ疄浣撶殑涓涓灞炴с
浣嗘槸錛屽傛灉涓嶅悓鐨勮亴縐版湁涓嶅悓鐨勫伐璧勩佸矖浣嶆觸璐村拰涓嶅悓鐨勯檮鍔犵忓埄錛岄偅涔堟妸鑱岀О浣滀負涓涓瀹炰綋鏉ュ瑰緟灝辨洿鍚堥備簡銆
璇翠簡榪欎箞澶氾紝浣犲簲璇ヨ兘鏇村ソ鐨勭悊瑙c愮煡璇嗗湴鍥俱戠殑瀹氫箟浜嗭細鐭ヨ瘑鍦板浘鏄涓涓緇撴瀯鍖栫殑璇涔夌煡璇嗗簱錛岀敤鏉ヤ互絎﹀彿鐨勫艦寮忔弿榪扮墿鐞嗕笘鐣屼腑鐨勬傚康鍙婂叾鍏崇郴銆傚畠鐨勫熀鏈鏋勬垚鍗曚綅鏄鈥滃疄浣-鍏崇郴-瀹炰綋鈥濅笁鍏冪粍錛屼互鍙婂疄浣撳強鍏剁浉鍏崇殑灞炴-鍊煎廣傚疄浣撻氳繃鍏崇郴鐩鎬簰榪炴帴錛屽艦鎴愮綉緇滅煡璇嗙粨鏋勩
浜嗚В鐭ヨ瘑鍦板浘鐨勬瀯寤哄彲浠ュ府鍔╂垜浠鏇村ソ鍦扮悊瑙g煡璇嗗湴鍥劇殑浣跨敤鍘熺悊銆
鐭ヨ瘑鍦板浘鐨勬瀯寤鴻繃紼嬪彲浠ユ傛嫭涓轟笁縐嶆柟寮忥細
涓轟簡浠嬬粛姣忎竴姝ュ強鍏舵剰涔夛紝鎴戠紪鍒朵簡涓嬭〃錛
闈炲晢涓氳漿杞借鋒敞鏄庡嚭澶勩
涓嬪浘鏄鐭ヨ瘑鍦板浘鐨勬妧鏈妗嗘灦錛屽彲浠ュ府鍔╀綘鏇村ソ鐨勭悊瑙g煡璇嗗湴鍥炬瀯寤虹殑榪囩▼銆傝櫄綰挎嗕腑鐨勯儴鍒嗘槸鐭ヨ瘑鍦板浘鏋勫緩鐨勮繃紼嬶紝涔熸槸鐭ヨ瘑鍦板浘鏇存柊鐨勮繃紼嬨
1錛夎佹瀯寤虹煡璇嗗浘璋憋紝闇瑕佹庢牱鐨勬暟鎹鍛錛
絳旀堟槸錛氱粨鏋勫寲鏁版嵁銆
涓鑸鏉ヨ達紝鐭ヨ瘑鍦板浘鐨勫師濮嬫暟鎹鏈変笁縐嶇被鍨嬶細緇撴瀯鍖栨暟鎹銆侀潪緇撴瀯鍖栨暟鎹
鎵璋撶粨鏋勫寲鏁版嵁錛屾槸鎸囬珮搴︾粍緇囧寲銆佹牸寮忔暣榻愮殑鏁版嵁錛屾槸涓縐嶅彲浠ユ斁鍏ョ數瀛愯〃鏍肩殑鏁版嵁綾誨瀷銆傚吀鍨嬬殑緇撴瀯鍖栨暟鎹鍖呮嫭錛氫俊鐢ㄥ崱鍙楓佹棩鏈熴佽儲鍔¢噾棰濄佺數璇濆彿鐮併佸湴鍧銆佷駭鍝佸悕縐扮瓑銆
鐩告瘮涔嬩笅錛岄潪緇撴瀯鍖栨暟鎹鏄鎸囦笉瀹規槗緇勭粐鎴栨牸寮忓寲鐨勬暟鎹銆傚畠娌℃湁棰勫畾涔夌殑鏁版嵁妯″瀷錛屼笉鏂逛究浣跨敤鏁版嵁搴撶殑浜岀淮閫昏緫琛ㄦ潵琛ㄧず鏁版嵁銆傚畠鍙浠ユ槸鏂囨湰鐨勬垨闈炴枃鏈鐨勶紝浜哄伐鐨勬垨鏈哄櫒鐢熸垚鐨勩
綆鍗曟潵璇達紝闈炵粨鏋勫寲鏁版嵁灝辨槸鍏鋒湁鍙鍙樺瓧孌電殑鏁版嵁錛屼富瑕佹槸涓浜涙枃妗c佹枃妗g瓑銆傛瘮濡備竴浜涘悎鍚屾枃浠躲佹枃絝犮丳DF鏂囨。絳夈
鑰屽崐緇撴瀯鍖栨暟鎹鏄闈炲叧緋誨瀷鐨勶紝鍏鋒湁鍩烘湰鐨勫滻瀹氱粨鏋勬ā寮忥紝濡傛棩蹇楁枃浠躲乆ML鏂囨。銆丣SON鏂囨。絳夈
瀵逛簬闈炵粨鏋勫寲鏁版嵁鍜屽崐緇撴瀯鍖栨暟鎹錛屾垜浠闇瑕佺『璁ゅ彲浠ヤ粠涓鎻愬彇鍝浜涘彲鐢ㄤ俊鎮錛屽苟鍒跺畾淇℃伅褰曞叆瑙勫垯銆傚熷姪NLP絳夋妧鏈錛屽彲浠ュ皢鏈夋晥淇℃伅鐢熸垚緇撴瀯鍖栨暟鎹錛岃繘鑰岀撼鍏ョ煡璇嗗湴鍥俱
2錛夊浘鏁版嵁搴撳強鍏崇郴鍨嬫暟鎹搴撶殑宸鍒
鐭ヨ瘑鍦板浘鏄鍩轟簬鍥炬暟鎹搴撳瓨鍌ㄦ暟鎹鐨勩傛墍璋撳浘鏁版嵁搴擄紝涓嶆槸鎸囧瓨鍌ㄥ浘鐗囥佸浘鍍忕殑鏁版嵁搴擄紝鑰屾槸鎸囧瓨鍌ㄥ浘榪欑嶆暟鎹緇撴瀯鐨勬暟鎹搴撱備箣鍓嶆垜浠璇寸殑E-R鍥撅紝灝辨槸鍥炬暟鎹鐨勫彲瑙嗗寲灞曠ず銆傜殑
涓庝紶緇熺殑鍏崇郴鏁版嵁搴撲嬌鐢ㄤ簩緇磋〃瀛樺偍鏁版嵁涓嶅悓錛屽浘鏁版嵁搴撲紶緇熶笂琚褰掔被涓篘oSQ銆
L錛圢ot Only SQL錛夋暟鎹搴撶殑涓縐嶏紝涔熷氨鏄璇村浘鏁版嵁搴撳睘浜庨潪鍏崇郴鍨嬫暟鎹搴撱備負浜嗛伩鍏嶅唴瀹瑰お榪囨妧鏈鎬э紝榪欓噷涓嶄細瀵瑰浘鏁版嵁榪涜屾繁鍏ョ殑浠嬬粛錛屽彧綆鍗曡翠笅鍥炬暟鎹搴撳強鍏崇郴鍨嬫暟鎹搴撶殑宸鍒銆
鍏崇郴鍨嬫暟鎹搴撲笉鎿呴暱澶勭悊鏁版嵁涔嬮棿鐨勫叧緋伙紝鑰屽浘鏁版嵁搴撳湪澶勭悊鏁版嵁涔嬮棿鍏崇郴鏂歸潰鐏墊椿涓旈珮鎬ц兘銆
浼犵粺鐨勫叧緋誨瀷鏁版嵁搴撳湪澶勭悊澶嶆潅鍏崇郴鐨勬暟鎹涓婅〃鐜板緢宸錛岃繖鏄鍥犱負鍏崇郴鍨嬫暟鎹搴撴槸閫氳繃澶栭敭鐨勭害鏉熸潵瀹炵幇澶氳〃涔嬮棿鐨勫叧緋誨紩鐢ㄧ殑銆傛煡璇㈠疄浣撲箣闂寸殑鍏崇郴闇瑕丣OIN鎿嶄綔錛岃孞OIN鎿嶄綔閫氬父闈炲父鑰楁椂銆
鑰屽浘鏁版嵁搴撶殑鍘熷嬭捐″姩鏈猴紝灝辨槸鏇村ソ鍦版弿榪板疄浣撲箣闂寸殑鍏崇郴銆傚浘鏁版嵁搴撲笌鍏崇郴鍨嬫暟鎹搴撴渶澶х殑涓嶅悓灝辨槸鍏嶇儲寮曢偦鎺ワ紝鍥炬暟鎹妯″瀷涓鐨勬瘡涓鑺傜偣閮戒細緇存姢涓庡畠鐩擱偦鐨勮妭鐐瑰叧緋伙紝榪欏氨鎰忓懗鐫鏌ヨ㈡椂闂翠笌鍥劇殑鏁翠綋瑙勬ā鏃犲叧錛屽彧涓庢瘡涓鑺傜偣鐨勯偦鐐規暟閲忔湁鍏籌紝榪欎嬌寰楀浘鏁版嵁搴撳湪澶勭悊澶ч噺澶嶆潅鍏崇郴鏃朵篃鑳戒繚鎸佽壇濂界殑鎬ц兘銆
鍙﹀栵紝鍥劇殑緇撴瀯鍐沖畾浜嗗叾鏄撲簬鎵╁睍鐨勭壒鎬с傛垜浠涓嶅繀鍦ㄦā鍨嬭捐′箣鍒濆氨鎶婃墍鏈夌殑緇嗚妭閮借冭檻鍒幫紝鍥犱負鍦ㄥ悗緇澧炲姞鏂扮殑鑺傜偣銆佹柊鐨勫叧緋匯佹柊鐨勫睘鎬х敋鑷蟲柊鐨勬爣絳鵑兘寰堝規槗錛屼篃涓嶄細鐮村潖宸叉湁鐨勬煡璇㈠拰浣跨敤鍔熻兘銆
鑰屽叧緋誨瀷鏁版嵁搴擄紝濡傛灉涓寮濮嬪氨璁捐″ソ鏁版嵁瀛楁靛苟璺戜簡涓孌墊椂闂存暟鎹錛屾兂鍐嶅炲姞瀛楁靛氨浼氶潪甯擱夯鐑︼紝闇瑕佸紑鍙戜漢鍛樻垨浜у搧緇忕悊鍦ㄥ紑鍙戝垵鏈熷氨璁炬兂濂芥湭鏉ュ彲鑳戒細鏂板炵殑瀛楁碉紝騫舵彁鍓嶅姞鍏ュ埌鏁版嵁琛ㄤ腑銆
neo4j-鍥炬暟鎹搴
閫氫織鏄撴噦瑙i噴鐭ヨ瘑鍥捐氨錛圞nowledge Graph錛
鍥炬暟鎹搴撴槸浠涔堬紵
棰樺浘鏉ヨ嚜 Unsplash錛屽熀浜嶤C0鍗忚銆
鐩稿叧闂絳旓細PC絝錛屾槸浠涔堟剰鎬濓紵
PC絝鏄鍜岀Щ鍔ㄧ粓絝鐩稿瑰簲鐨勫悕璇嶏紝灝辨槸鎸囩綉緇滀笘鐣岄噷鍙浠ヨ繛鎺ュ埌鐢佃剳涓繪満鐨勯偅涓絝鍙o紝鏄鍩轟簬鐢佃剳鐨勭晫闈浣撶郴錛屽畠鏈夊埆浜庣Щ鍔ㄧ鐨勬墜鏈虹晫闈浣撶郴銆 鍏跺疄PC鐨勮嫳鏂囧叏縐版槸錛歅ersonal Computer 緲昏瘧鎴愪腑鏂囩殑鎰忔濇槸錛氫釜浜鴻$畻鏈烘垨鑰呬釜浜虹數鑴戙侾C鏄涓涓鍏鋒湁騫挎硾鍚涔夌殑璇嶈錛屼篃鏄鐢佃剳鐨勭粺縐般傚氨鐩鍓嶈岃█涓浜虹數鑴戠嶇被鏈夊緢澶氾紝姣斿備紶緇熺殑鍙板紡鐢佃剳銆丏IY鐢佃剳銆佺瑪璁版湰鐢佃剳銆佷互鍙婅繎騫存潵寮濮嬫祦琛岀殑騫蟲澘鐢佃剳銆佷竴浣撴満鐢佃剳銆佽秴綰ф湰銆佹帉涓婄數鑴戙佸祵鍏ュ紡璁$畻鏈哄潎灞炰簬PC鐨勮寖鐣淬備篃灝辨槸璇碢C鏄涓涓騫挎硾璇嶏紝灞炰簬鐢佃剳鐨勬葷О銆
『叄』 什麼是知識圖譜
知識圖譜,是通過將應用數學、圖形學、信息可視化技術、信息科學等學科的理論與方法與計量學引文分析、共現分析等方法結合,並利用可視化的圖譜形象地展示學科的核心結構、發展歷史、前沿領域以及整體知識架構達到多學科融合目的的現代理論。
『肆』 鐭ヨ瘑鍥捐氨錛氭柟娉曘佸疄璺典笌搴旂敤絎旇-絎5絝 鐭ヨ瘑鍥捐氨鋙嶅悎
鐭ヨ瘑鍥捐氨鍖呭惈鎻忚堪鎶借薄鐭ヨ瘑鐨勬湰浣撳眰鍜屾弿榪板叿浣撲簨瀹炵殑瀹炰緥灞傘傛湰浣撳眰鐢ㄤ簬鎻忚堪鐗瑰畾棰嗗煙涓鐨勬娊璞℃傚康銆佸睘鎬с佸叕鐞嗭紱瀹炰緥灞傜敤浜庢弿榪板叿浣撳疄浣撳硅薄銆佸疄浣撻棿鍏崇郴錛屽寘鍚澶ч噺鐨勪簨瀹炲拰鏁版嵁銆
鐭ヨ瘑鋙嶅悎鏄瑙e喅鐭ヨ瘑鍥捐氨寮傛瀯闂棰樼殑鏈夋晥閫斿緞銆傜煡璇嗚瀺鍚堝緩絝嬪紓鏋勬湰浣撴垨寮傛瀯瀹炰緥涔嬮棿鐨勮仈緋伙紝浠庤屼嬌寮傛瀯鐨勭煡璇嗗浘璋辮兘鐩鎬簰娌熼氾紝瀹炵幇瀹冧滑涔嬮棿鐨勪簰鎿嶄綔銆
錛1錛夎娉曚笉鍖歸厤
鏂規硶錛氬敖閲忓皢涓嶅悓鐨勮璦杞鍖栦負鍚屾牱鐨勮娉曟牸寮
錛2錛夐昏緫琛ㄧず涓嶅尮閰
鏂規硶錛氫緥濡傦紝閫氳繃瀹氫箟浠庤璦L1閫昏緫琛ㄧず鍒拌璦L2鐨勯昏緫琛ㄧず鐨勮漿鎹㈣勫垯
錛3錛夊師璇鐨勮涔変笉鍖歸厤
娉ㄦ剰錛氶噰鐢ㄤ笉鍚岃璦鐨勬湰浣撲氦浜掓椂錛岄渶瑕佹敞鎰忓畠浠鐨勫師璇琛ㄨ揪鎰忎箟鐨勫樊寮
錛4錛夎璦琛ㄨ揪鑳藉姏涓嶅尮閰
鏂規硶錛氶渶瑕佸皢琛ㄨ揪鑳藉姏寮辯殑璇璦鍚戣〃杈捐兘鍔涘己鐨勮璦杞鎹錛涗絾鏄濡傛灉琛ㄨ揪鑳藉姏寮虹殑璇璦騫朵笉瀹屽叏鍏煎硅〃杈捐兘鍔涘急鐨勮璦錛岃繖鏍風殑杞鎹㈠彲鑳戒細閫犳垚淇℃伅鐨勬崯澶便
錛1錛夋傚康鍖栦笉鍖歸厤
鐢變簬瀵瑰悓鏍風殑寤烘ā棰嗗煙榪涜屾娊璞$殑鏂瑰紡涓嶅悓閫犳垚鐨勩傛瘡涓浜哄箂chema鐨勭悊瑙d笉鍚岋紝鎶借薄鍑烘潵鐨凷chema涓嶅悓銆
a. 姒傚康鑼冨洿鐨勪笉鍖歸厤
姒傚康宸寮備互鍙婁漢鐨勪富瑙傚樊寮傘
b. 妯″瀷瑕嗙洊鐨勪笉鍖歸厤
妯″瀷鐨勫箍搴︼紙棰嗗煙鑼冨洿錛夈佹ā鍨嬬殑綺掑害錛堣︾粏紼嬪害錛夈佹湰浣撳緩妯$殑瑙傜偣錛堜粠浠涔堣掑害鏉ユ弿榪伴嗗煙鍐呯殑鐭ヨ瘑錛
錛2錛夎В閲婁笉鍖歸厤
瀵規傚康鍖栬存槑鏂瑰紡涓嶅悓閫犳垚鐨勩
a. 妯″瀷椋庢牸鐨勪笉鍖歸厤
i. 鑼冧緥涓嶅尮閰嶃傜浉鍚岀殑姒傚康浼氭湁涓嶅悓鐨勮〃紺猴紱浣跨敤涓嶅悓鐨勪笂灞傛湰浣
ii. 姒傚康鎻忚堪涓嶅尮閰嶃傦紵錛熸湰浣撶殑鏋勫緩涓嶅悓
b. 寤烘ā鏈璇涓婄殑涓嶅尮閰
i. 鍚屼箟鏈璇錛堣嚜鐒惰璦錛夈俢ar&automobile
ii. 鍚屽艦寮備箟鏈璇銆俢onctor(鎸囨尌瀹訛紱鍗婂間綋)
iii. 緙栫爜鏍煎紡銆俥g:鏃ユ湡(dd/mm/yyyy;mm-dd-yy)
璇璦灞傜殑涓嶅尮閰嶅彲浠ヨ繘琛岃璦涔嬮棿鐨勮漿鎹錛涙ā鍨嬪眰鐨勪笉鍖歸厤錛屽彲浠ユ牴鎹鍖歸厤綾誨瀷鐨勪笉鍚岄夋嫨姝g『鐨勭畻娉曘
錛1錛夊熀浜庡崟鏈浣撶殑闆嗘垚
涓嶅悓鏈浣撻泦鎴愪竴涓澶ф湰浣擄紝浣嗘槸榪欑嶆柟娉曞逛簬鍏朵腑鐨勬瘡涓鏈浣撴潵璇存椂榪囦簬搴炲ぇ鐨勶紝涓旀帹鐞嗗拰鏌ヨ㈢殑鏃跺欐晥鐜囦綆銆
錛2錛夊熀浜庡叏灞鏈浣-灞閮ㄦ湰浣撶殑闆嗘垚
鎶藉彇鍏卞悓鐭ヨ瘑鏋勫緩鍏ㄥ矓鏈浣擄紝鍚屾椂鍚勪釜緋葷粺鍙浠ユ嫢鏈夎嚜宸辯殑鏈浣擄紝縐頒負灞閮ㄦ湰浣擄紙鏄鍓旈櫎浜嗗叡鏈夌煡璇嗗悧錛燂紵涓嶆槸錛夈傞渶瑕佸緩絝嬪矓閮ㄦ湰浣撳拰鍏ㄥ矓鏈浣撲箣闂寸殑鏄犲皠銆傚矓閮ㄦ湰浣撲晶閲嶄簬鐗瑰畾鐨勭煡璇嗭紝鍏ㄥ矓鏈浣撲繚璇佷笉鍚岀郴緇熼棿寮傛瀯鐨勯儴鍒嗚兘榪涜屼氦浜掋
錛1錛夋槧灝勭殑瀵硅薄瑙掑害
鏄庣『鏄犲皠搴旇ュ緩絝嬪湪寮傛瀯鏈浣撶殑鍝浜涙垚鍒嗕箣闂淬
浠庢槧灝勫硅薄鏉ョ湅錛屽彲灝嗘湰浣撴槧灝勫垎涓烘傚康涔嬮棿鐨勬槧灝勫拰鍏崇郴涔嬮棿鐨勬槧灝勶紝鍏朵腑姒傚康涔嬮棿鐨勬槧灝勬槸鏈鍩烘湰鐨勬槧灝勩
錛2錛夋槧灝勭殑鍔熻兘瑙掑害
鏄庣『寤虹珛鍏鋒湁浣曠嶅姛鑳界殑鏈浣撴槧灝勩11縐
錛3錛夋槧灝勭殑澶嶆潅瑙掑害
鏄庣『浠涔堝艦寮忕殑鏄犲皠鏄綆鍗曠殑錛屼粈涔堟槸澶嶆潅鐨勩
濡備綍鍙戠幇寮傛瀯鏈浣撻棿鐨勬槧灝勶紵
鏈浣撴槧灝勮繃紼嬶細
錛1錛夊煎叆寰呮槧灝勭殑鏈浣
錛2錛夊彂鐜版槧灝勩
錛3錛夎〃紺烘槧灝勩
鍙戠幇鏄犲皠鏂規硶錛
(1) 鍩轟簬鏈璇鍜岀粨鏋勭殑鏈浣撴槧灝
(2) 鍩轟簬瀹炰緥鐨勬湰浣撴槧灝
(3) 緇煎悎鏂規硶
『伍』 知識圖譜是什麼有哪些應用價值
知識圖譜 (Knowledge Graph) 是當前的研究熱點。自從2012年Google推出自己第一版知識圖譜以來,它在學術界和工業界掀起了一股熱潮。各大互聯網企業在之後的短短一年內紛紛推出了自己的知識圖譜產品以作為回應。比如在國內,互聯網巨頭網路和搜狗分別推出」知心「和」知立方」來改進其搜索質量。那麼與這些傳統的互聯網公司相比,對處於當今風口浪尖上的行業 - 互聯網金融, 知識圖譜可以有哪方面的應用呢?
目錄
1. 什麼是知識圖譜?
2. 知識圖譜的表示
3. 知識圖譜的存儲
4. 應用
5. 挑戰
6. 結語
1. 什麼是知識圖譜?
知識圖譜本質上是語義網路,是一種基於圖的數據結構,由節點(Point)和邊(Edge)組成。在知識圖譜里,每個節點表示現實世界中存在的「實體」,每條邊為實體與實體之間的「關系」。知識圖譜是關系的最有效的表示方式。通俗地講,知識圖譜就是把所有不同種類的信息(Heterogeneous Information)連接在一起而得到的一個關系網路。知識圖譜提供了從「關系」的角度去分析問題的能力。
知識推理
推理能力是人類智能的重要特徵,使得我們可以從已有的知識中發現隱含的知識, 一般的推理往往需要一些規則的支持【3】。例如「朋友」的「朋友」,可以推理出「朋友」關系,「父親」的「父親」可以推理出「祖父」的關系。再比如張三的朋友很多也是李四的朋友,那我們可以推測張三和李四也很有可能是朋友關系。當然,這里會涉及到概率的問題。當信息量特別多的時候,怎麼把這些信息(side information)有效地與推理演算法結合在一起才是最關鍵的。常用的推理演算法包括基於邏輯(Logic) 的推理和基於分布式表示方法(Distributed Representation)的推理。隨著深度學習在人工智慧領域的地位變得越來越重要,基於分布式表示方法的推理也成為目前研究的熱點。如果有興趣可以參考一下這方面目前的工作進展【4,5,6,7】。
大數據、小樣本、構建有效的生態閉環是關鍵
雖然現在能獲取的數據量非常龐大,我們仍然面臨著小樣本問題,也就是樣本數量少。假設我們需要搭建一個基於機器學習的反欺詐評分系統,我們首先需要一些欺詐樣本。但實際上,我們能拿到的欺詐樣本數量不多,即便有幾百萬個貸款申請,最後被我們標記為欺詐的樣本很可能也就幾萬個而已。這對機器學習的建模提出了更高的挑戰。每一個欺詐樣本我們都是以很高昂的「代價」得到的。隨著時間的推移,我們必然會收集到更多的樣本,但樣本的增長空間還是有局限的。這有區別於傳統的機器學習系統,比如圖像識別,不難拿到好幾十萬甚至幾百萬的樣本。
在這種小樣本條件下,構建有效的生態閉環尤其的重要。所謂的生態閉環,指的是構建有效的自反饋系統使其能夠實時地反饋給我們的模型,並使得模型不斷地自優化從而提升准確率。為了搭建這種自學習系統,我們不僅要完善已有的數據流系統,而且要深入到各個業務線,並對相應的流程進行優化。這也是整個反欺詐環節必要的過程,我們要知道整個過程都充滿著博弈。所以我們需要不斷地通過反饋信號來調整我們的策略。
6. 結語
知識圖譜在學術界和工業界受到越來越多的關注。除了本文中所提到的應用,知識圖譜還可以應用在許可權管理,人力資源管理等不同的領域。在後續的文章中會詳細地講到這方面的應用。
參考文獻
【1】De Abreu, D., Flores, A., Palma, G., Pestana, V., Pinero, J., Queipo, J., ... & Vidal, M. E. (2013). Choosing Between Graph Databases and RDF Engines for Consuming and Mining Linked Data. In COLD.
【2】User Behavior Tutorial
【3】劉知遠 知識圖譜——機器大腦中的知識庫 第二章 知識圖譜——機器大腦中的知識庫
【4】Nickel, M., Murphy, K., Tresp, V., & Gabrilovich, E. A Review of Relational Machine Learning for Knowledge Graphs.
【5】Socher, R., Chen, D., Manning, C. D., & Ng, A. (2013). Reasoning with neural tensor networks for knowledge base completion. In Advances in Neural Information Processing Systems (pp. 926-934).
【6】Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., & Yakhnenko, O. (2013). Translating embeddings for modeling multi-relational data. In Advances in Neural Information Processing Systems (pp. 2787-2795).
【7】Jenatton, R., Roux, N. L., Bordes, A., & Obozinski, G. R. (2012). A latent factor model for highly multi-relational data. In Advances in Neural Information Processing Systems(pp. 3167-3175).