您当前的位置是:  首页 > 技术 > 企业通信 > 资讯 >
当前位置:首页 > 技术 > 企业通信 > 资讯 > 华为云摘得信息检索领域国际权威比赛WSDM Cup金牌

华为云摘得信息检索领域国际权威比赛WSDM Cup金牌

2020-03-02 08:57:23   作者:   来源:CTI论坛   评论:0  点击:3738


  近日,在美国休斯敦闭幕的第13届网络搜索与数据挖掘国际会议(WSDM 2020)上,华为云语音语义创新Lab带领四所高校学生组成的联合团队摘得WSDM Cup大赛2020“论文引用意图识别任务”金牌。
  WSDM被誉为全球信息检索领域最有影响力也最权威的会议之一,会议关注社交网络上的搜索与数据挖掘,尤其关注搜索与数据挖掘模型、算法设计与分析、产业应用和提升准确性与效果的实验分析。今年已经是WSDM的第十三届会议。
 闂傚倸鍊搁崐鎼佸磹閹间礁纾归柟闂寸绾惧綊鏌熼梻瀵割槮缁炬儳缍婇弻鐔兼⒒鐎靛壊妲紒鐐劤缂嶅﹪寮婚悢鍏尖拻閻庨潧澹婂Σ顔剧磼閹冣挃闁硅櫕鎹囬垾鏃堝礃椤忎礁浜鹃柨婵嗙凹缁ㄥジ鏌熼惂鍝ョМ闁哄矉缍侀、姗€鎮欓幖顓燁棧闂備線娼уΛ娆戞暜閹烘缍栨繝闈涱儐閺呮煡鏌涘☉鍗炲妞ゃ儲鑹鹃埞鎴炲箠闁稿﹥顨嗛幈銊╂倻閽樺锛涘┑鐐村灍閹崇偤宕堕浣镐缓缂備礁顑呴悘婵嬫倵椤撶喍绻嗛柕鍫濈箳閸掍即鏌涢悤浣镐簽缂侇喛顕ч埥澶娢熻箛鎾剁Ш闁轰焦鍔欏畷銊╊敊鐠侯煈鏀ㄧ紓鍌氬€风粈渚€顢栭崟顖涘殑闁告挷鐒﹂~鏇㈡煙閹规劦鍤欑痪鎯у悑閹便劌顫滈崱妤€骞嬮梺绋款儐閹瑰洭骞冨⿰鍫熷殟闁靛鍎崑鎾诲锤濡や胶鍙嗛梺鍝勬处濮樸劑宕濆澶嬬厵闁告劘灏欓悞鍛婃叏婵犲嫮甯涢柟宄版嚇瀹曘劍绻濋崒娑欑暭闂傚倷娴囧畷鐢稿窗閸℃稑纾块柟鎯版缁犳煡鏌曡箛鏇烆€屾繛绗哄姂閺屽秷顧侀柛鎾寸懇椤㈡岸鏁愰崱娆戠槇濠殿喗锕╅崢鍏肩濠婂懐纾奸柣鎰靛墮椤庢粌顪冪€涙ɑ鍊愮€殿喗鐓¢、妤呭礋椤戣姤瀚奸梻浣告贡鏋繛鎾棑缁骞樼€靛摜顔曢柣鐘叉厂閸涱厼鐓傞梺杞扮閻楀﹥绌辨繝鍥ч柛娑卞枛濞呫倝姊虹粙娆惧剬闁告挻绻勯幑銏犫攽閸モ晝鐦堥梺绋挎湰缁嬫垵鈻嶉敐鍜佹富闁靛牆绻掗崚浼存煏閸喐鍊愭鐐插暞缁傛帞鈧絽鐏氶弲顒€鈹戦悙鏉戠仸閽冮亶鎮归崶鈺佷槐婵﹨娅i幏鐘诲灳閾忣偆浜堕梻浣藉吹閸o附淇婇崶顒€绠查柕蹇曞Л閺€浠嬫倵閿濆簼绨介柛濠勫仱濮婃椽妫冨ù銈嗙洴瀹曟﹢濡搁妷顔藉枠濠电姷鏁告慨鐑藉极閸涘﹥鍙忛柣鎴f閺嬩線鏌熼梻瀵割槮缁炬崘顫夐妵鍕冀椤愵澀绮堕梺缁樺笒閻忔岸濡甸崟顖氱闁瑰瓨绻嶆禒鑲╃磼閻愵剙鍔ゆい顓犲厴瀵鎮㈤悡搴n槶閻熸粌绻掗弫顔尖槈閵忥紕鍘介梺瑙勫劤椤曨厼煤閹绢喗鐓欐い鏃傜摂濞堟粓鏌℃担鐟板闁诡垱妫冮崹楣冩嚑椤掍焦娅﹀┑鐘垫暩婵參骞忛崘顔肩妞ゅ繐鍟版す鎶芥⒒娓氣偓閳ь剚绋撻埞鎺楁煕閺傝法肖闁瑰箍鍨归埞鎴犫偓锝庝簻缁愭稑顪冮妶鍡樼闁瑰啿绉瑰畷顐⑽旈崨顔规嫽婵炶揪绲介幉锛勬嫻閿熺姵鐓欓柧蹇e亝鐏忕敻鏌嶈閸撴艾顫濋妸锔芥珷婵°倓鑳堕埞宥呪攽閻樺弶鎼愮紒鐘垫嚀闇夐柨婵嗙墕閳ь兛绮欐俊鎼佸煛閸屾粌寮抽梻浣告惈閸熺娀宕戦幘缁樼厱閹艰揪绱曢敍宥囩磼鏉堚晛浠辨鐐村笒铻栧ù锝呭级鐎氫粙姊绘担鍛靛綊寮甸鍕仭闁靛ň鏅涚粈鍌溾偓鍏夊亾闁告洦鍓涢崢鐢告⒑閹勭闁稿鎳庨悾宄扮暆閳ь剟鍩€椤掑喚娼愭繛鍙夌矒瀵偆鎷犲顔兼婵炲濮撮鎰板极閸ヮ剚鐓熼柟閭﹀弾閸熷繘鏌涢悙鍨毈婵﹦绮幏鍛存嚍閵壯佲偓濠囨⒑闂堚晝绉剁紒鐘虫崌閻涱喛绠涘☉娆愭闂佽法鍣﹂幏锟�...
  本次WSDM Cup共有三个赛题任务,华为云夺金赛题内容为“论文引用意图识别”:比赛提供一个论文库(约含80万篇论文),同时提供对被引用论文的引用文本描述,参赛选手需要根据论文引用描述从论文库中匹配三篇最相关的论文。
  论文是人类最前沿知识的媒介,如果可以理解论文中的数据,可以极大地扩充计算机理解知识的能力和范围。在论文中,作者经常会引用其他论文,并对被引论文做出对应描述。如果通过计算机可以自动地理解、识别描述对应的被引论文,不仅可以加深我们对科研脉络的理解,还能在科研知识图谱、科研自动问答系统和自动摘要系统等领域有所进步。
  华为云语音语义创新Lab带领华南理工大学、华中科技大学、武汉大学、江南大学学生组成的联合团队,针对该问题制定了“整体召回+重排+集成”的方案。在整体召回阶段,通过轻量化的文本相似度计算方法(如BM25、TFIDF、Word2Vec等),以较少的计算代价从大规模论文库中检索出给定查询的可能相关的论文集合。在重排阶段,通过计算量大但更准确的方法对这些候选论文中的每一篇论文计算和引用描述的相似度值并重新排序,例如采用基于深度学习的预训练语言模型BERT等。华为云团队观察到,赛题中所给语料都是生物医学领域,因此采用了基于生物医药和科学领域语料进行预训练的BioBERT和SciBERT语言模型对论文进行重排。通过对所有模型的结果进行集成,最终得到三篇最相关的论文。
  华为云在本次比赛中运用的文本匹配技术,可广泛用于搜索、对话机器人、知识图谱构建等领域。
  凭借在自然语言处理领域的全栈技术积累,华为云连续斩获了多个相关领域权威比赛冠军。2019年10月华为云语音语义创新Lab在DigSci科学数据挖掘大赛(学术论文搜索匹配大赛)上夺冠,精准率超过第二名5个百分点。在2019 CCF大数据与计算智能大赛决赛中,华为云语音语义创新Lab获得金融实体级情感分析大赛冠军,体现了在文本情感分析和知识图谱领域的实力。
  目前,华为云语音语义相关服务已经成功应用于政务、金融、油气、医疗、汽车、物流、保险、电商、税务、媒体等具有语音识别、语言理解、知识管理等需求的业务领域。
【免责声明】本文仅代表作者本人观点,与CTI论坛无关。CTI论坛对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。
  • 0

  • 0

  • 0

  • 0

  • 0

  • 0

  • 0

  • 0

专题

CTI论坛会员企业