2022語言與智能技術(shù)競賽已開啟報名!聯(lián)手“千言”數(shù)據(jù)集開源項目,本次競賽賽題覆蓋跨模態(tài)、知識驅(qū)動、可信學習等前沿課題,全新四大任務(wù)、多個全新重磅數(shù)據(jù)集、總額20萬元的獎金,誠邀學術(shù)界和工業(yè)界的研究者和開發(fā)者參加本次競賽!
語言與智能技術(shù)競賽是為了推動語言與智能技術(shù)發(fā)展,由CCF和中國中文信息學會聯(lián)合主辦,百度公司、中國中文信息學會評測工作委員會和CCF自然語言處理專委會聯(lián)合承辦的語言與智能領(lǐng)域的重點評測賽事,已連續(xù)舉辦多屆。歷屆競賽組織了閱讀理解、人機對話、語義解析、信息抽取等評測任務(wù),覆蓋自然語言處理和人工智能領(lǐng)域的重要前沿課題,極具挑戰(zhàn)。競賽對于推進相關(guān)技術(shù)研究及智能搜索、智能推薦、智能交互等人工智能應(yīng)用發(fā)展具有重要意義。
2022年語言與智能競賽將設(shè)立來源于真實應(yīng)用需求的四大任務(wù),提供大規(guī)模中文數(shù)據(jù)集。今年的賽題設(shè)置,圍繞跨模態(tài)、知識驅(qū)動、可信學習三個前沿課題,適應(yīng)當今的技術(shù)和應(yīng)用發(fā)展趨勢。競賽希望為研究者提供學術(shù)交流平臺,進一步推動語言理解和人工智能領(lǐng)域技術(shù)研究和應(yīng)用的發(fā)展。獲勝隊伍將分享總額20萬+的獎金,并將在第七屆“語言與智能高峰論壇”舉辦技術(shù)交流和頒獎。
歡迎參加2022語言與智能技術(shù)競賽!
任務(wù)設(shè)置
競賽共設(shè)置4項熱門任務(wù),兼具挑戰(zhàn)性和實用性,具體介紹如下:
序號 | 任務(wù)名稱 | 任務(wù)簡介 |
1 | 段落檢索 | 讓機器從大規(guī)模語料庫中找出相關(guān)段落,評估機器的語義檢索及排序的能力。 |
2 | 知識對話 | 讓系統(tǒng)具備利用搜索引擎知識進行開放域?qū)υ捊换サ哪芰?,提升對話的豐富性與知識準確性。 |
3 | 情感分析可解釋性 | 讓情感分析模型更可解釋,從合理性、忠誠性等維度評測模型的可解釋性,進而推動構(gòu)建更加可解釋的模型。 |
4 | 視頻語義理解 | 讓機器對視頻進行內(nèi)容分析與理解。在感知內(nèi)容分析的基礎(chǔ)上,融合知識、語言、視覺、語音等多模信息,結(jié)合知識計算與推理,為視頻生成相應(yīng)的語義標簽。 |
任務(wù)說明如下:
段落檢索:段落檢索是指從大規(guī)模語料庫中找出相關(guān)段落,它是自然語言處理和信息檢索領(lǐng)域中的重要任務(wù)。傳統(tǒng)的檢索系統(tǒng)基于倒排索引,采用稀疏段落檢索(例如BM25)的方法對查詢和候選段落進行匹配,主要考慮關(guān)鍵詞的匹配特征,無法處理語義相近但字面匹配程度低的情況;近年來,隨著預(yù)訓(xùn)練語言模型的快速發(fā)展,稠密段落檢索方法的性能取得了質(zhì)的飛躍,逐步超越了傳統(tǒng)的BM25等方法。這種方式能夠?qū)Σ樵兒秃蜻x段落進行語義級別建模,在問答等語義匹配要求高的場景表現(xiàn)更好。為了進一步推動該方向的研究進展,我們發(fā)布首個大規(guī)模中文段落檢索數(shù)據(jù)集DuReader-retrieval,該語料來源于真實搜索場景,包含了用戶的真實查詢和真實文檔,任務(wù)難度大,覆蓋了真實應(yīng)用中諸多有挑戰(zhàn)的技術(shù)問題。
知識對話:真實世界的人機交互會涉及大量知識相關(guān)的內(nèi)容,但即使是在參數(shù)中存儲了大量知識的預(yù)訓(xùn)練對話生成系統(tǒng),在進行細粒度知識聊天時,也容易產(chǎn)生不準確的回復(fù)。同時,系統(tǒng)蘊含的知識很難更新,對于用戶需求較大的時事聊天,往往表現(xiàn)較差。為了應(yīng)對這一挑戰(zhàn),本次競賽提出了利用搜索引擎實時獲取知識然后基于該知識進行對話的任務(wù),搜索引擎獲取的知識具備時效性高、內(nèi)容豐富等特點,且經(jīng)過數(shù)十年的技術(shù)積淀,能夠在給定合適搜索問題時,返回準確的答案。為此,我們建立了開放領(lǐng)域的搜索知識對話數(shù)據(jù)集,希望系統(tǒng)能夠?qū)W習1)基于對話歷史生成檢索query;2)基于對話歷史與基于query查詢到的知識生成對話回復(fù)的能力。希望通過此次競賽,助力開放域?qū)υ捈夹g(shù)進一步發(fā)展。
情感分析可解釋性:深度學習模型常被當作一個黑盒使用,其內(nèi)部決策機制是不透明的。這種不透明性導(dǎo)致使用者對其結(jié)果的不信任,增加了落地難度,尤其是在醫(yī)療、法律等特殊領(lǐng)域。近年來,深度學習模型的可解釋性受到廣泛關(guān)注,涌現(xiàn)出很多致力于分析和增強模型可解釋性的工作,如模型預(yù)測依賴證據(jù)提取、基于證據(jù)的可信增強等。為了進一步推動該方向研究發(fā)展,我們構(gòu)建了可解釋評測數(shù)據(jù)集和評估指標,用來評測模型的可解釋性,及證據(jù)抽取方法的準確性。本次比賽提供了情感分析任務(wù)的評測數(shù)據(jù),所有輸入均來自真實用戶的評論數(shù)據(jù)。針對每一輸入文本和其標準結(jié)果,我們提供了人工標注的詞粒度的標準證據(jù),以及從干擾、敏感、泛化等角度構(gòu)建的擾動數(shù)據(jù),旨在從合理性、忠誠性角度評估模型的可解釋性。希望通過本次比賽,推動模型可解釋性研究進一步發(fā)展。
視頻語義理解:傳統(tǒng)基于感知的視頻內(nèi)容分析缺乏語義化理解能力,而充分利用知識圖譜的語義化知識并結(jié)合跨模態(tài)學習和知識推理技術(shù),有望實現(xiàn)更深入的視頻語義理解。本評測任務(wù)以互聯(lián)網(wǎng)視頻為輸入,在感知內(nèi)容分析(如人臉識別、OCR識別、語音識別等)的基礎(chǔ)上,期望通過融合多模信息,并結(jié)合知識圖譜計算與推理,為視頻生成多知識維度的語義標簽,進而更好地刻畫視頻的語義信息。此任務(wù)來源于真實應(yīng)用需求,提供了中文大規(guī)模視頻語義理解評測數(shù)據(jù)集,同時提供了視頻相關(guān)的知識圖譜。任務(wù)難度大,考察點豐富,覆蓋了真實應(yīng)用中諸多有挑戰(zhàn)的技術(shù)問題。
獎項設(shè)置
競賽的每個任務(wù)都將分別評出一等獎1名,二等獎1名,三等獎2名。主辦方中國計算機學會(CCF)和中國中文信息學會(CIPS)將為獲獎?wù)咛峁s譽證書認證,百度公司將為獲獎?wù)咛峁┆劷鸷蛥涣髻澲?/span>
一等獎:20000元+榮譽證書
二等獎:15000元+榮譽證書
三等獎:10000元+榮譽證書
時間安排
2022/3/30:啟動競賽報名,對報名者發(fā)放全部訓(xùn)練數(shù)據(jù)和第一批測試數(shù)據(jù),開放評測入口和在線排行榜
2022/6/15:報名截止
2022/6/17:發(fā)放最終測試數(shù)據(jù)
2022/6/27:系統(tǒng)結(jié)果提交截止
2022/7/15:公布競賽結(jié)果,接收系統(tǒng)報告和論文
2022/7-2022/8:論文提交截止日期(具體日期另行通知)
2022/8:在“語言與智能高峰論壇”上交流和頒獎
注冊報名
關(guān)于2022語言與智能競賽的任務(wù)詳情和報名方式,請見官網(wǎng):
http://lic2022.cipsc.org.cn
競賽于2022年3月30日正式開啟報名通道,在此,誠邀學術(shù)界和工業(yè)界的研究者和開發(fā)者參加本次競賽!
注:報名并最終提交有效結(jié)果的隊伍,成員均將獲得1件大賽定制T恤(多任務(wù)不重復(fù)領(lǐng)取)。
免費報考指南課程/定制考試計劃/留學教材/核心內(nèi)部資料 一鍵領(lǐng)取