科技改變生活 · 科技引領(lǐng)未來(lái)
金融科技公司香儂科技于近日提出了Glyce模型,打破13項(xiàng)近乎所有中文自然語(yǔ)言理解(NLP)的世界紀(jì)錄,這是中國(guó)團(tuán)隊(duì)在計(jì)算機(jī)理解中文方面取得的一項(xiàng)重要進(jìn)步。加州大學(xué)圣塔芭芭拉分校教授、卡耐基梅隆大學(xué)計(jì)算機(jī)博士William Wang表示, "目前絕大多數(shù)的NLP研究基于英文,并不完全適用于漢語(yǔ)。Glyce利用漢字的象形表意特征,是在AI理解中文語(yǔ)義方面做出的重要?jiǎng)?chuàng)新。"
在文字中獲得想要的信息,報(bào)告被濃縮成摘要,機(jī)器可以明白你的問(wèn)題快速作答。讓機(jī)器讀懂人類語(yǔ)言是人工智能的核心目標(biāo),也因此吸引世界科技巨頭如谷歌,F(xiàn)acebook, 蘋果,亞馬遜等大力布局自然語(yǔ)言處理(NLP)方向。國(guó)內(nèi)的大型互聯(lián)網(wǎng)公司和創(chuàng)業(yè)公司也都在進(jìn)行各項(xiàng)研究。NLP領(lǐng)域因各方的參與進(jìn)展飛速。香儂科技專注自然語(yǔ)言處理技術(shù)創(chuàng)新,表現(xiàn)十分搶眼。這個(gè)由一群最優(yōu)秀的中國(guó)年輕人組成的,平均年齡不到30歲的科技創(chuàng)業(yè)公司,帶來(lái)了全世界最好的智能中文語(yǔ)義理解結(jié)果。
很多金融機(jī)構(gòu)對(duì)香儂科技并不陌生。香儂科技致力于用AI技術(shù)實(shí)時(shí)處理海量信息,為大型金融機(jī)構(gòu)提供外源信息聚合,智能文檔審核,企業(yè)信用輿情監(jiān)測(cè),專業(yè)金融問(wèn)答,智能報(bào)告生成等服務(wù)。
成立僅一年,該團(tuán)隊(duì)就因在NLP領(lǐng)域的技術(shù)優(yōu)勢(shì)與多家金融機(jī)構(gòu)建立了合作。據(jù)報(bào)道,香儂科技在去年9月完成了紅杉中國(guó)領(lǐng)投的1.1億元A輪融資,累計(jì)融資額近2億人民幣。香儂科技的CEO李紀(jì)為博士來(lái)自斯坦福自然語(yǔ)言處理實(shí)驗(yàn)室,是斯坦福計(jì)算機(jī)系第一個(gè)三年畢業(yè)的博士,也是NLP領(lǐng)域?qū)W術(shù)引用最多的青年學(xué)者之一。他入選2018年福布斯中國(guó)"30位30歲以下精英榜"。團(tuán)隊(duì)的其他成員也均來(lái)自世界頂尖學(xué)府,科技公司和金融機(jī)構(gòu)。
在服務(wù)金融機(jī)構(gòu)的多項(xiàng)業(yè)務(wù)場(chǎng)景中,香儂科技始終在思考,能否讓計(jì)算機(jī)更多地讀懂中文的財(cái)經(jīng)新聞,行研報(bào)告,幫助人們快速地獲取關(guān)鍵信息?香儂科技持續(xù)加大在金融領(lǐng)域的NLP研究,并提出了Glyce模型。
中文天賦其形,是象形文字,字形本身蘊(yùn)含豐富的語(yǔ)義信息。然而當(dāng)今中文自然語(yǔ)言處理的方法一般借鑒于西方,所以主要機(jī)制多針對(duì)羅馬字母,而并不是適合中文象形文字。Glyce模型運(yùn)用不同歷史時(shí)期的中文象形,從周商時(shí)期的金文,漢代的隸書,魏晉時(shí)期的篆書,南北朝時(shí)期的魏碑,以及繁體、簡(jiǎn)體中文,還本溯源,將漫長(zhǎng)歷史中豐富的中文演變,抽象成機(jī)器可以理解的符號(hào),讓機(jī)器更好地理解中文語(yǔ)言。打破了13項(xiàng)NLP世界紀(jì)錄,對(duì)機(jī)器理解中文取得了一大進(jìn)步。
Glyce模型在近乎所有中文自然語(yǔ)言處理的任務(wù)打破了歷史記錄,任務(wù)包括情感分析,句法分析, 字符級(jí)別語(yǔ)言模型,詞級(jí)別語(yǔ)言模型, 中文分詞, 實(shí)體標(biāo)注, 詞性標(biāo)注,語(yǔ)義角色分析, 語(yǔ)義相似度計(jì)算, 問(wèn)答匹配, 機(jī)器翻譯, 篇章句法樹分析。Glyce作者共有九名,均來(lái)自香儂科技。
馬同
版權(quán)所有 未經(jīng)許可不得轉(zhuǎn)載
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證備案號(hào):遼ICP備14006349號(hào)
網(wǎng)站介紹 商務(wù)合作 免責(zé)聲明 - html - txt - xml