您的位置:首頁(yè) >綜合 > 財(cái)經(jīng)要聞 >

探展WAIC|上海數(shù)交所總經(jīng)理湯奇峰:語(yǔ)料庫(kù)建設(shè)挑戰(zhàn)主要集中于開放程度和數(shù)據(jù)質(zhì)量?jī)煞矫?/h2>

(圖片來(lái)源:圖蟲創(chuàng)意)

“大模型建設(shè)中,語(yǔ)料庫(kù)是一個(gè)非常重要的方向。”7月8日,上海數(shù)交所總經(jīng)理湯奇峰在“大模型時(shí)代下的數(shù)據(jù)要素流通”主題論壇中如是表示。他認(rèn)為,大模型時(shí)代下的語(yǔ)料庫(kù)建設(shè)存在語(yǔ)料庫(kù)供給不足、語(yǔ)料庫(kù)質(zhì)量不高、語(yǔ)料庫(kù)多樣性匱乏、語(yǔ)料庫(kù)標(biāo)準(zhǔn)欠缺等問(wèn)題。

“語(yǔ)料庫(kù)建設(shè)不是單一企業(yè)的責(zé)任,需要多方共同推進(jìn),如果每個(gè)企業(yè)都單獨(dú)建設(shè)維護(hù)語(yǔ)料庫(kù),會(huì)拉低效率,也會(huì)增加企業(yè)成本,數(shù)交所希望通過(guò)加強(qiáng)數(shù)據(jù)要素建設(shè)提升語(yǔ)料庫(kù)建設(shè)效率?!睖娣灞硎?。


【資料圖】

藍(lán)鯨財(cái)經(jīng)了解到,上海數(shù)交所官網(wǎng)已于7月7日正式上線語(yǔ)料庫(kù),累計(jì)掛牌近30個(gè)語(yǔ)料數(shù)據(jù)產(chǎn)品,包含文本、音頻、圖像等多模態(tài),覆蓋金融、交通運(yùn)輸和醫(yī)療等領(lǐng)域。

關(guān)于語(yǔ)料庫(kù)建設(shè)的挑戰(zhàn),湯奇峰認(rèn)為主要集中于開放程度和數(shù)據(jù)質(zhì)量?jī)煞矫妫骸澳芊裼写竽P推髽I(yè)所需的高質(zhì)量語(yǔ)料?目標(biāo)對(duì)象愿不愿意開放數(shù)據(jù)?”由此,湯奇峰指出可以根據(jù)開放程度強(qiáng)弱和數(shù)據(jù)質(zhì)量高低將語(yǔ)料數(shù)據(jù)生態(tài)機(jī)構(gòu)分出四類供方。

上海數(shù)據(jù)交易所語(yǔ)料庫(kù)為這四類供方制定差異化工作策略。湯奇峰建議可以從政府引導(dǎo)市場(chǎng)主導(dǎo)、豐富種類提高質(zhì)量、統(tǒng)一標(biāo)準(zhǔn)規(guī)范建設(shè)、加強(qiáng)監(jiān)管保障安全、加強(qiáng)監(jiān)管保障安全四個(gè)方向建設(shè)大模型時(shí)代下的語(yǔ)料庫(kù)。

湯奇峰指出,針對(duì)數(shù)據(jù)質(zhì)量高但開放程度低的供方,可以通過(guò)數(shù)據(jù)交易鏈有效破解語(yǔ)料數(shù)據(jù)流通的信任問(wèn)題,“核心之一在于產(chǎn)權(quán)和參與大模型后的收益分配問(wèn)題?!?/p>

此外,上海數(shù)據(jù)交易所語(yǔ)料庫(kù)亦將提供特色標(biāo)簽服務(wù)體系、挖掘應(yīng)用場(chǎng)景價(jià)值、驅(qū)動(dòng)稀缺數(shù)據(jù)開放流通以提高該類供方開放數(shù)據(jù)積極性。針對(duì)開放程度高但數(shù)據(jù)質(zhì)量低的機(jī)構(gòu),上海數(shù)交所語(yǔ)料庫(kù)則通過(guò)搭建專業(yè)化數(shù)商服務(wù)渠道提高數(shù)據(jù)質(zhì)量。

湯奇峰介紹道,上海數(shù)交所在建設(shè)語(yǔ)料庫(kù)時(shí)考慮的兩個(gè)維度與數(shù)交所對(duì)企業(yè)數(shù)據(jù)發(fā)展進(jìn)程四個(gè)階段的觀察密切相關(guān)。對(duì)于這四個(gè)階段,湯奇峰解釋,第一個(gè)階段是企業(yè)數(shù)據(jù)自產(chǎn)自用階段。隨著企業(yè)數(shù)據(jù)的內(nèi)部供給有限時(shí),企業(yè)數(shù)據(jù)需求逐步轉(zhuǎn)向外部,進(jìn)入到第二階段,在該階段,大平臺(tái)和大企業(yè)通過(guò)資本紐帶在體系內(nèi)部形成數(shù)據(jù)流通。到了第三個(gè)階段,企業(yè)累積的數(shù)據(jù)將開放給整個(gè)行業(yè),產(chǎn)業(yè)內(nèi)形成標(biāo)準(zhǔn)。第四個(gè)階段,數(shù)據(jù)使用在資產(chǎn)化過(guò)程中會(huì)產(chǎn)生新的更高階業(yè)態(tài)。

“語(yǔ)料庫(kù)采購(gòu)已經(jīng)在不少大模型企業(yè)成本中占據(jù)重要比重,上海數(shù)交所希望以市場(chǎng)配置的方式組織數(shù)據(jù)要素推動(dòng)語(yǔ)料庫(kù)建設(shè)?!睖娣灞硎?。

據(jù)悉,為更好打造高質(zhì)量語(yǔ)料庫(kù)、圍繞語(yǔ)料數(shù)據(jù)共建數(shù)商生態(tài),上海數(shù)交所牽頭發(fā)起語(yǔ)料數(shù)據(jù)生態(tài)創(chuàng)新合作伙伴計(jì)劃,攜手首批合作伙伴上海人工智能實(shí)驗(yàn)室、商湯科技、中國(guó)知網(wǎng)、瀾舟科技、OpenKG、拓爾思、新致和蜜度正式啟動(dòng)該計(jì)劃,積極引導(dǎo)不同行業(yè)、不同領(lǐng)域、具有一定規(guī)模的高質(zhì)量語(yǔ)料數(shù)據(jù)產(chǎn)品掛牌交易,推動(dòng)人工智能大模型技術(shù)創(chuàng)新與應(yīng)用落地,進(jìn)一步豐富語(yǔ)料庫(kù)多樣性,助力數(shù)據(jù)要素市場(chǎng)建設(shè)。

關(guān)鍵詞:
最新動(dòng)態(tài)
相關(guān)文章
探展WAIC|上海數(shù)交所總經(jīng)理湯奇峰:語(yǔ)料...
鄭州“免費(fèi)贈(zèng)房”調(diào)查:房?jī)r(jià)從2萬(wàn)跌到1....
蔡昉:用所有合理合法合規(guī)的渠道把錢發(fā)...
曝河南一院長(zhǎng)要醫(yī)生多開中藥,稱可以加...
中東土豪愛(ài)上中國(guó)電動(dòng)車,這是自廢武功?
盛銀消費(fèi)金融調(diào)整股權(quán)結(jié)構(gòu)