欧美综合日韩专区麻豆久久,丝袜美腿国产专区

您的位置：首頁(yè) >新聞 > 熱點(diǎn)新聞 >

和李開復(fù)先生商榷：失控的黑色大數(shù)據(jù)不是中國(guó)AI的堅(jiān)固基石

來(lái)源：搜狐 2017-12-14 21:52:21

隱私數(shù)據(jù)泛濫短期內(nèi)降低了人工智能的開發(fā)門檻，讓算法的設(shè)計(jì)實(shí)現(xiàn)更加簡(jiǎn)單，但這以數(shù)據(jù)所有權(quán)的粗暴剝奪和算法濫用為代價(jià)，不可能是長(zhǎng)久之計(jì)。

11月21日《金融時(shí)報(bào)》刊出李開復(fù)先生寫的一篇文章《中國(guó)搞21世紀(jì)數(shù)字經(jīng)濟(jì)的條件比美國(guó)有利》，文中談到，中國(guó)人已開始在智慧城市開展大數(shù)據(jù)收集工作，公民的隱私當(dāng)然會(huì)受到損害，但算法也將因此變得更加豐富。中國(guó)政府善于——借用馬克·扎克伯格的話來(lái)說(shuō)——“快速行動(dòng)，破除陳規(guī)”。巨大的消費(fèi)市場(chǎng)，以及持續(xù)的增長(zhǎng)潛力，將使中國(guó)有可能發(fā)展出一套頗具經(jīng)濟(jì)效益且獨(dú)立于西方的數(shù)字生態(tài)系統(tǒng)……

此文令筆者驚詫莫名。李開復(fù)先生是IT與互聯(lián)網(wǎng)行業(yè)的意見領(lǐng)袖，前Google公司中國(guó)區(qū)總經(jīng)理，更是互聯(lián)網(wǎng)創(chuàng)業(yè)投資行業(yè)的領(lǐng)軍人物。對(duì)于數(shù)字化與人工智能的發(fā)展，李先生應(yīng)該有比絕大部分IT與互聯(lián)網(wǎng)人士更加深刻的洞察。但認(rèn)為公民隱私數(shù)據(jù)濫用會(huì)推動(dòng)人工智能和相關(guān)的算法演進(jìn)，中國(guó)因此比美國(guó)更有利于發(fā)展數(shù)字經(jīng)濟(jì)，卻是一種片面與短視的認(rèn)識(shí)，必須加以澄清。

弱人工智能時(shí)代的數(shù)據(jù)污染

人工智能作為一種最新的信息技術(shù)手段，核心就是通過(guò)模仿人類的學(xué)習(xí)過(guò)程，以海量數(shù)據(jù)對(duì)于特定的復(fù)雜數(shù)學(xué)模型(如神經(jīng)網(wǎng)絡(luò))進(jìn)行訓(xùn)練，通過(guò)數(shù)學(xué)模型的逐步優(yōu)化，建立包含智能化業(yè)務(wù)規(guī)則的系統(tǒng)并加以實(shí)用。

現(xiàn)階段的人工智能是弱人工智能，其特點(diǎn)是：1.單一模型只能針對(duì)特定應(yīng)用;2.需要海量的正確數(shù)據(jù)進(jìn)行模型訓(xùn)練;3.產(chǎn)生的智能化業(yè)務(wù)規(guī)則可解釋性極差。

換句話說(shuō)，一個(gè)弱人工智能系統(tǒng)就是一個(gè)專用的無(wú)法打開的黑盒子，既沒(méi)有高適應(yīng)性，也無(wú)法拆解出具體的智能化業(yè)務(wù)規(guī)則，而且高度依賴于參與訓(xùn)練的海量數(shù)據(jù)。

從目前的業(yè)務(wù)實(shí)踐來(lái)看，構(gòu)建人工智能系統(tǒng)，絕大部分工作是數(shù)據(jù)準(zhǔn)備，包括設(shè)計(jì)數(shù)據(jù)、獲取數(shù)據(jù)、清洗數(shù)據(jù)和整合數(shù)據(jù)等步驟。這部分工作平均要花費(fèi)60%-70%的時(shí)間。對(duì)于大型的人工智能系統(tǒng)，一般會(huì)安排專門的數(shù)據(jù)工程師按照數(shù)據(jù)科學(xué)家的要求進(jìn)行數(shù)據(jù)準(zhǔn)備。

在弱人工智能發(fā)展階段，人工智能系統(tǒng)高度依賴于海量數(shù)據(jù)訓(xùn)練，并且算法本身對(duì)錯(cuò)誤數(shù)據(jù)幾乎沒(méi)有甄別能力。

數(shù)據(jù)作為整個(gè)人工智能產(chǎn)業(yè)鏈的最上游，數(shù)據(jù)的任何問(wèn)題都有可能影響到人工智能的產(chǎn)業(yè)鏈中下游甚至最終的全面應(yīng)用。

試想一下，如果支撐人工智能的關(guān)鍵數(shù)據(jù)來(lái)源是灰色的甚至是黑色的，這就意味著從源頭開始的數(shù)據(jù)采集、處理、傳遞和數(shù)據(jù)質(zhì)量管理就處于失控狀態(tài)。

數(shù)據(jù)使用者無(wú)法通過(guò)追溯的方式了解數(shù)據(jù)本身的采集要求，更不可能通過(guò)提高數(shù)據(jù)源數(shù)據(jù)質(zhì)量的方式訓(xùn)練出更加高質(zhì)量的模型。在很多場(chǎng)景下，來(lái)源不明的數(shù)據(jù)甚至無(wú)法手工剔除錯(cuò)誤，以避免對(duì)模型訓(xùn)練的干擾。

如果非法數(shù)據(jù)的提供方出于某些目的對(duì)數(shù)據(jù)進(jìn)行特定方向的加工處理，并提供給人工智能企業(yè)，那基于這些數(shù)據(jù)訓(xùn)練出的模型就可能受到特定方向的誤導(dǎo)，造成模型畸形，未來(lái)的全面應(yīng)用就有可能會(huì)面臨極大風(fēng)險(xiǎn)。

盡管目前還沒(méi)有這樣的案例出現(xiàn)，但從理論上來(lái)分析，這是完全可能的，非法數(shù)據(jù)來(lái)源正在為人工智能應(yīng)用埋下未知風(fēng)險(xiǎn)。

對(duì)于中小企業(yè)的人工智能應(yīng)用，數(shù)據(jù)污染和算法畸形可能不會(huì)造成嚴(yán)重后果，畢竟應(yīng)用范圍有限。但對(duì)于涉及國(guó)計(jì)民生或者是對(duì)市場(chǎng)有重大影響的行業(yè)，嚴(yán)控訓(xùn)練數(shù)據(jù)來(lái)源、數(shù)據(jù)質(zhì)量，是企業(yè)和政府必須考慮的問(wèn)題。

2016年10月美國(guó)國(guó)家科技委員會(huì)公布的《美國(guó)國(guó)家人工智能研究和發(fā)展戰(zhàn)略計(jì)劃》中有七大戰(zhàn)略計(jì)劃，第五個(gè)就是開發(fā)用于人工智能培訓(xùn)及測(cè)試的公共數(shù)據(jù)集和環(huán)境。

這份戰(zhàn)略計(jì)劃中談到，政府將開發(fā)滿足多樣化人工智能興趣與應(yīng)用的豐富數(shù)據(jù)集，并開放滿足商業(yè)和公共利益的訓(xùn)練測(cè)試資源，以支持企業(yè)在豐富健康的大數(shù)據(jù)環(huán)境下加速人工智能技術(shù)發(fā)展，規(guī)避數(shù)據(jù)缺陷本身帶來(lái)的潛在風(fēng)險(xiǎn)。

播灑跳蚤，收獲的絕對(duì)不會(huì)是巨龍。不合法不健康缺乏管控的大數(shù)據(jù)基礎(chǔ)，很難構(gòu)建出有強(qiáng)大競(jìng)爭(zhēng)力的人工智能產(chǎn)業(yè)環(huán)境。那些認(rèn)為損害隱私會(huì)帶來(lái)算法提升乃至獲得數(shù)字經(jīng)濟(jì)競(jìng)爭(zhēng)優(yōu)勢(shì)的想法是片面的、短視的。

最新動(dòng)態(tài)