您的位置:首頁 >綜合 > 產(chǎn)經(jīng) >

環(huán)球今熱點(diǎn):ChatGPT能代替醫(yī)生看病嗎

ChatGPT


(資料圖片)

能代替醫(yī)生看病嗎

我們給它做了套中國執(zhí)業(yè)醫(yī)師考試真題

猜猜它考了多少分

最近,ChatGPT的橫空出世,也引發(fā)醫(yī)療界人士廣泛思考——人工智能將對(duì)醫(yī)療領(lǐng)域帶來多大的沖擊,未來醫(yī)生會(huì)失業(yè)嗎?

浙大兒院NICU副主任馬曉路發(fā)朋友圈稱:以前吧,覺得會(huì)被人工智能取代的,都是那些單調(diào)機(jī)械重復(fù)的體力活。但看到人工智能寫的小作文比你好,畫的畫比你好,回答問題比磚家靠譜得多,確實(shí)會(huì)令人恐慌。

醫(yī)生們的危機(jī)感不無道理。有消息稱,OpenAI公司的程序員已經(jīng)開始利用高版本ChatGPT對(duì)日常疾病進(jìn)行問診,并根據(jù)ChatGPT給出的處方進(jìn)行康復(fù)治療,并取得了良好的反饋。還有一篇預(yù)印本的論文表示,ChatGPT在美國醫(yī)師執(zhí)照考試(USMLE)中達(dá)到了平均水平以上,準(zhǔn)確率達(dá)到了60%左右。

記者不禁好奇,如果讓ChatGPT參加中國的執(zhí)業(yè)醫(yī)師考試,它能考多少分呢?

浙大一院精神衛(wèi)生科主任胡少華教授團(tuán)隊(duì)正在參與一項(xiàng)人工智能相關(guān)的醫(yī)學(xué)研究,團(tuán)隊(duì)希望未來借助AI監(jiān)測(cè)眼球活動(dòng)、皮膚電勢(shì)反應(yīng)等客觀數(shù)據(jù),輔助臨床醫(yī)生診斷。

于是我們和團(tuán)隊(duì)成員呂海龍一起,設(shè)計(jì)了一套百分制的執(zhí)業(yè)醫(yī)師考試卷子,ChatGPT的最終成績是57分,其中基礎(chǔ)得分56分,臨床得分58分。

考卷設(shè)置

十大科目

涵蓋基礎(chǔ)題和專業(yè)實(shí)踐題

由于ChatGPT是依據(jù)2021年以前的數(shù)據(jù)訓(xùn)練的,所以題目選自2020年臨床執(zhí)業(yè)醫(yī)師資格考試真題庫,全部為單選題。

呂海龍介紹,臨床執(zhí)業(yè)醫(yī)師考試內(nèi)容筆試考試主要包含基礎(chǔ)綜合、專業(yè)綜合和實(shí)踐綜合,我們的題目簡(jiǎn)化為兩類,一類是基礎(chǔ)題,大都是可背誦的醫(yī)學(xué)知識(shí);另一類是專業(yè)實(shí)踐題,需要進(jìn)行邏輯推理。

考卷涵蓋了十大科目,包括生理學(xué)、醫(yī)學(xué)微生物學(xué)、病理學(xué)、藥理學(xué)、衛(wèi)生法規(guī)、內(nèi)科、外科、婦產(chǎn)科、兒科和心理學(xué)-精神科,每個(gè)單元10題,合計(jì)100題,選擇方法盡可能隨機(jī)。

成績分析

掌握基本診斷推理

但不擅長修正和推測(cè)

在我們的猜想中,ChatGPT應(yīng)該更擅長可背誦的醫(yī)學(xué)知識(shí),邏輯推理能力則較弱,但實(shí)踐結(jié)果并非如此。

呂海龍發(fā)現(xiàn),對(duì)于那種一看就是考題的題干,ChatGPT有時(shí)候會(huì)直接給出一個(gè)沒有解釋的錯(cuò)誤選項(xiàng),不排除它從中文網(wǎng)站復(fù)制了錯(cuò)誤的答案;而那種條件充足、邏輯清晰的推理題,它通常情況都能答對(duì)。

不過,當(dāng)信息不全或者癥狀不典型時(shí),它的診斷會(huì)出現(xiàn)錯(cuò)誤,不善于根據(jù)實(shí)際情況修正診斷,“比如內(nèi)科病例題,它不善于在信息不全的情況下做推理,例如由幾個(gè)模糊的主訴/癥狀來尋找乏力的可能原因,所以推測(cè)ChatGPT在面對(duì)患者時(shí)如果得不到足夠多的信息它可能會(huì)不知所措,完全無法給出下一步的診療建議,它不會(huì)‘猜’?!?/p>

ChatGPT對(duì)精神病學(xué)的知識(shí)也比較了解,能根據(jù)癥狀診斷抑郁癥、焦慮癥等,但是對(duì)于精神藥物知識(shí)掌握不佳,例如會(huì)推薦精神分裂癥的患者服用抗抑郁藥,來治療主要癥狀。

“如果有兩種同類型的藥可以選擇時(shí)(例如該用利培酮還是氯丙嗪來治療精神分裂癥),它不會(huì)幫你做選擇,而是嚴(yán)謹(jǐn)?shù)靥嶙h根據(jù)醫(yī)生的建議選擇,可能自愧不如人類。而關(guān)于這兩個(gè)藥的選擇,現(xiàn)在已有超多的研究證據(jù)證明利培酮的安全性優(yōu)于氯丙嗪。ChatGPT給其他疾病選擇藥物時(shí)也常常選錯(cuò),它的藥理學(xué)考試也沒有及格?!?/p>

ChatGPT喜歡做婦產(chǎn)科醫(yī)生,它會(huì)給出很多理由來支持它的選擇,雖然有時(shí)候選擇是錯(cuò)的。

另外,ChatGPT對(duì)于中國的醫(yī)療相關(guān)法律法規(guī)不夠了解,這可能會(huì)給它在實(shí)踐中招來一些麻煩。

考試結(jié)果

差點(diǎn)及格

兒科和心理科最好,內(nèi)科最差

錢報(bào)記者在提問過程中發(fā)現(xiàn),針對(duì)不同題目,ChatGPT的回答速度不同。有些題是秒回,有些題需要更長時(shí)間“思考”,平均每題要花半分鐘左右。

ChatGPT對(duì)中文的理解完全沒問題,有時(shí)會(huì)直接給出答案,有時(shí)給出一串相關(guān)知識(shí),或者推理分析的過程。

提問進(jìn)行到1小時(shí)時(shí),系統(tǒng)提示“1小時(shí)內(nèi)的問題太多了,請(qǐng)稍后再試”??磥恚斯ぶ悄芤彩菚?huì)累的嘛!(當(dāng)然,也可能是這段時(shí)間訪問量實(shí)在太大,系統(tǒng)無法承載。)

最后經(jīng)過統(tǒng)計(jì),ChatGPT的正確率分別為:生理學(xué)40%、醫(yī)學(xué)微生物學(xué)70%、病理學(xué)70%、藥理學(xué)50%、衛(wèi)生法規(guī)50%、內(nèi)科30%、外科60%、婦產(chǎn)科60%、兒科70%,心理學(xué)-精神科70%,總分57分,差3分達(dá)到及格。

未來期待

輔助醫(yī)生工作

引導(dǎo)前沿醫(yī)學(xué)研究

對(duì)ChatGPT交出的答卷,呂海龍表示既有驚喜,也有很大不足。就現(xiàn)階段技術(shù)水平來說,他希望醫(yī)療方向的AI產(chǎn)品能變成醫(yī)學(xué)知識(shí)庫,起碼在識(shí)記類的題目上不能出錯(cuò),必須100%正確,給出答案時(shí)最好標(biāo)記出處,是引自某個(gè)教科書,還是引自網(wǎng)絡(luò)信息。

而對(duì)于醫(yī)療方向AI產(chǎn)品的未來,胡少華教授則有著更為積極的展望:“醫(yī)生把自己的知識(shí)經(jīng)驗(yàn)傳給它,醫(yī)生不在病房時(shí),病人可以直接去問這個(gè)機(jī)器,輸出聲音變成人的聲音,并且最好它還能向患者提問。同時(shí),AI在醫(yī)學(xué)研究領(lǐng)域也可以大有作為,做研究的前沿導(dǎo)向者,隨時(shí)給出新的醫(yī)學(xué)診斷技術(shù)、治療方法的發(fā)現(xiàn)。”

胡少華說,有關(guān)人工智能的對(duì)話,還在不斷地完善當(dāng)中。如今 AI 在識(shí)別、記憶、計(jì)算、邏輯思維、推理判斷等方面已經(jīng)可以達(dá)到甚至超越人腦,但還沒有觸及到智力的起點(diǎn),即認(rèn)知。只要AI還無法模擬人類的認(rèn)知,它就不會(huì)全面超越人類,也就無法取代包括醫(yī)生在內(nèi)的諸多崗位,但在針對(duì)患者提供個(gè)性化的診療上,它卻能夠扮演重要角色——成為醫(yī)生們最得力的智能助手。

本報(bào)記者 張冰清 通訊員 王蕊 江晨

最新動(dòng)態(tài)
相關(guān)文章
環(huán)球今熱點(diǎn):ChatGPT能代替醫(yī)生看病嗎
建議為耐藥結(jié)核病患者免費(fèi)治療
外媒:韓國三大運(yùn)營商被要求反省是否串...
當(dāng)前通訊!“土坑酸菜”涉事企業(yè)插旗菜...
環(huán)球快報(bào):ChatGPT被指沒“人性”,可能...
熱度不減!我國冰雪經(jīng)濟(jì)提質(zhì)增效 焦點(diǎn)關(guān)注