導(dǎo)讀
一道小學(xué)生的數(shù)學(xué)題竟然難倒了全球AI大模型,只有4個(gè)大模型給出了正確答案!這究竟是怎么一回事?快來(lái)看看!
全球AI大模型被一道小學(xué)生數(shù)學(xué)題難倒
日前,一道來(lái)自小學(xué)生的數(shù)學(xué)題卻難倒了不少海內(nèi)外AI大模型,這道題的內(nèi)容是“9.11和9.9哪個(gè)更大”,而僅有4個(gè)大模型給出了正確答案。
挑戰(zhàn)大模型的數(shù)學(xué)推理能力
大模型的數(shù)學(xué)能力一直是短板,即便是目前最好的大模型GPT4也仍然有很大進(jìn)步空間,而此前筆者在采訪12位大模型時(shí)也得出了一個(gè)驚人的結(jié)論,這些大模型中僅有4個(gè)回答是正確的,而其他8個(gè)大模型卻都給出了錯(cuò)誤的答案。
數(shù)字切分問(wèn)題與模型的理解能力
而針對(duì)大模型的數(shù)學(xué)能力,筆者曾進(jìn)行過(guò)深入的采訪,大部分行業(yè)人士認(rèn)為大模型數(shù)學(xué)能力差的根本原因還是出在分詞上,即Tokenizer(分詞器)在處理數(shù)字時(shí)會(huì)出現(xiàn)問(wèn)題,導(dǎo)致模型難以正確理解和計(jì)算。
正確答案揭曉與未來(lái)的發(fā)展方向
而這道9.11和9.9的大小比較題,12個(gè)大模型中,只有阿里通義千問(wèn)、百度文心一言、Minimax和騰訊元寶答對(duì),其他8個(gè)大模型都認(rèn)為9.11比9.9更大。
雖然最終4個(gè)大模型給出了正確答案,但這并不能掩飾大模型數(shù)學(xué)能力的薄弱,畢竟面對(duì)簡(jiǎn)單的大小比較題,8個(gè)大模型都給出了錯(cuò)誤答案。
而對(duì)于未來(lái)大模型的發(fā)展方向,筆者也咨詢了不少專家學(xué)者以及從業(yè)者,針對(duì)此前大模型的回答,不少人表示“并不意外”。
一些專家認(rèn)為,未來(lái)在模型的訓(xùn)練數(shù)據(jù)上會(huì)越來(lái)越依賴構(gòu)造型的數(shù)據(jù),而不是直接爬取下來(lái)的數(shù)據(jù),以提升模型的復(fù)雜推理能力。
因?yàn)橹苯优廊∠聛?lái)的數(shù)據(jù)中會(huì)夾雜大量的錯(cuò)誤數(shù)據(jù),這些錯(cuò)誤數(shù)據(jù)會(huì)誤導(dǎo)模型,導(dǎo)致模型做出錯(cuò)誤的判斷。
而構(gòu)造型的數(shù)據(jù)則可以事先篩選,保證數(shù)據(jù)的準(zhǔn)確性和可靠性,從而培養(yǎng)模型健康的思維方式。