導(dǎo)讀

一道小學(xué)生的數(shù)學(xué)題竟然難倒了全球AI大模型，只有4個(gè)大模型給出了正確答案！這究竟是怎么一回事？快來(lái)看看！

全球AI大模型被一道小學(xué)生數(shù)學(xué)題難倒

日前，一道來(lái)自小學(xué)生的數(shù)學(xué)題卻難倒了不少海內(nèi)外AI大模型，這道題的內(nèi)容是“9.11和9.9哪個(gè)更大”，而僅有4個(gè)大模型給出了正確答案。

挑戰(zhàn)大模型的數(shù)學(xué)推理能力

大模型的數(shù)學(xué)能力一直是短板，即便是目前最好的大模型GPT4也仍然有很大進(jìn)步空間，而此前筆者在采訪12位大模型時(shí)也得出了一個(gè)驚人的結(jié)論，這些大模型中僅有4個(gè)回答是正確的，而其他8個(gè)大模型卻都給出了錯(cuò)誤的答案。

數(shù)字切分問(wèn)題與模型的理解能力

而針對(duì)大模型的數(shù)學(xué)能力，筆者曾進(jìn)行過(guò)深入的采訪，大部分行業(yè)人士認(rèn)為大模型數(shù)學(xué)能力差的根本原因還是出在分詞上，即Tokenizer(分詞器)在處理數(shù)字時(shí)會(huì)出現(xiàn)問(wèn)題，導(dǎo)致模型難以正確理解和計(jì)算。

正確答案揭曉與未來(lái)的發(fā)展方向

而這道9.11和9.9的大小比較題，12個(gè)大模型中，只有阿里通義千問(wèn)、百度文心一言、Minimax和騰訊元寶答對(duì)，其他8個(gè)大模型都認(rèn)為9.11比9.9更大。

雖然最終4個(gè)大模型給出了正確答案，但這并不能掩飾大模型數(shù)學(xué)能力的薄弱，畢竟面對(duì)簡(jiǎn)單的大小比較題，8個(gè)大模型都給出了錯(cuò)誤答案。

而對(duì)于未來(lái)大模型的發(fā)展方向，筆者也咨詢了不少專家學(xué)者以及從業(yè)者，針對(duì)此前大模型的回答，不少人表示“并不意外”。

一些專家認(rèn)為，未來(lái)在模型的訓(xùn)練數(shù)據(jù)上會(huì)越來(lái)越依賴構(gòu)造型的數(shù)據(jù)，而不是直接爬取下來(lái)的數(shù)據(jù)，以提升模型的復(fù)雜推理能力。

因?yàn)橹苯优廊∠聛?lái)的數(shù)據(jù)中會(huì)夾雜大量的錯(cuò)誤數(shù)據(jù)，這些錯(cuò)誤數(shù)據(jù)會(huì)誤導(dǎo)模型，導(dǎo)致模型做出錯(cuò)誤的判斷。

而構(gòu)造型的數(shù)據(jù)則可以事先篩選，保證數(shù)據(jù)的準(zhǔn)確性和可靠性，從而培養(yǎng)模型健康的思維方式。

亚洲精品一区二三区在线观看_久久美_91妖精视频_成av人电影在线_久久久国产精品免费_久热亚洲

9.11和9.9哪個(gè)大？實(shí)測(cè)12個(gè)大模型8個(gè)都答錯(cuò)，ChatGPT也翻車了

導(dǎo)讀

全球AI大模型被一道小學(xué)生數(shù)學(xué)題難倒

挑戰(zhàn)大模型的數(shù)學(xué)推理能力

數(shù)字切分問(wèn)題與模型的理解能力

正確答案揭曉與未來(lái)的發(fā)展方向

干貨教程更多>>