不久前,一張馬斯克嬰兒時(shí)期的照片在外網(wǎng)被瘋狂轉(zhuǎn)發(fā)。
起因是一名博主在推特上發(fā)了張圖,并配文?“?據(jù)報(bào)道,埃隆?·?馬斯克正在研究一種抗衰老配方,但結(jié)果失控了。?”
你別說,這照片乍一看,還真挺容易被唬過去的。
【資料圖】
但只要稍微用心辨別,就能看出來這是成年馬斯克的臉直接移植上去的, AI 味兒太沖了。
自打這 AI 大模型成熟以后,各種 AI 生成的內(nèi)容就在網(wǎng)絡(luò)上迅速泛濫。
像什么川建國同志退休后的生活;
還有?“?馬斯克投資 AI 失敗,賣燒烤還債?”“?馬斯克在廣州城中村擺攤的日子?”“?馬斯克 kiss 女機(jī)器人?”?。
各種梗圖層出不窮,開局一張圖,內(nèi)容全靠編的情況是愈演愈烈。
而在文本領(lǐng)域,不少學(xué)生借著 AI 寫論文、寫作業(yè),甚至于莫言也坦言,給余華的頒獎(jiǎng)詞是 ChatGPT 幫忙寫的。
那么問題來了, AI 生成的內(nèi)容滿天飛,我們要怎么去區(qū)分到底哪些是 AI 創(chuàng)作的,哪些是人類創(chuàng)作的呢?
前段時(shí)間 AI 詐騙 430?萬的案子大家都還心有余悸,再這么任由 AI“?狂飆?”?下去,下一個(gè)受害者可能很快就會(huì)出現(xiàn)。
其實(shí)吧,現(xiàn)在市面上也出現(xiàn)了不少反 AI 工具,專門用來檢測(cè) AI 生成的內(nèi)容。
不過,這些工具真的就靠譜嗎?
為此,世超專門找了幾個(gè)檢測(cè)工具,測(cè)試了一波。
首先是 AI 圖像檢測(cè)。
世超分別找了Umm-maybe 、 Illuminarty 、 AI or Not這三個(gè)討論度比較高、甚至是號(hào)稱準(zhǔn)確率在 95%?的檢測(cè)工具,方便做一個(gè)對(duì)比。其中 Illuminarty 和 Umm-maybe 測(cè)試結(jié)果顯示的是概率, AI or Not 則是直接給回答。
本以為 AI 檢測(cè)工具是個(gè)?“?火眼金睛?”?,但沒想到在馬斯克?“?返老還童?”?的那張圖片上,就開始翻車了。
Illuminarty 和 AI or Not 的態(tài)度都很明確,這明顯就是由 AI 生成的。
但輪到 Umm-maybe ,畫風(fēng)就變了。
它告訴我,這張圖片是人類創(chuàng)作的概率為 81%?。
我尋思這肉眼都能瞧出來是 AI 干的好事,這怎么還能檢測(cè)不出來呢。
為了看看是不是偶爾的 bug ,我又多試了幾次。
這張奧黛麗赫本在《?羅馬假日?》里的電影截圖, Umm-maybe 給了個(gè)模棱兩可的答案,概率是一半一半。
剩下的一個(gè)站 AI ,一個(gè)站人類。
至少從馬斯克和赫本這兩張圖片的測(cè)試結(jié)果來看,除了 AI or Not 之外,其他兩個(gè) AI 檢測(cè)工具的判定都不太準(zhǔn)確。
不過,打臉的時(shí)刻總是來得很快。
當(dāng)我以為 AI or Not 稍微靠點(diǎn)兒譜的時(shí)候,它卻說這張金角大王拿著漢堡的 AI 圖片,是人類生成的。
你以為這就完了?更離譜的還在后頭。
這張梅西踩縫紉機(jī)的 AI 照片, Umm-maybe 給出的人類創(chuàng)作概率為 89%?。
這有點(diǎn)過于荒謬了。。。
還有這張人跟巨型老虎合影的照片,肉眼就能看出來是 AI 生成的吧。
結(jié)果除了 Umm-maybe ,其余都認(rèn)為這是人類創(chuàng)作的,甚至 Illuminarty 還覺得 AI 生成的概率只有 1.5%?。
總結(jié)一下,在 AI 圖片的檢測(cè)上,世超總共測(cè)試了 10?張不同的圖片, 8 張由 AI 生成, 2 張由人類創(chuàng)作。
排除掉了 2 項(xiàng)有爭(zhēng)議的結(jié)果后,AI or Not 和 Umm-maybe 的準(zhǔn)確率都是 67%?,而 Illuminarty 的準(zhǔn)確率為 50%?。
也就是說,這三個(gè) AI 圖像檢測(cè)工具的準(zhǔn)確度并不算高。
咱們?cè)賮砜纯次谋镜臋z測(cè)情況。
同樣,還是選用了 3 個(gè)比較熱門的檢測(cè)工具:GPTZero 、 Sapling 以及 Copyleaks 。
世超先讓 ChatGPT生成了一段關(guān)于椰汁的廣告文案,再依次用工具進(jìn)行測(cè)試。
但一上來就給我整不會(huì)了。
我原封不動(dòng)從 ChatGPT 那邊粘貼過來的文案, GPTZero 竟然說是可能完全由人類編寫。
而 Sapling 給出結(jié)果也一樣,這段文字由 AI 生成的概率為?0?。
只有 Copyleaks ,把全文都標(biāo)紅了,咬死這是 AI 寫的。
三個(gè)工具里有兩個(gè)都檢測(cè)不出來這是 ChatGPT 寫的,是不是有點(diǎn)太過分了。。。
不信邪的我,又讓 ChatGPT 以魯迅的風(fēng)格寫了一篇《?火鍋日記?》。
Copyleaks 依舊穩(wěn)定發(fā)揮, GPTZero 這回倒是學(xué)聰明了,只有 Sapling 還在死死堅(jiān)持那就是人寫的。
為了測(cè)試這些工具對(duì)于人類創(chuàng)作的反應(yīng),我又節(jié)選了一段《?活著?》里的內(nèi)容。
可能是余華老師的《?活著?》過于出名,幾個(gè)工具在這一關(guān)上倒是沒有踩坑。
前前后后測(cè)試了好幾次,除了 Copyleaks 的正確率相對(duì)比較高之外,剩下的感覺都不是特別聰明的樣子,而且 Sapling 還出現(xiàn)了對(duì)中文不太友好的情況。
其實(shí)吧,無論是圖像還是文字檢測(cè),都是靠著 AI把人類創(chuàng)作和機(jī)器生成區(qū)分出來。
換句話說,就是用魔法來打敗魔法。
只是不同的訓(xùn)練模型,所用的數(shù)據(jù)集不同,分類的指標(biāo)也不同。
不過,這次的測(cè)試結(jié)果大家應(yīng)該也看到了, AI 檢測(cè)工具的效果并沒有想象中那么好。
世超覺得問題,可能就出在這訓(xùn)練數(shù)據(jù)上。
像上文提到的 AI or Not ,它的數(shù)據(jù)集范圍就只有 Stable Diffusion 、 Midjourney 、 Dall-E 、 GAN 和 Generated faces 生成的圖像,如果超出了這個(gè)范圍,誤判也是常有的事兒。
雖然可以利用視覺算法,將輸入圖像的分辨率、清晰度等局部細(xì)節(jié)跟 AI 圖像的特征進(jìn)行比對(duì)。
但攔不住 AI 進(jìn)化的速度太快了,像之前備受吐槽的?“?六指戰(zhàn)士?”Midjourney 每更新一版,對(duì)于細(xì)節(jié)的刻畫也就更逼真。
這文本呢,也是類似的情況。
就比如說這 GPTZero ,要想知道文字到底是不是由 AI 生成的,需要看兩個(gè)指標(biāo),一個(gè)叫困惑度,一個(gè)叫突發(fā)性。
困惑度指的是 AI 模型在看到這段文字時(shí),會(huì)不會(huì)覺得很難懂,像什么?“?依托答辯?”?之類的諧音梗, AI 不一定能夠看懂,困惑度越高,就證明內(nèi)容越有可能是人類創(chuàng)作的。
而突發(fā)性,指的就是句子結(jié)構(gòu)的變化程度。
畢竟人類跟 AI 不同,在寫東西的時(shí)候句式可能一會(huì)兒長(zhǎng)一會(huì)兒短,追求的就是一個(gè)變化多端, AI 則更傾向于使用統(tǒng)一的句式。
但 AI 在不斷的進(jìn)化中,無論是在困惑性還是突發(fā)性上,生成的內(nèi)容越來越接近人類。
更何況現(xiàn)在的 AI 大模型一天一個(gè)樣,等 AI 檢測(cè)追上來, AI 生成的內(nèi)容早不知道飆到哪去了。
但凡人類有什么風(fēng)吹草動(dòng), AI 就馬上能內(nèi)化到自己的模型里。
照這么下去, AI 生成的東西只會(huì)越來越難以辨別。
所以眼下,咱們能做的就是寄希望于技術(shù)大牛們,趕緊想辦法讓 AI 檢測(cè)工具實(shí)現(xiàn)“?彎道超車?”。
而這場(chǎng)由 AI 掀起的風(fēng)浪,終究或許也只有 AI 知道怎么去平息了。
撰文:糖醋排骨?編輯:江江&面線?封面:萱萱
圖片、資料來源:
小紅書、推特、Umm-maybe 、 Illuminarty 、 AI or Not 、GPTZero 、 Sapling、?Copyleaks
澎湃新聞,ChatGPT 識(shí)別器準(zhǔn)確率僅26%,檢測(cè)AI生成內(nèi)容為何這么難?
騰訊云,為什么檢測(cè)人工智能生成的文本如此困難
CSDN,【換臉詳細(xì)教程】手把手教你進(jìn)行AI換臉:換臉流程及源碼詳解
標(biāo)簽: