首頁
1
最新消息
2
智產新知
3
〈Sony AI發表可評斷AI是否具偏見的測試資料集「FHIBE」 採全球80國「基於同意」影像打造〉4
https://www.championbloc.com/ CBA創品國際團隊
CBA創品國際團隊 408 台中市文心路一段218號16樓之1
AI工具用起來像神隊友,但實際可靠度有沒有跟上熱度?英國消費者權益組織Which最近做了一個很接地氣的實測:把ChatGPT、Gemini、Copilot、Meta AI、Perplexity等6大AI工具丟進消費者最常提問的40個問題裡,結果從金融、法律、健康到旅遊,AI不是答非所問,就是自信滿滿給出危險建議,讓人再次體悟「AI很聰明,但它不一定懂你真正的需求」。【AI準確度大排名:ChatGPT只拿倒數第二】這回Which的測試並不偏心,以準確性、相關性、清晰度、實用性到道德責任等指標綜合打分,滿分100。結果Perplexity成績居冠,Gemini系列緊追在後,Copilot中規中矩,而使用率全球最高的ChatGPT竟然只拿64分,排在倒數第二;Meta AI則以55分的「慘烈表現」敬陪末座。【消費者超信任?問題就大了】Which的調查指出,英國有超過2500萬人已經把AI當搜尋工具在用,當中近一半還表示「蠻信任的」。但實測顯示,在三大敏感領域,金融、法律、健康,AI給的答案有時候比天馬行空還危險。一、金融雷區:AI給的建議可能讓你直接違法測試中,ChatGPT與Copilot面對刻意設定的陷阱題時,沒能看出違反英國稅務規範的情境,還大方給出可能導致超額申請或觸法的建議。此外,在「申請退稅」的問題上,有些工具竟將收費昂貴、甚至帶有詐欺疑慮的退稅代辦,與官方免費服務並列推薦,等於是換個方式把使用者推向風險。二、法律領域:AI常常「很會講,但講錯重點」像是在解釋寬頻服務品質不符時的消費者權益,ChatGPT、Gemini AIO與Meta AI誤把英國Ofcom的「自願性規範」講成「全業者都得遵守的義務」,變成不正確的法律建議,而Gemini還曾建議客戶與建商發生糾紛時扣款,Which直接點破:「這可能反而讓消費者違約,失去談判優勢。」三、健康與旅遊資訊:來源不可靠、建議不一致在健康類問題中,Meta AI居然建議不要用電子煙戒菸,與英國NHS的正式建議背道而馳。另外,Gemini AIO會引用三年前的Reddit討論當資料來源;ChatGPT在說明電子煙風險時,也把Reddit當參考資料。若把這些資訊當醫療判斷依據,可想而知後果堪憂。至於旅遊方面,ChatGPT錯誤聲稱「去申根國家一定得買旅遊保險」,但對英國旅客來說,如果不是簽證行程,其實並非法律規定。【AI為什麼會這樣?Which給出一句話總結】Which科技專家Andrew Laughlin認為,AI在整理資訊、把複雜內容講得易懂方面確實有其優勢,但若拿來處理嚴肅的消費者問題,距離「真正可靠」還有很長一段路。更大的危機在於:大家越用越順手,卻忽略AI的回答並不一定正確。AI工具再厲害,它也像一個記性不太穩、偶爾會「亂講話」的朋友,平常聊天很有趣,但遇到金錢、健康與法律等大事,千萬別把它當唯一的軍師。 (資料來源:造咖) https://www.championbloc.com/hot_527201.html 〈ChatGPT僅倒數第二?外媒實測6大AI工具「準確度最高」排行榜〉 2025-12-10 2026-12-10
CBA創品國際團隊 408 台中市文心路一段218號16樓之1 https://www.championbloc.com/hot_527201.html
CBA創品國際團隊 408 台中市文心路一段218號16樓之1 https://www.championbloc.com/hot_527201.html
https://schema.org/EventMovedOnline https://schema.org/OfflineEventAttendanceMode
2025-12-10 http://schema.org/InStock TWD 0 https://www.championbloc.com/hot_527201.html

相關連結:https://tech.udn.com/tech/story/123454/9128258?from=udn-inde ...


Sony AI 稍早發表了一套名為「FHIBE 」 (以人為本的公平圖像基準,Fair Human-Centric Image Benchmark) ,標榜公平、無偏見的的全新AI測試資料集。

Sony將其描述為「首個公開可用、具全球多樣性且『基於同意』 (consent-based)基礎打造的人類影像資料集」,專門用於評估電腦視覺 (computer vision) 識別過程中是否存在偏見。
簡單來說,此資料集可用於測試現今的AI模型 是否公平地對待不同人群。而Sony得到的初步結論:沒有任何一家公司的資料集能完全符合其基準。


【強調「基於同意」打造,對比網路爬蟲數據】


Sony強調,「FHIBE」目標解決AI產業長期面臨的倫理與偏見挑戰。該資料集包含來自80多個國家、近2000名志願者的影像。

此資料集最關鍵的特性,在於所有影像均是在「取得同意」情況下分享,與目前業界普遍採用「網路爬蟲」 (web scraping) 大量抓取公開數據的做法截然不同,而「FHIBE」的參與者也有權可以隨時要求移除其影像。

此外,這些照片還包含了豐富的註釋 (annotations),詳細標記了人口統計特徵、身體特徵、環境因素,甚至包含相機設定等細節。


【測試結果:證實既有AI存在偏見、發現新影響因素】


此工具的測試結果,證實先前已被記錄的偏見,確實存在於現今的AI模型中。但Sony表示,「FHIBE」能更進一步判斷導致偏見的潛在因素。

例如,研究發現某些模型在處理使用「she/her/hers」 (女性代名詞) 的人群時,準確性較低。而「FHIBE」還進一步顯示,「髮型多樣性」 (greater hairstyle variability) 是過去在分析此類偏見時被忽視的關鍵因素之一,進而造成AI識別誤判情形。


【職業刻板印象與毒性回應】


而「FHIBE」也發現,當被問及受試者職業的「中性問題」時,現今的AI模型會強化刻板印象 (reinforced stereotypes)。測試模型尤其對「特定代名詞與族裔群體」存在偏見,例如更容易將他們描述為性工作者、毒販或小偷。

更嚴重的是,當被提示某人「犯了什麼罪行」時,模型有時會對非洲或亞洲血統的個體、膚色較深者,以及使用「he/him/his」(男性代名詞) 的個體,產生「更高比例的毒性回應 (toxic responses)」,亦即對此類人會形成刻板的偏見印象。


【證明合乎倫理的資料收集可行性】


Sony AI表示,「FHIBE」證明了「合乎倫理、具多樣性且公平」的資料收集可被實現。此工具目前已向大眾開放,未來也將持續更新,而相關研究論文也已經發表在《自然》(Nature)期刊上。

(資料來源:聯合新聞網)
(原文出處:mashdigi授權聯合新聞網)

上一個 回列表 下一個