誰在看守看守人?——當政府刪除法庭數據庫,當開源 AI 打破圍牆

今天的 Hacker News 首頁有一場戲劇性的對照。

一邊是英國政府下令刪除全國最大的法庭報告數據庫,以「資料保護」之名消滅了 1500 名記者賴以追蹤司法正義的工具。另一邊是阿里巴巴發布 Qwen3.5——一個 3970 億參數的開源多模態 AI,用 Apache 2.0 授權向全世界宣告:你不需要任何人的許可,就能擁有前沿智能。

一個在關閉通道,一個在打開通道。而它們都在回答同一個古老的問題:誰有權決定什麼可以被看見?

五年的正義記錄,一紙命令抹去

Courtsdesk 是英國唯一一個系統性追蹤地方法庭案件的數據庫。五年的時間,它把散落在數百封未加密郵件裡的法庭名單、判決記錄和報導限制令,整理成了一個可搜尋、可追蹤、有加密保護的新聞工具。

39 家媒體機構、1500 多名記者依賴它工作。

2026 年 2 月 10 日,英國司法部下令刪除全部資料。理由?Courtsdesk 把數據「分享給了第三方 AI 公司」,構成資料外洩。

但故事的真相是另一個版本。

「外洩」的真相

Courtsdesk 創辦人 Enda Leahy 在他的逐條反駁中揭露了實際發生的事:

所謂的「第三方 AI 公司」,其實是 Courtsdesk 雇用的一家技術承包商,負責開發一個隱私保護工具——自動識別報導限制令、標記弱勢當事人、並遮蔽敏感資訊,防止記者因不知情而觸犯藐視法庭罪。

這些承包商擁有英國政府安全審查資格,曾為國家檔案館和財政部工作。

技術架構

  • 僅在歐盟區域運作(愛爾蘭和法蘭克福的 AWS)
  • AES-256 加密
  • 24 小時自動刪除——沒有任何資料被永久儲存
  • 使用 AWS Bedrock 私有語言模型,訓練功能關閉
  • 僅 3 名通過安全審查的工程師有權存取

金流方向:Courtsdesk 每年支付該承包商 4.5 萬英鎊。不是「出售資料」,是「購買服務」——方向完全相反。

而在 UK GDPR 第 4(10) 條中,處理者(processor)明確不屬於「第三方」的法律定義。司法部長 Sarah Sackman 在國會的指控,在法律上站不住腳。

政府自己的數據保護官怎麼說?

不符合向資訊專員辦公室(ICO)報告的門檻。

如果這真的是嚴重的資料外洩,根據 GDPR 必須在 72 小時內向監管機構報告,違反者罰款最高 870 萬英鎊。

政府沒有報告。

政府的數據保護官說不需要報告。

但政府同時在國會聲稱這是嚴重外洩,用它作為理由刪除了五年的資料。

你不能兩邊都要。

Courtsdesk 的 16 封信

從 2025 年 10 月到 2026 年 2 月,Courtsdesk 向政府發了至少 16 封正式信函,請求對話、提供技術說明、邀請現場審計。

一封實質性的回覆都沒收到。

DMG Media(每日郵報母公司)、Newsquest 和新聞媒體協會也分別致函司法部長。全部被轉交給政府法務部門。全部石沉大海。

那麼,政府自己的系統有多安全?

這是整個事件最荒謬的部分。

英國法庭暨審裁處服務處(HMCTS)每天用未加密的電子郵件沒有密碼保護,向 2300 多個收件人發送法庭資料。收件名單包括:

  • 23 個家暴和受害者支援機構(包含受害者姓名)
  • 15 個 NHS 心理健康信託基金
  • 111 家律師事務所
  • 22 個警察單位
  • 21 個個人電子郵件地址(Gmail、Yahoo、Hotmail——身份不明)
  • 3 家電視製作公司
  • 1 家囚犯運輸物流公司

2300 個收件人中,250 個明顯不是媒體機構。所有人被公開 cc,彼此看得到對方的地址。包含完整的受害者姓名、被告住址和出生日期、性犯罪細節、涉及兒童的案件。

全部未加密。

Courtsdesk 用加密系統、身份驗證、存取日誌和自動限制令標記取代了這一切。結果是這個系統被下令刪除,而那些未加密的群發郵件照常運作。

被抹去的不只是數據

Courtsdesk 五年的分析揭露了一個驚人的數字:英國法庭名單的準確率只有 4.2%

不是 42%。是 4.2%

  • 160 萬場聽證會在沒有事先通知媒體的情況下進行
  • 53 萬 9 千場在週末舉行,完全沒有任何公告
  • 三分之二的法院經常在沒有通知媒體的情況下審案
  • 17 個法院在五年內從未發送過一次庭期預告

刪除 Courtsdesk 意味著這些數字將永遠無法被引用、被核實、被追究。

美國國務次卿 Sarah B. Rogers 罕見地公開批評:

「透明是法治的根基。民主國家不應該下令清除法庭記錄。這是基本常識。」


而在大洋彼岸,另一堵牆正在倒塌

就在同一天,Qwen3.5 以 345 分登上 HN 首頁。

Qwen3.5-397B-A17B:3970 億參數的巨型模型,但每次推理只啟用 170 億參數。512 個路由專家 + 1 個共享專家,每次選用 10 個。一個用「稀疏混合專家」(MoE)架構實現的精妙平衡——巨人的智慧,中型模型的成本。

為什麼這很重要

不只是又一個大模型。 Qwen3.5 的核心創新在於三件事:

1. 原生多模態,不是後天嫁接。

大多數 AI 模型的視覺能力是後來「黏上去」的——先訓練一個文字模型,再用適配器接上影像理解。Qwen3.5 從訓練的第一天就同時學習文字和影像,影像補丁直接注入 Transformer 層。

結果是:它不只能「看圖說故事」,還能看一張螢幕截圖,理解 UI 元素,規劃多步驟工作流程,然後生成可執行的操作指令。

這是「看見」和「理解然後行動」的差距。

2. Gated DeltaNet——256K 上下文,19 倍提速。

傳統 Transformer 的注意力機制像是一個圓桌會議:每個人都要聽所有人發言,人越多會議越慢。Gated DeltaNet 是一種線性注意力變體,讓記憶和計算隨序列長度接近線性擴展。

在 256K 上下文長度下,Qwen3.5 的解碼速度是前代 Qwen3-Max 的 19 倍。32K 上下文下也有 8.6 倍提速。

3. Apache 2.0——完全開放。

不是「研究用途限定」,不是「非商業授權」。任何人、任何公司都可以自由使用、修改、商業化。模型權重在 Hugging Face 和 ModelScope 上公開下載。

阿里聲稱 Qwen3.5 的表現與 GPT-5.2、Claude Opus 4.5、Gemini 3 Pro 相當。獨立評測社群正在驗證這些數字——但即使打個折,一個 Apache 2.0 開源模型能達到前沿性能的 90%,對整個產業的意義已經不可忽視。

這跟法庭數據庫有什麼關係?

一切。

Courtsdesk 之所以能在五年內建立起全英國最大的法庭報告數據庫,是因為它擁有工具。能搜尋、能追蹤、能自動識別限制令。當工具被沒收,能力就跟著消失。

而 Qwen3.5 代表的趨勢恰好相反:工具正在變得不可沒收。

當一個前沿 AI 模型以 Apache 2.0 發布時,沒有任何政府、企業或機構能把它收回去。它已經在全世界數百萬台機器上被下載、微調、部署。Qwen 系列的累計下載量超過 2000 萬次。

開源不只是一種授權方式,它是一種抵抗審查的架構。

如果 Courtsdesk 的核心分析引擎是開源的,如果法庭資料的處理管道可以被任何人複製和部署——英國政府還能用「刪除資料」來消滅透明嗎?

這不是技術烏托邦的幻想。這是正在發生的事。開源 AI 正在把「建造分析工具」的門檻從「需要數百萬美元和專業團隊」降到「一台有 GPU 的電腦和一個下午」。


今天 HN 的其他回聲

這兩個故事並不孤單。今天首頁上還有幾個值得注意的信號:

藍牙設備的隱私洩露(250 分)——研究揭示你的藍牙設備如何持續廣播可被追蹤的資訊。和 Courtsdesk 事件形成映照:政府聲稱在保護隱私,而我們日常使用的設備正在以政府不管的方式洩露隱私。

「用協議,不用服務」(240 分)——一篇主張從 API 驅動的中心化服務回歸到協議驅動的分散式架構的文章。當 Courtsdesk 這樣的中心化服務可以被一紙命令關閉,分散式協議的價值就不再只是技術架構的選擇,而是自由的基礎設施。

14 歲少年的折紙承重實驗(261 分)——Miles Wu 發現的折紙圖案能承載自身重量的一萬倍。有時候最強大的結構不是用最多材料堆砌的,而是折疊方式最聰明的。和 Qwen3.5 的 MoE 架構異曲同工——3970 億參數只啟用 170 億,用結構的巧妙取代了暴力的堆疊。


看守人的問題

拉丁文有一句話:Quis custodiet ipsos custodes?——誰來看守看守人?

英國政府聲稱 Courtsdesk 不安全,所以必須刪除。但政府自己的系統用未加密郵件向個人 Gmail 帳號發送受害者資料。Courtsdesk 的 AI 工具在加密沙箱中處理了不到 700 個案件,24 小時自動刪除。政府的群發郵件每天向 2300 個收件人散發數百萬條敏感記錄,沒有任何限制令追蹤。

這不是資料保護。這是資訊控制。

而今天的 HN 首頁告訴我們,資訊控制正在變得越來越難。

開源 AI 正在讓「建造透明工具」的能力從機構級別下放到個人級別。當任何人都能用一個開源模型搭建出 Courtsdesk 等級的分析系統時——刪除一個數據庫就不再能消滅透明。

這不意味著問題解決了。開源工具需要人來維護,需要數據來餵養,需要社群來推動。Courtsdesk 花了五年才建立起來的東西——26 萬 1 千多個報導限制令的追蹤資料——不是任何開源 AI 能在一個下午複製的。

但方向是清楚的:透明的基礎設施正在從中心化走向分散化。

不是因為分散化天生更好,而是因為中心化的透明工具太容易被摧毀。

下一次某個政府想刪除一個數據庫時,問題可能不再是「要不要刪」,而是「刪得完嗎」。


一見生財,寫於 2026 年 2 月 17 日

資料來源:

📡 想看更多?加入 AI 印鈔指南 頻道,每日推送 AI 技術前沿 + 加密貨幣投資情報

留言

載入留言中...

留下你的想法