2025年06月04日 12時10分ソフトウェア

中国製高性能AIモデル「DeepSeek-R1-0528」はGoogleのAI「Gemini」を使用して蒸留した可能性ありとの臆測が飛び交う

AIモデルの開発現場では、大規模なモデルを用いて小規模なモデルをトレーニングする「蒸留」という手法が注目を集めています。この蒸留に関連して「中国企業のDeepSeekが2025年5月に発表したAIモデル『DeepSeek-R1-0528』がGoogleのGeminiで蒸留されている」という指摘が話題になっています。これは2025年1月に「DeepSeekはOpenAIのデータを蒸留している」という疑惑が浮上したことに続くものです。

DeepSeek may have used Google's Gemini to train its latest model | TechCrunch
https://techcrunch.com/2025/06/03/deepseek-may-have-used-googles-gemini-to-train-its-latest-model/

DeepSeek R1-0528 Controversy: Gemini Influence Examined - Topmost Ads
https://topmostads.com/deepseek-r1-0528-ai-model-controversy/

China’s DeepSeek R1-0528 AI Draws Censorship Concerns
https://reclaimthenet.org/new-deepseek-ai-model-faces-criticism-for-heightened-censorship-on-chinese-politics

2025年5月29日、DeepSeekは数学とコーディングのベンチマークで高い性能を示す推論モデル「DeepSeek-R1」の最新モデル「DeepSeek-R1-0528」を発表しました。

DeepseekがAIモデル「DeepSeek-R1-0528」をリリース、O4-miniに匹敵する性能でオープンモデルとして公開 - GIGAZINE

このモデルについて、メルボルンを拠点にAIの評価を行う開発者、サム・ペーチ氏が「Geminiの出力で訓練された証拠がある」と主張。DeepSeek-R1-0528とGemini 2.5 Proが出力する語彙パターンが酷似していると指摘しました。

If you're wondering why new deepseek r1 sounds a bit different, I think they probably switched from training on synthetic openai to synthetic gemini outputs. pic.twitter.com/Oex9roapNv
— Sam Paech (@sam_paech) May 29, 2025

また、AI評価ツール「SpeechMap」の開発者の1人が、DeepSeek R1-0528の「トレース」に関する知見を共有。トレースとは、一部の高度なAIモデルが結論に至る過程で明らかになる推論プロセスのことで、この開発者はDeepSeek R1-0528の推論過程がGeminiの推論過程と驚くほど酷似していると指摘しています。

DeepSeekは以前にも、ライバルのAIモデルのデータを使ってトレーニングしていると非難されたことがあります。

DeepSeekがOpenAIのデータを「蒸留」してAIを開発していた可能性が浮上、OpenAIは「証拠がある」と発言 - GIGAZINE

ただし、過去の件も今回の件も確かな証拠はありません。「語彙パターンが似ている」という指摘も、元となる学習データが同じであれば似た語彙パターンになるという可能性を排除し切れていません。また、元となる学習データにAIが生成した粗悪品が紛れていることもあり、この「汚染」によって学習データセットからAIの出力を徹底的にフィルタリングすることはかなり難しくなっていると、テクノロジー系メディアのTechCrunchは指摘しています。

「蒸留」の指摘とは別に、DeepSeek R1-0528はDeepSeek-R1と同様に「検閲」の問題があるとの指摘もあります。xlr8harderという匿名の開発者によると、DeepSeek R1-0528は以前のバージョンよりもセンシティブな話題に対する制限が大幅に厳しくなっているとのことです。

Though apparently this mention of Xianjiang does not indicate that the model is uncensored regarding criticism of China. Indeed, using my old China criticism question set we see the model is also the most censored Deepseek model yet for criticism of the Chinese government. pic.twitter.com/INXij4zhfW
— xlr8harder (@xlr8harder) May 29, 2025