前置き
皆さん、こんにちは!いつも応援ありがとうございます。Playboxのスコットです!
本日は三笘選手の動きを分析した先月の朝日新聞の記事の裏側を説明する記事になります。実は本記事を作成するのにあたって、名大の後輩である梅基さんと筑波大学の後輩である中村さんに協力して頂きました。
今回は、先日朝日新聞に掲載された日本代表のW杯アジア最終予選の初戦の裏側を解説します。本記事を作成するにあたり、名古屋/筑波大学の後輩である梅基さん、中村さんに協力いただきました。
梅基さんは国内トップクラスのサッカーデータ分析研究者で、海外でも有名なStatsbombカンファレンスでの発表経験を持つ唯一の日本人研究者です。
中村さんは筑波大でアナリストとコンピュータビジョン研究を兼任しており、将来が非常に楽しみな逸材です。学部・部活・研究室までわたしと一緒ですが、サッカーを観る目は余裕で私より優れているかもしれません。
少し前置きが長くなりましたが、サッカー分析の最前線を伝える入門記事としてお楽しみください。全3部編でお届けします!
- <サッカー分析の舞台裏:第1部> 放送映像から試合データを取得する方法(本記事)
- <サッカー分析の舞台裏:第2部> ボール保持者の分析(xG, VAEP)
- <サッカー分析の舞台裏:第3部> ボール非保持状態の攻撃パターンを分析する(OBSO)
はじめに — サッカー分析における「データ」とは?
人力 vs. センサー vs. 画像処理
スポーツにおいて、データを集めるための手法はざっくり以下の3つに分類できます。
- 人力:映像を見ながら、手作業で選手やボールの位置、プレーを記録する。
- センサー:選手にGPSを装着し、位置情報やスピードなどのデータを取得する。
- 画像処理(映像解析):AIを使って試合の映像から選手やボールの位置、イベント情報を自動的に抽出する。
それぞれの良し悪しをまとめると、以下のようになるかと思います。
手法 | コスト | 精度 | リアルタイム性 | 相手チームの情報取得 | 取得可能なデータ |
人力 | ✗ | ◯ | ✗ | ◯ | イベントデータのみ |
センサー | ✗ | ◎ | ◎ | ✗ | トラッキングデータのみ |
画像処理 | ◯ | ◯〜◎ | △〜◯ | ◯ | トラッキングデータ+イベントデータ |
画像処理(映像解析)には、精度を追求すると処理時間が長くなり、逆にリアルタイム性を高めると精度が落ちるというトレードオフがあります。ただ、相手チームのデータを取得可能で、トラッキングデータとイベントデータの両方が得られます。また、ビデオアナリストが映像撮影を行うことを考えると、実際には最も融通が利き、現実的な手法だと言えます。精度も年々向上しており、Playboxが映像解析に注力しているのはこうした理由からです。
センサー方式(GPS)は加速度センサーなども組み込まれていて、最近では誤差も1メートル以内に収まるレベルまで改善されています。映像解析と組み合わせて活用するのが最も理想的ですが、相手チームのデータを取得できないことや、装着や管理などで意外と手間やコストがかかるのが難点です。また、パスやシュートといったイベントデータは取得できません。
サッカー分析に使える映像の種類
サッカー分析に使える映像には、大きく以下の3種類があります。
- 放送映像:テレビ中継などで一般に広く公開されている映像。カメラの切り替えやズームが多く、解析には工夫が必要ですが、アクセスしやすいメリットがあります。
- 固定カメラ映像(Playboxが主に扱う方法):簡易的なカメラセットアップでピッチ全体を常に撮影する方法。映像が安定し解析しやすい反面、ピッチ全体を撮影しているため選手一人ひとりの解像度が粗めで、背番号認識など細かな分析には難しさがあります。
- ドローン映像:上空から広範囲を撮影でき、戦術分析に最適ですが、コストが高く法的な制約もあります。
映像から取得できるデータの種類
映像から得られる主なデータは以下の2種類です。
- トラッキングデータ:選手やボールの位置、移動速度、移動距離など。
- イベントデータ:パス、シュート、ドリブルなど試合中に起きる具体的なプレー。
これらを組み合わせることで、戦術の詳細分析や選手個人のパフォーマンス評価など、多様な用途に活用できます。
今回、放送映像を選んだ理由
今回分析対象にした試合(日本代表のW杯予選)は、現地に行ったわけではないため、一般公開された放送映像しかアクセスできない状況でした。このような公開映像を分析して記事にすること自体は問題ないと新聞社にも確認しましたが、その映像をデータ化して商業的に利用してよいのかは現状判断できかねます。というのも、Playboxではチームから直接映像の提供を受け、それを分析して結果を返すというスタイルをとっているため、この問題にまだ直面していないからです。
ただ最近、「YouTubeで実際の試合映像は流せないので、映像から取得したデータを使って試合状況をアニメーション化して配信したい」といった相談を実況者の方からいただくことがあります。この点については法的にグレーな部分があるため、近いうちに弁護士に相談してはっきり白黒をつけたいと考えています。
ちなみにChatGPTに聞いてみると、
「映像そのものに著作権がある場合、その映像を元に作成したデータやアニメーションも『二次的著作物』と見なされる可能性があります。そのため、商業利用をする場合には著作権者から許可を得ることが望ましいです。ただし、映像から抽出したデータが『著作物性を持たない事実情報』と判断される場合は、許可が不要になる場合もあります。具体的なケースによって判断が分かれるため、専門家への相談をおすすめします。」
とのことでした。はい、専門家に相談します。
次章では、具体的に放送映像からどのようにデータを抽出するのか、そのプロセスを詳しく解説していきます。
2. 放送映像から試合データを抽出する方法
通常、選手のトラッキングデータを取得するには、スタジアムに専用のカメラを何台も設置したり、選手のユニフォームの色や背番号をあらかじめシステムに登録したりと、いろいろ手間がかかります。
ですが、今回のように後から一般公開された放送映像のみで分析を行う場合は、そういった事前準備が全くできません。つまり、「ある映像だけ」を頼りに、AIでどこまで精度よく選手やボールを追跡できるのかがポイントになります。
世の中にはすでにこれを実現している会社も複数存在しています。たとえば、SkillCornerという会社は、放送映像だけでリアルタイムに試合状況を再現する技術を持ってそうです。
バリバリの競合だと思いますが、めちゃめちゃかっこいいので紹介してしまいました。Playboxでも近い将来、こんなことができるようになりますので、楽しみにしていてください!
さて、このように放送映像だけから「誰が」「どこに」いるのかを抽出する技術は、 Game State Reconstruction(GSR) と呼ばれています。「何をしている」(パスやシュートなど)を自動的に検出する Action Spotting、特にボールに関するものをBall Action Spotting(BASと呼ばれます)。
Game State Reconstruction (GSR)
GSR は映像から選手やボールの位置情報を抽出し、試合の状況を再現する技術です。
日本語で詳細にまとめているmoai510さん以下のブログは参考になります。
論文として公開されている最先端技術(State-of-the-Art, SOTA)は、2025年に発表された論文 "From Broadcast to Minimap: Unifying Detection, Tracking, and Calibration for Real-Time Game State Reconstruction" で紹介されています。この手法はYOLO-v5m、SegFormer、DeepSORTといったオープンソースのAI技術と独自のデータセット(残念ながら非公開)を組み合わせ、リアルタイムに近い速度で試合の状況を再現できると報告しています。
ただし今回の記事では、この具体的な技術の深掘りは行いません。というのも、本記事で使った手法からさらに進化した最新のGSR手法をPlaybox内部で開発しており、完全にオープンなデータセットを用いて、上記の最先端手法とほぼ同じ精度を達成したからです!詳しい解説は近いうちに別の記事として公開しますので、お楽しみに!
そのため、今回はGSRの基本的なイメージだけを簡単にお伝えします。
大まかには以下のような流れになります:
- 放送映像から各選手やボールをAIが検出してトラッキング(画像左下のように選手やボールを検出)
- ピッチのラインや特徴点をAIで検出し、映像上の位置情報をピッチ上の絶対座標に変換(画像左上のようにカメラキャリブレーションを実施)
- これらを合わせることで、映像内の選手位置をピッチ上の正確な位置に再現することができます(画像右側のようなピッチ全体図へ変換)。
上の画像の例では、放送映像から取得した選手の位置情報(左下)を元にピッチ座標を推定(左上)し、最終的にピッチ全体の俯瞰的な位置情報として可視化しています(右図)。他にも背番号・役割・チームを認識することもありますが、これがGSRの基本的な仕組みです。
Ball Action Spotting (BAS)
GSRが選手やボールの位置を再現する技術だとすると、Ball Action Spotting(BAS) は、ボールに関するパス、シュート、ドリブルといった「イベント」を映像から検出する技術です。SoccerNet ChallengeでもこのBASタスクが設定されており、現在の最先端は2024年発表の T-DEED という手法です。T-DEEDは映像だけから12種類のイベントを1秒以内の精度で73.4%も正確に検出できるとのことです(詳しくはT-DEEDの論文をご覧ください)。
今回の新聞記事では、30秒ほどの短い映像を数本分析しただけなので、わざわざAIで自動化するまでもなく、実際には人力でイベントを抽出しています。そっちのほうが手っ取り早くて正確でした笑。
とはいえ、Playboxの本体プロダクトでは、このBASのようなイベント検出技術もしっかり開発を進めています。ただ、そちらは主にフルピッチの映像を前提としているため、今回のような放送映像にはまだそのまま適用できません。このあたりの話も、今後また公開していきたいですね。
GSRとBASの技術を組み合わせることで、「誰が」「どこで」「何を」したのかという分析に必要がデータが揃い、より高度で深い分析が実現できるのです。
データ抽出の課題とPlayboxの解決策
AIによるデータ化の限界――どこまで自動化できたか?
GSRやBASなど、映像解析の技術は日々進化していますが、それでもまだ解決が難しい課題がいくつか残っています。特に放送映像を使う場合は以下のような課題が顕著です。
- 頻繁なカメラの切替え
- テレビ中継では頻繁にカメラが切り替わるため、同じ選手を安定して追跡し続けるのは簡単ではありません。
- 映像の解像度・画角の変化
- 選手が突然カメラのフレーム外に出たり、ズームやパンで視点が動いたりすると、選手やボールを正確にトラッキングし続けることが難しくなります。
- 選手同士の重なり(オクルージョン)
- 選手同士が重なったり、審判やスタッフなどが視界を遮ったりすると、AIが正しく認識することが難しくなります。
- 飛んでいるボールの位置特定
- 選手は基本的に地面にいますが、空中のボールは2次元の映像だけから正確な位置を推定することが難しいです。
実際、今回の新聞記事のために使った短いクリップ映像でも、選手の位置や背番号をAIが完全に認識することはできず、結局一部は人の目で確認して修正しました(イベント検出については完全に手作業でした)。でも、世の中にはAGIとか完全自動運転みたいな超ハードな問題をガチで解こうとしている人たちもいます。それに比べれば、サッカーの映像データ化なんてかなり余裕なはずですよね、頑張ります。
法律上の注意点と映像利用の課題
冒頭でも触れましたが、技術的な課題とは別に、映像を使ったデータ化には法律的な問題も存在しています。
映像から抽出したデータをアニメーション化して使った場合、著作権的にどう扱われるのか、現状まだ明確な答えを持っていません。近々専門家(弁護士)に相談する予定なので、明確になったらまたここでシェアします。
もしこの点について詳しい方がいらっしゃれば、ぜひご連絡ください!
まとめ――サッカー分析は「データ取得」がスタートライン
ここまで、サッカー分析において映像から試合データを取得する方法、そしてその際の課題や解決策について紹介しました。
サッカー分析は、とにかく良いデータを取得することからすべてが始まります。Playboxは、このデータ取得をどんどん自動化して、もっと多くのチームや選手が気軽に質の高い分析を活用できる世界を目指しています。
今回の内容が皆さんのサッカー分析への理解や興味につながれば幸いです!
次回はシリーズの第2部として、今回取得したデータをどのように具体的な分析に活用していくのか、xG(期待ゴール値) や VAEP(プレー評価指標) という指標を用いて詳しく解説していきます!
株式会社Playboxのホームページ 👉️ https://www.play-box.ai/
自動撮影・編集ができる手頃なAIスポーツカメラ「playbox」 👉️ https://www.play-box.ai/lp
お問い合わせ
Playboxへのご質問やご相談、ビジネスの提案など、お気軽に以下のメールアドレスまでご連絡ください。