Як аналіз даних переміг в спорті

Існує не так багато занять, які викликають менше асоціацій з даними і статистикою, ніж спорт. Ніхто не стає футболістом від надлишку любові до цифр. Це робить намітився симбіоз спорту і науки про дані особливо цікавим.

Професійний спорт давно перетворився в серйозний бізнес. Річні бюджети спортивних команд вимірюються сотнями мільйонів доларів, а їх вартість може перевищувати мільярд. Дохід англійської Прем'єр-ліги в 2013 році, згідно з прогнозами, складе $ 4,8 млрд. Навіть гольф - далеко не самий народний вид спорту - приносить близько $ 75 млрд на рік, причому мова йде лише про Сполучених Штатах. Для порівняння: сумарна каса світового кінематографа в 2012 році досягла $ 34,7 млрд, і це вважалося зовсім не поганим результатом.

Коли на кону такі гроші, всі засоби хороші. Навіть настільки суперечать традиційним уявленням про спорт, як статистика.

Існує не так багато занять, які викликають менше асоціацій з даними і статистикою, ніж спорт

У 2008 році математик Стівен Строгац змоделював історію бейсболу і довів, що удача так само важлива, як уміння гравця. Модель показала, що лаври легендарного бейсболіста Джо Ді Маджо, 56 ігор поспіль робив молодецький на базу, могли дістатися і іншому. Першими силу цифр оцінили любителі бейсболу. Це не випадковість. У бейсболі гра розпадається на безліч відокремлених стадій. Це відрізняє його від багатьох інших командних видів спорту. Враховувати і оцінювати події в ході бейсбольного матчу набагато простіше, ніж стежити за хаотичними пересуваннями футболістів по полю.

Основоположником сучасної бейсбольної статистики вважається канзаський уболівальник на ім'я Білл Джеймс. Близько сорока років тому, працюючи нічним сторожем на консервній фабриці, він почав збирати й аналізувати інформацію про кожен заслуговує уваги бейсбольному матчі. Раз на рік Джеймс публікував підсумки своїх досліджень.

Одержимість, з якої він вивчав дані, принесла плоди. Джеймс виявив, що багато загальноприйняті ідеї про те, що важливо, а що ні, не знаходять статистичного підтвердження. Наприклад, одним з найважливіших якостей бейсболіста вважалася його швидкість і частота контакту (цей показник залежить від того, чи часто гравець з битою входить в контакт з м'ячем). Розрахунки Джеймса показували, що зв'язок між цими якостями і результатом матчу не так вже сильна. Зате на результати команди помітно впливають зовсім очевидні чинники - такі, наприклад, як розмір поля, на якому проходять тренування. Крім того, статистика свідчила, що різниця в рівні між гравцями Головною і Нижчою ліг куди менше, ніж прийнято вважати.

В кінці дев'яностих спостереження Джеймса зацікавили керівництво команди "Окленд Атлетикс". Її справи йшли гірше нікуди, і той факт, що суперники були багаторазово багатшими, практично позбавляв її шансів на успіх. Кращі гравці дістаються тим, хто готовий платити більше. У "Окленд Атлетикс" такої можливості не було.

Команда зробила ставку на статистику. Її менеджер помітив кореляцію між позитивним результатом матчу і деякими характеристиками спортсменів, які рідко цікавлять тренерів і вболівальників. Обчислення показували, що Беттері, які частіше займають базу, і спортсмени з високим відсотком відбивання помітно підвищують шанси команди на перемогу, але не особливо високо цінуються. Це означає, що вони по кишені навіть "Окленд Атлетикс".

У 2002 році команда, укомплектована і навчена "по цифрам", виграла двадцять матчів поспіль. При цьому її бюджет був чи не найнижчим у всій Головній лізі і в два-три рази поступався лідерам. Через рік журналіст Майкл Люіс описав історію успіху "Окленд Атлетикс" в книзі "Moneyball. Як математика змінила найпопулярнішу спортивну лігу в світі ", яка швидко стала бестселером. Не так давно за нею зняли фільм під назвою "Людина, яка змінила все". Менеджера команди зіграв Бред Пітт.

Кадр з фільму "Людина, яка змінила все".

"Moneyball" стала останньою краплею, якої не вистачало для того, щоб переконати консервативних менеджерів і тренерів у тому, що цифри сильніше чуття. Бейсбольна статистика знайшла таку популярність, що ця дисципліна отримала особливе найменування - "сейберметріка", утворене від скороченої назви Товариства дослідження американського бейсболу. Послідовники "Окленд Атлетикс" підходять до справи серйозно: замість кустарних методів, що не мінялися десятиліттями, команда "Нью-Йорк Янкіз" витратила чималі кошти на впровадження системи предиктивної аналітики, розробленої SAP.

Існує кілька серйозних наукових журналів, цілком присвячених аналізу спортивних даних. Фахівці в цій галузі проводять регулярні конференції; одна з них недавно закінчилася в Празі і була присвячена застосуванню технологій машинного навчання і Data Mining в спорті.

Назва типового доповіді або наукової статті про аналіз спортивних даних з'єднує несумісні на перший погляд речі: "Використання алгоритму random forest для передбачення ймовірності перемоги в матчах NFL [професійна ліга американського футболу в США]", "Прогноз результату голосування в кубку Гейсмана за допомогою байєсівського аналізу". "Оцінка в реальному часі очікуваної вигоди від володіння м'ячем в баскетбольних матчах NBA за допомогою моделі просторово-часових переходів і даних спостереження за гравцями" ...

Візьмемо останню роботу - ту, в якій згадуються просторово-часові переходи баскетбольних м'ячів. Це хороший приклад того, який шлях пройшла спортивна статистика з часів Білла Джеймса. Модель, яку розробили в Гарварді, заснована на вимірах, виконуваних автоматично за допомогою аналізу відео і розпізнавання образів.

Систему відстеження переміщень гравців розробила компанія SPORTS, що спеціалізується на наданні ЗМІ інформації про спортивні матчах. За допомогою шести відеокамер, встановлених на стадіоні, вона "на льоту" визначає координати кожного гравця, судді і м'ячі, а потім перераховує їх в десятки показників. Наприклад, під час баскетбольних матчів вона, серед іншого, обчислює швидкість пересування кожного гравця, відстань, яке він подолав з м'ячем, дальність кидків, улюблені місця на полі, частку результативних передач і загальної темп гри команди.

Схеми та діаграми, построеннние на основі даних системи, яку розробляють в SPORTS, багато, ймовірно, бачили по телевізору: їх час від часу вставляють в спортивні трансляції. Крім телевізійників, ця технологія представляє інтерес для самих спортсменів. У США її набувають професійні команди для того, щоб вивчати гру під час тренувальних занять. Крім того, NBA планує оснастити цією системою всі свої стадіони.

Фахівці з Гарварду аналізували 800 мільйонів вимірювань, зібраних за допомогою системи SPORTS протягом 515 матчів. Вони представили володіння м'ячем у вигляді руху системи в кінцевому просторі станів, де ймовірність переходу між станами залежить від історії розташувань гравців і м'яча на поле. Знання ймовірності переходу системи зі стану в стан дозволяє з'ясувати, чи варто чекати броcка в кошик, або, наприклад, визначити, як різні баскетболісти справляються з прийняттям рішень під час гри.

Ілюстрація з презентації гарвардських фахівців, що показує точки кидка для різних гравців.

Аналіз спортивних даних давно не обмежується бейсболом. Футбольні команди Англійської прем'єр-ліги намагаються використовувати статистику під час тренувань, при вироблення стратегії гри і пошуку нових гравців. Рік тому футбольний клуб "Ліверпуль" найняв для аналізу даних доктора біофізики.

Для оцінки перспектив початківців футболістів Прем'єр-ліга співпрацює з такими компаніями, як Prozone або Opta, що працюють в тій же сфері, що і SPORTS. Кілька аналітиків Opta ретельно проглядають кожну гру і виділяють "події" - кожен гол, кожен пас, кожен відібраний м'яч і так далі. Протягом матчу накопичується кілька тисяч "подій". Потім зібрані дані можна звірити з історичної статистикою, якою володіють ті ж компанії.

Тим часом тренери з американського футболу неохоче, але все ж починають використовувати чисельні оцінки роботи гравців. Для вимірювання ефективності квотербеком вироблена хитромудра формула, що враховує масу факторів: частота перехоплень, загальна кількість передач, кількість вдалих передач, кількість передач, що закінчилися тачдаун, і так далі. Крім того, команди застосовують аналітику, щоб відшукувати хороших, але не дуже дорогих спортсменів.

Інженери McLaren Group стежать за телеметрією під час гонок (фото: McLaren Group).

У технічних видах спорту збір і аналіз даних - ще більш природне заняття. Гоночні автомобілі McLaren Group напхані датчиками, безперервно повідомляють інженерам, чт про відбувається під час заїзду. Телеметрію на ходу проганяють через Інтелектуальне моделі, що враховують архівні дані, і використовують результати для швидкого прийняття рішень.

Причина успіху науки про дані в спорті, по суті, та ж, що і в будь-якому іншому бізнесі. Далеко не все можна помітити неозброєним поглядом. Далеко не завжди досвід і здоровий глузд мають рацію. Закономірності, які можна розрізнити лише за допомогою аналізу даних, дозволяють "зрізати" кути і хоч трохи, але збільшити ефективність. У спорті це "трохи" може означати різницю між перемогою і поразкою. Таку різницю важко ігнорувати.

Новости