• ফুটবল

ফুটবল অ্যানালিটিকসঃ এক্সপেক্টেড গোলস বা xG এর আদ্যোপান্ত

পোস্টটি ১০৭৮ বার পঠিত হয়েছে
'আউটফিল্ড’ একটি কমিউনিটি ব্লগ। এখানে প্রকাশিত সব লেখা-মন্তব্য-ছবি-ভিডিও প্যাভিলিয়ন পাঠকরা স্বতঃস্ফূর্তভাবে নিজ উদ্যোগে করে থাকেন; তাই এসবের সম্পূর্ণ স্বত্ব এবং দায়দায়িত্ব লেখক ও মন্তব্য প্রকাশকারীর নিজের। কোনো ব্যবহারকারীর মতামত বা ছবি-ভিডিওর কপিরাইট লঙ্ঘনের জন্য প্যাভিলিয়ন কর্তৃপক্ষ দায়ী থাকবে না। ব্লগের নীতিমালা ভঙ্গ হলেই কেবল সেই অনুযায়ী কর্তৃপক্ষ ব্যবস্থা নিবেন।

স্কাই স্পোর্টস কিংবা বিবিসি ম্যাচ অফ দ্যা ডে দেখতে গিয়ে ফুটবল পন্ডিত বা ধারাভাষ্যকার দের বিশ্লেষণে বারবার xG বা এক্সপেক্টেড গোল নিয়ে বলতে শুনেছেন নিশ্চয়ই? গোল তো গোলই। আবার এক্সপেক্টেড ব্যাপারটা কি? ব্যাপারটা শুরু হয়েছিলো অপটা এর স্যাম গ্রীন এর হাত ধরে। ২০১২ সালে এই ভদ্রলোক ফুটবলে ডাটা এবং স্ট্যাটিসটিকস ব্যবহার করে নতুন একটা টার্ম নিয়ে আসলেন। নাম দিলেন এক্সপেক্টেড গোলস বা xG । ব্যাপারটা ফুটবল বিশ্লেষণে একটু নতুনত্বই নিয়ে এসেছিলো। তবে মাত্র এক দশকের মধ্যে সাধারণ একটা ডাটা মেট্রিক হিসেবেই রয়ে যায়নি। বরং ম্যাচ বিশ্লেষন, দলের ট্যাকটিকস, স্কাউটিং সব কিছুই এখন এই xG ছাড়া চিন্তাই করা যায় না। ফুটবল বিশ্লেষণকে অন্য স্তরেই নিয়ে গেছে এই মেট্রিক এর ব্যবহার। প্রথাগতভাবে যেভাবে ফুটবল দেখতো মানুষ, বিশ্লেষণ করতো তার ধ্যান ধারণাও পালটে দিয়েছে।

এক্সপেক্টেড গোলস বা xG আসলে কি?

এক্সপেক্টেড গোলস বা xG বলতে সাধারণভাবে কোনো একটা নির্দিষ্ট পরিস্থিতি বা পজিশনে কোনো খেলোয়াড়ের গোল করার সম্ভাবনা কত তাই বোঝানো হয়। অর্থাৎ, ম্যাচের কোনো নির্দিষ্ট মুহুর্তে, মাঠের কোন জায়গা থেকে কিভাবে গোলের সুযোগ সৃষ্টি হচ্ছে, তার থেকে গোল হওয়ার শতকরা সম্ভাবনা প্রকাশ করে। তার মানে ০.৫ বা ৫০% xG বলতে বোঝায়, ওই পরিস্থিতি দুইবার সৃষ্টি হলে একবার অন্তত গোল হবার সম্ভাবনা। যেহেতু, পুরো ব্যাপারটা সম্ভাব্যতার, কাজেই xG এর মান ০ থেকে ১ এর মধ্যে থাকবে সবসময়। কমেন্টেটর দের সবসময় বলতে শুনেছেন নিশ্চয়ই, "১০ বারের মধ্যে ৯ বারই স্ট্রাইকার এই গোল করবে" কিংবা "এতক্ষণে দলের অন্তত তিনটা গোল করা উচিত ছিলো"। xG আসলে এই কথাগুলোরই স্ট্যাটিসটিক্যাল ফর্ম বলতে পারেন। তবে, জিনিসটা কিভাবে বের করা হয়, তার হিসাব কিন্তু বেশ জটিল। অসংখ্য ফুটবল ম্যাচের হাজার হাজার ডাটা হিসাব করে এই xG এর ভ্যালু বের করা হয়।

এক্সপেক্টেড গোলস এর ভ্যালু কিভাবে বের করা হয়?

ঠিক কিভাবে এক্সপেক্টেড গোলস এর ভ্যালু বের করা হবে তার অনেকগুলো মডেলই আছে। একেক ওয়েবসাইট একেক রকম মডেল ফলো করে থাকে। কাজেই একই পরিস্থিতিতে বিভিন্ন সাইটের xG ভিন্ন হতে পারে।  Opta, Statsbomb, WYScout, FBref, Torvaney এদের মডেল এবং ডাটাই মোটামুটি বহুল ব্যবহৃত। তবে ভিন্ন মডেল হলেও একই পরিস্থিতিতে xG এর মানের যে খুব বেশী তফাৎ হয়, তা না। এই মান বের করার জন্যে সাধারণ কিছু ভেরিয়েবল ধরে নেওয়া হয়।

১. শুটার এর পজিশন এবং অ্যাংগেল

২. বডি পার্ট (পা নাকি মাথা)

৩. আশেপাশের ডিফেন্ডারের সংখ্যা, পজিশন এবং অ্যাকশন

৪. পাস এর ধরণ (থ্রু বল, ক্রস, পুলব্যাক ইত্যাদি)

৫. অ্যাটাকের ধরণ (ওপেন প্লে, কাউন্টার অ্যাটাক, কর্নার, ফ্রিকিক, রিবাউন্ড প্রভৃতি)

এর বাইরে চাইলে আরো ফ্যাক্টর যোগ করতে পারেন আপনি। যেমনঃ গোলকিপারের পজিশন, পাসিং কোয়ালিটি, ফরোয়ার্ড এর অফ দ্যা বল মুভমেন্ট। যত বেশী ফ্যাক্টর আর ভ্যারিয়েবল যোগ করবেন, ততই জটিল হবে মডেল। মূলত এই ওয়েবসাইট গুলো এইসব ফ্যাক্টর বিবেচনায় নিয়ে বিভিন্ন পরিস্থিতিতে আগের অসংখ্য ম্যাচের ডাটা নিয়েছে। এরপর একটা নির্দিষ্ট পরিস্থিতিতে এরকম ক্ষেত্রে যতবার গোল হয়েছে, তার মানকে মোট স্যাম্পল সংখ্যা দিয়ে ভাগ করলেই xG এর মান বের হয়ে যায়। শুনতে কঠিন লাগছে? নিচের ছবিটা দেখুন।

tactics1-1

WYScout এর ডাটা অনুযায়ী এই ক্ষেত্রে সালাহ এর xG এর মান ০.০৮। WYScout অন্যান্য অসংখ্য ম্যাচের ঠিক এরকম পরিস্থিতির ডাটা নিয়েছে। এর মধ্যে কখনো গোল হয়েছে, কখনো হয়তো কিপার সেভ করেছে, বা মিস হয়েছে। যতবার গোল হয়েছে তার সংখ্যাকে মোট এরকম পরিস্থিতির সংখ্যা দিয়ে ভাগ করলেই বেরিয়ে পড়ছে আমাদের কাঙ্ক্ষিত xG এর মান। হিসাবের সুবিধার জন্য আমরা যদি ধরি, WYScout এর কাছে এরকম ১০০০ টা শট এর ডাটা ছিলো যার মধ্যে ৮০ বার গোল হয়েছে। তাহলে ৮০ কে ১০০০ দিয়ে ভাগ করলেই ০.০৮ পেয়ে যাচ্ছি আমরা। সাধারণত, কোনো ম্যাচে একটা দলের সবগুলো অ্যাটাকের xG এর মান যোগ করে ওই ম্যাচে দলের এক্সপেক্টেড গোল হিসাব করা হয়।

tactics2-1

এই ছবিতে ফিল ফোডেন এর xG এর মান ০.৪৬। অর্থাৎ, তার গোল করার সম্ভাবনা অনেক বেশী। কারণটা কি? কারণ সালাহ এর সামনে ডিফেন্ডার ছিলো কাজেই ব্লক বা ট্যাকল হওয়ার সম্ভাবনা বেড়ে যাচ্ছে, যেটা ফোডেন এর ক্ষেত্রে নেই। এভাবে ফ্যাক্টরগুলো পরিবর্তনের সাথে সাথে xG ও তাই পরিবর্তিত হয়ে যাচ্ছে।

আবার, রিবাউন্ড এর মডেল টা হয়ে যাচ্ছে আরেকটু জটিল। ধরা যাক, কোনো একটা পরিস্থিতিতে xG ছিল ০.৩৭ যেটা কিপার সেভ করেছে। ফিরতি বল আরেক ফরোয়ার্ড এর পায়ে পড়লো, এক্ষেত্রে xG ছিলো ০.৬৮। কিন্তু, বিধিবাম, এবার এক ডিফেন্ডার স্লাইড ট্যাকল করে ব্লক করে দিলেন। আবারো ফিরতি বল, ফরোয়ার্ডের কাছে। এবার, xG ধরি ০.৮১। ওপেন নেটে এবার মিস হলো না। তাহলে, এই একটা অ্যাটাকে এক্সপেক্টেড গোল সংখ্যা কত? সবগুলো মান যোগ করলে ১.৮৬। কিন্তু একটা অ্যাটাকে কি একের বেশী গোল সম্ভব? কাজেই, এই সমস্যা সমাধানে স্ট্যাটসবম্ব রিবাউন্ড এর জন্য নতুন মডেল নিয়ে এলো। এক্ষেত্রে প্রতিবারে গোল না হওয়ার সম্ভাবনা বের করে মোট গোল না হওয়ার সম্ভাবনা বের করতে হবে। এক্ষেত্রে সেটা (১-০.৩৭)+(১-০.৬৮)+(১-০.৮১)= ০.০৩৮৩। তাহলে, গোল হবার সম্ভাবনা (১-০.০৩৮৩)= ০.৯৬১৭। অর্থাৎ, ৯৬% সময়েই এরকম ক্ষেত্রে গোল হবে। পুরোটাই আসলে প্রবাবিলিটির অংক বলা যায়। আবার পেনাল্টি এর ক্ষেত্রে একেক ওয়েবসাইট একেক রকম নির্দিষ্ট মান ধরে থাকে। যেমন FbRef পেনাল্টির ক্ষেত্রে এই মান ধরে ০.৭৬ কিন্তু Opta ধরে ০.৭৯। তাছাড়া, কোনো সাইট নির্দিষ্ট টিম, লিগ কিংবা প্লেয়ারের উপর নির্ভর করেও আপনার xG এর মান নির্ধারণ করে থাকে। অর্থাৎ, যত বেশী ফ্যাক্টর, তত অ্যাকিউরেসি বাড়বে এই মানের। তাছাড়া, প্রতিনিয়তই ম্যাচ হচ্ছে, এসব ম্যাচের ডাটা যোগ হচ্ছে, স্যাম্পল সাইজ বাড়ছে। কাজেই xG এর মান আরো প্রিসাইজ হচ্ছে।

xG ডাটার ব্যবহার কিভাবে করছে ক্লাবগুলো?

লিভারপুলের জন মুরস বিশ্ববিদ্যালয়ের স্পোর্টস সায়েন্সের অধ্যাপক টম রাইলি যখন জোন ১৪ নামের ম্যাজিক স্পট আবিষ্কারের ঘোষণা দিলেন, তখন সাথে ডাটা দিয়ে এর কিছু বৈশিষ্ট্য তুলে ধরেছিলেন। যেমন, সফল দলগুলোর জোন ১৪ এর আশেপাশে সফল পাসের সংখ্যা বেশী, জোন ১৪ থেকে উইং এ পাস দেওয়ার চেয়ে ফরোয়ার্ড পাস দিলে গোলের সম্ভাবনা বেশী। এর ফলে দলগুলো তাদের প্র্যাকটিসে জোন ১৪ এ বল দখলে রাখার দিকে বাড়তি নজর দিতে শুরু করলো। ফলে ট্যাকটিকসের খোলনলচেও অনেকটাই পালটে যেতে থাকলো। xG ও দলগুলোর খেলার ধরণে এরকম পরিবর্তন নিয়ে আসতে শুরু করেছে। ম্যাচের কোনো নির্দিষ্ট পরিস্থিতিতে কোনো প্লেয়ারের শুট করা উচিত, নাকি পাস দেওয়া উচিত, পাস দিলে কোনদিকে পাস দেওয়া উচিত, আবার তার আশে পাশের খেলোয়াড়ের ওই সময় মাঠের ঠিক কোন পজিশনে যাওয়া উচিত সেগুলো ঠিক করতে ভূমিকা রাখছে। অর্থাৎ, দলগুলোর কোয়ালিটেটিভ অ্যানালাইসিস থেকে কোয়ানটিটেটিভ অ্যানালাইসিস এ সাহায্য করছে এই ডাটা। xG দিয়ে দলগুলোর ফিনিশিং অ্যাবিলিটি, শুটিং কোয়ালিটি খুঁজে বের করে নিজেদের শক্তিমত্তা বা দুর্বলতা বের করতে পাচ্ছে। তাছাড়া ম্যাচের বিভিন্ন পরিস্থিতি, যেমন ওপেন প্লে, ফাস্ট ব্রেক, সেটপিস প্রভৃতি সময়ে দলের পারফরম্যান্স ইভালুয়েশন করতে পারছে। প্রতিপক্ষের শক্তিমত্তা ও দুর্বলতা অ্যানালাইসিস করে সেই অনুযায়ী ট্যাকটিকস সেট করছে। কারো যদি এক্সপেক্টেড গোলস এর তুলনায় প্রকৃত গোল বেশী থাকে, তাহলে ধরে নিতে পারেন তার ফিনিশিং ভালো, আর প্রকৃত গোল কম হলে তার ফিনিশিং খারাপ। কোনো টিমের xG বেশী থাকা মানে তাদের আক্রমণের সুযোগ ভালোই তৈরী হচ্ছে। অর্থাৎ, আগে যেটা বলেছি, দলের পারফরম্যান্স অ্যানালিস্ট রা শক্তিমত্তা বা দুর্বলতা বিশ্লেষণ টা এখন শুধু খালি চোখে, আলাপ আলোচনার মাধ্যমে না করে ডাটা সায়েন্স কাজে লাগিয়ে করছে।

Expected-Goals-Table

গত মৌসুমের ইপিএল এর সর্বোচ্চ স্কোরারদের গোল বনাম xG এর তালিকা দেখুন। সালাহ এর ক্ষেত্রে প্রায় সমান। কিন্তু, সন, ডি ব্রুইনা বা ভার্ডি এর কনভারশন রেট অনেক ভালো। আবার হ্যারি কেইন তুলনামূলক খারাপ পারফরম্যান্স করেছেন এই বিচারে।

দলগুলোর স্কাউটিং সিস্টেমেও পরিবর্তন নিয়ে এসেছে এই xG এর ব্যবহার। ধরা যাক, একজন স্ট্রাইকার কিনবে কোনো দল। আগে হলে সম্ভাব্য প্লেয়ারদের সবার ম্যাচ ফুটেজ পর্যালোচনা করা হয়তো বেশী। কিন্তু এখন আগে xG টাই গুরুত্ব পাচ্ছে। ধরা যাক, কোনো ছোটো টিমের প্লেয়ারের xG ৭ আর প্রকৃত গোল ১২। তাহলে ধরে নিতে পারেন পুরো লিগে এর চেয়ে বেশী গোল করা প্লেয়ারের চেয়েও সে আপনার দলের জন্যে ইফেকটিভ বেশী হবে। হয়তো ছোটো দলে খেলে বলেই তার সামনে গোলের সুযোগ বেশী আসে নি। বুন্দেসলিগার বেশীরভাগ দল অনেক আগে থেকেই তাদের ট্যাকটিকস ও স্কাউটিং এই ডাটার ব্যবহার করছে। এখন অন্যান্য দলগুলাও অনেক বেশী ব্যবহার করতে শুরু করেছে। সামনে ট্যাকটিকস ও প্র্যাকটিকস হয়তো পুরোপুরিই এরকম ডাটা সায়েন্স এর উপর নির্ভরশীল হয়ে পড়বে।

xG ডাটার সীমাবদ্ধতা কিংবা ভুল ধারণাঃ

সত্যি বলতে কি xG ডাটার যতটা না সীমাবদ্ধতা, তার চেয়ে বেশী এটা নিয়ে ভুল ধারণা কাজ করে। মূল সীমাবদ্ধতা টা হলো, প্লেয়ারের উপর বা টিম কোয়ালিটির উপর নির্ভর করে xG পরিবর্তন হয়ে যাচ্ছে। কাজেই একটা ইউনিভার্সাল xG এর মান পাওয়া আসলে সম্ভব নয়। ফলে অ্যানালাইসিস করার সময় আপনাকে প্রতিনিয়তই নিত্যনতুন ভ্যারিয়েবল যোগ করতে হচ্ছে। তবে যত বেশী সংখ্যক ডাটা ব্যবহার করবেন, আপনার xG এর মানও ততই ধ্রুব হতে শুরু করবে, যা আপনার ট্যাকটিকস সাজাতে কিংবা ম্যাচ বিশ্লেষনে সাহায্য করবে। আরেকটা বিষয় হলো, xG সবসময় আপনাকে ম্যাচ সম্বন্ধে প্রকৃত ধারণা টা দেবে না। ধরা যাক, একটা ম্যাচে এক দলের xG ২.৫৮, অপর দলের xG ০.৬৫। প্রথম কথা হলো, প্রথম দলই জিতবে, এরকম কোনো কথা নেই। আবার, এক্সপেক্টেড গোলস এত বেশি দেখে এটাও ধরে নেওয়ার কারণ নেই যে প্রথম দলই পুরো খেলাটা ডমিনেট করেছে, কিন্তু দুর্ভাগ্যজনক ভাবে গোল পায়নি। এমনো হতে পারে দ্বিতীয় দল ম্যাচের প্রথমেই গোল পেয়ে এরপর আঁটসাঁট রক্ষণ গেড়ে বসেছে। কাউন্টার অ্যাটাক ছাড়া খুব বেশী আক্রমণের চেষ্টা করে নি। ফলে, প্রথম দলের এক্সপেক্টেড গোলের সংখ্যা বেড়েছে ঠিকই, কিন্তু দ্বিতীয় দল খুব বেশী পিছিয়ে ছিলো ম্যাচে তা নয়। আরেকটা ব্যাপার, কোনো প্লেয়ার সিজনের শুরুতে xG এর তুলনায় ওভারপারফর্ম করছে মানে এই না যে ধীরে ধীরে সম্ভাব্যতার কারণে সে সিজনের পরবর্তী ভাগে আন্ডারপারফর্ম করতে শুরু করবে। বরং ওই সিজনে তার ভালো ফর্মেরই ইংগিত করছে এই ডাটা।

শুধু এক্সপেক্টেড গোল না, এখন এক্সপেক্টেড অ্যাসিস্ট বা xA, এক্সপেক্টেড গোলস এগেইন্সট বা xGA এরকম অসংখ্য টার্ম ব্যবহৃত হচ্ছে যার সবগুলোই ব্যবহার হচ্ছে ম্যাচ বিশ্লেষণ থেকে শুরু দলের কৌশল নির্ধারণ পর্যন্ত। পুরো ব্যাপারটার মূল ভিত্তি যেহেতু সম্ভাব্যতা, কাজেই যত বেশী স্যাম্পল সাইজ, যত বেশী সিমিলার ডাটা ততই xG এর ব্যবহার এর সুফল পাওয়া যাবে। ভবিষ্যতে স্পোর্টস অ্যানালাইসিসে ডাটা সায়েন্স এর গুরুত্ব আরো বাড়বে বৈ কমবে না।

তথ্যসূত্রঃ World Football Analytics, FBREF, Coaches Voice, Statsbomb, Opta, The Analyst, WYScout