تحويل الحجر إلى ذهب: كيف تحولت بيانات التنس لمدة 43 سنة إلى آلة طباعة نقود في أسواق التنبؤ؟

PANews

المؤلف: فوسفين

ترجمة؛ جانس، سوق التوقعات، مراقبة السوق

هذا الرجل جمع بيانات جميع مباريات التنس الاحترافية على مدى 43 عامًا، وأدخلها كلها إلى نموذج تعلم آلي، ثم طرح سؤالًا واحدًا فقط: هل يمكنك التنبؤ بمن سيفوز؟

رد النموذج بكلمة واحدة: نعم.

ثم، في بطولة أستراليا المفتوحة لهذا العام، تنبأ بشكل صحيح بـ 99 من أصل 116 مباراة، بمعدل دقة يصل إلى 85%!

هذه مباريات لم يسبق للنموذج أن رأى مثلها أثناء تدريبه، ومع ذلك، استطاع أن يتنبأ بنتائج كل مباراة حتى النهائي، بما في ذلك الفائز بالبطولة.

كل ذلك باستخدام جهاز كمبيوتر محمول واحد، وبيانات مجانية، وكود مفتوح المصدر، من إبداع @theGreenCoding.

بعد ذلك، سأقوم بتحليل كامل لهذا المشروع الذي حول البيانات إلى تنبؤات ناجحة، من البيانات الأولية إلى النتائج النهائية. ستكون من أكثر حالات الذكاء الاصطناعي والتوقعات إثارة للإعجاب التي رأيتها.

البداية: مجلد يحتوي على بيانات تنس لمدة 43 عامًا

تبدأ القصة بمجموعة بيانات تُعتبر “كأس البيانات الرياضية” أو “كأس البيانات المقدسة”.

هذه المجموعة تغطي جميع سجلات مباريات ATP (رابطة محترفي التنس للرجال) من عام 1985 حتى 2024.

نقاط كسر الإرسال، الأخطاء المزدوجة، الضربات الأمامية والخلفية، ارتفاع اللاعب، العمر، التصنيف، سجلات المواجهات السابقة، ملاعب المباريات… كل إحصائيات النقاط التي تتبعها ATP على مدى العقود موجودة هنا.

أربعة عقود من ملفات CSV، مخزنة في مجلد واحد.

عندما فتح البيانات كاملة، تعطل الكمبيوتر مباشرة.

لكن لم يستسلم. بالنسبة لـ 95,491 مباراة في البيانات، أضاف العديد من الميزات المشتقة:

  • سجلات المواجهات السابقة بين اللاعبين
  • فرق العمر، فرق الطول
  • نسب الفوز في آخر 10، 25، 50، 100 مباراة
  • فرق معدل النقاط في الإرسال الأول
  • فرق معدل إنقاذ نقاط كسر الإرسال
  • نظام تقييم ELO مخصص مستوحى من الشطرنج (نقطة مهمة)

النتيجة النهائية: 95,491 صفًا × 81 عمودًا.

كل مباراة من مباريات التنس الاحترافية على مدى الأربعين عامًا، مع عشرات الميزات التي تم حسابها يدويًا.

الخطوة الثانية: استلهام خوارزمية من تيتانيك

قبل إدخال البيانات إلى المصنف، قرر أن يفهم تمامًا كيف تعمل الخوارزمية. لذلك، كتب شجرة قرار من الصفر باستخدام numpy.

طريقة عمل شجرة القرار تشبه لعبة الاستنتاج — من خلال سلسلة من الأسئلة، تتجه تدريجيًا نحو الإجابة.

لتوضيح المفهوم، اختار مجموعة بيانات مختلفة تمامًا: تيتانيك.

مثال: هل الناجي هو الراكب رقم 11؟

  • السؤال الأول: هل هو في الدرجة الأولى؟ → نعم.
  • السؤال الثاني: هل هو أنثى؟ → نعم.
  • النتيجة: نجا.

كيف يقرر الخوارزمية أي الأسئلة يطرحها؟

يبدأ من جميع البيانات، ويبحث عن المتغير الذي يميز بشكل أفضل بين “الناجين” و"غير الناجين". في بيانات تيتانيك، كان الجواب هو فئة المقصورة. ركاب الدرجة الأولى يتجهون جهة، والبقية جهة أخرى.

لكن حتى بين ركاب الدرجة الأولى، هناك من غرق، فهناك “عدم نقاء”. تستمر الخوارزمية في البحث عن أفضل نقطة تقسيم أخرى، وهي الجنس. جميع النساء في الدرجة الأولى نجين، مما يشكل “عقدة نقية”، وتتوقف عندها الشجرة.

تكرر هذه العملية باستمرار حتى تبني شجرة قرار تغطي جميع الحالات.

نسخة numpy التي كتبها كانت جيدة على مجموعات البيانات الصغيرة، لكن عند تطبيقها على 95,000 مباراة تنس، كانت بطيئة جدًا. لذلك، في مرحلة التدريب، انتقل إلى نسخة محسنة من sklearn، بنفس المنطق، ولكن بسرعة أكبر بكثير.

الخطوة الثالثة: تحديد المتغيرات الحاسمة للفوز والخسارة

قبل تدريب النموذج، رسم جميع المتغيرات بشكل ثنائي في مصفوفة مخططات مبعثره ضخمة (pairplot من SNS)، للبحث عن أنماط تميز الفائزين عن الخاسرين.

معظم الميزات كانت ضوضاء. معرف اللاعب لا فائدة منه. فرق معدل الفوز تظهر بعض الأنماط، لكنها غير واضحة بما يكفي لدعم مصنف موثوق.

المتغير الوحيد الذي تفوق على غيره هو فرق تقييم ELO (ELO_DIFF).

مخطط النقاط لفرق ELO وفرق ELO على سطح الملعب (ELO_SURFACE_DIFF) يظهر بوضوح تمييز الفئتين، بينما باقي الميزات لا تقارن.

هذا الاكتشاف دفعه لبناء الجزء الأهم من المشروع.

الخطوة الرابعة: إدخال نظام تقييم الشطرنج إلى التنس

نظام ELO هو طريقة لتقييم مستوى مهارة اللاعب، بدأ في الشطرنج. حاليًا، أعلى تصنيف عالمي في الشطرنج هو ماجنس كارلسن بـ 2833 نقطة.

قرر تطبيق هذا النظام على التنس:

  • كل لاعب يبدأ بـ 1500 نقطة
  • الفوز يزيد النقاط، والخسارة تنقصها
  • المبدأ الأساسي: مقدار النقاط المكتسبة أو المفقودة يعتمد على فرق التقييم مع الخصم. الفوز على خصم أعلى تصنيفًا يمنح نقاطًا أكثر، والخسارة أمام خصم أدنى تصنيفًا تؤدي إلى خصم أكبر.

استخدم نهائي ويمبلدون 2023 كمثال: كارلوس ألكاراز (تقييم 2063) ضد نوفاك ديوكوفيتش (تقييم 2120). فاز ألكاراز بعد أن قلب النتيجة.

بتطبيق المعادلة، حصل ألكاراز على +14 نقطة، وديوكوفيتش على -14 نقطة.

رغم بساطة الحساب، عند تطبيقه على بيانات 43 سنة، كانت النتائج مذهلة.

الخطوة الخامسة: إثبات سيطرة الثلاثة الكبار عبر التصور

رسم تقييم ELO الخاص بفيدرر طوال مسيرته، من بداية احترافه حتى اعتزاله، مع تسجيل كل مباراة.

هذه الخطوط تظهر بشكل كامل رحلة أسطورية: الصعود السريع في البداية، فترة القمة (حوالي المباراة رقم 400)، والهيمنة المطلقة، وتقلبات المرحلة الأخيرة.

لكن المفاجأة كانت عند وضع فيدرر مع جميع لاعبي ATP منذ 1985 في رسم واحد:

ثلاث خطوط عالية جدًا، تتجاوز جميع الآخرين — فيدرر (باللون الأخضر)، نادال (باللون الأزرق)، ديوكوفيتش (باللون الأحمر).

“الثلاثي العظيم” ليس مجرد لقب. بعد تصور بيانات 40 سنة، يتضح أن هذه السيطرة واضحة رياضيًا.

باستخدام نظام ELO المخصص، اللاعب الأول عالميًا حاليًا هو يانيك سينر بـ 2176 نقطة، يليه ديوكوفيتش بـ 2096، ثم ألكاراز بـ 2003.

تذكر أن سينر هو رقم واحد، وهذا مهم جدًا فيما بعد.

الخطوة السادسة: الملعب هو المتغير الذي يغير كل شيء

نوع ملعب التنس يغير بشكل جذري طبيعة اللعبة:

  • التراب: بطيء، ارتفاع الكرة عالي
  • العشب: سريع، ارتفاع منخفض
  • الصلب: متوسط بين الاثنين

اللاعب الذي يتألق على نوع معين من الملاعب قد ينهار على آخر.

لذلك، أنشأ تقييمات ELO منفصلة لكل نوع من الملاعب: تراب، عشب، صلب.

النتائج أكدت ما يعرفه عشاق التنس: أعلى تصنيف لنادال على التراب، يتفوق على أعلى تصنيف لفيدرر على العشب، وأعلى تصنيف لديوكوفيتش على الصلب، وكلها تتوافق مع التاريخ.

14 لقبًا في رولان غاروس، مع 112 فوزًا و4 هزائم.

نظام ELO لا يهتم بالسرد أو الشهرة، هو فقط يسجل نتائج الفوز والخسارة. والنتائج تتطابق تمامًا مع تقارير الصحافة الرياضية على مدى الأربعين سنة.

الخطوة السابعة: مواجهة الحائط

بعد تجهيز البيانات، وبناء نظام ELO، بدأ تدريب المصنف. أظهر هذا الاختيار أهمية اختيار الخوارزمية بشكل واضح.

شجرة قرار: دقة 74%

شجرة قرار واحدة على البيانات الكاملة حققت دقة 74%. يبدو جيدًا — حتى تكتشف أن التنبؤ بالفائز باستخدام فرق ELO فقط يحقق 72%.

شجرة القرار لم تضف شيئًا يذكر على نظام التقييم اليدوي الذي بناه.

الغابة العشوائية (Random Forest): دقة 76%

مشكلة شجرة القرار الوحيدة هي “تباين عالي” — حساسيتها المفرطة للبيانات التي تختارها أثناء التدريب. الحل هو الغابة العشوائية: بناء عشرات أو مئات الأشجار، كل واحدة تتدرب على مجموعة بيانات وميزات مختلفة، ثم التصويت بالأغلبية.

94 شجرة قرار مختلفة تتصوت على كل مباراة.

النتيجة: دقة 76%. تحسن بسيط، لكنه وصل إلى الحائط الزجاجي. مهما غيرت من الإعدادات، أو عدلت الميزات، أو غيرت البيانات، لن تتجاوز الدقة 77%.

الخطوة الثامنة: كسر الحائط الزجاجي

ثم جرب تقنية XGBoost — يسميها “نسخة مكثفة من الغابة العشوائية”.

الفرق الرئيسي: الغابة العشوائية تبني الأشجار بشكل متوازي وتُحصل على المتوسط، بينما XGBoost تبني الأشجار بشكل متسلسل — كل شجرة تصحح أخطاء السابقة. أضافت تنظيمًا لمنع الإفراط في التكيف، واحتفظت بحجم صغير لكل شجرة لتجنب الحفظ الأعمى للبيانات.

النتيجة: دقة 85%.

مقارنة بـ 76%، هذا تقدم هائل. نفس البيانات، نفس الميزات، فقط تغيرت الخوارزمية.

XGBoost يعتبر أن أهم ثلاثة ميزات هي: فرق ELO، فرق ELO الخاص بالملاعب، وELO العام. نظام التقييم المستوحى من الشطرنج، والذي يعتمد على 81 عمودًا من الميزات، ثبت أنه أقوى عوامل التنبؤ.

كمقارنة، درب نموذج شبكة عصبية باستخدام نفس البيانات، وحقق دقة 83%. جيد، لكنه لا يتفوق على XGBoost. في هذه المجموعة من البيانات، طرق الأشجار هي الأفضل.

الخطوة التاسعة: المعركة الحاسمة — بطولة أستراليا 2025

كل ما سبق استُخدم لتدريب النموذج قبل نهاية 2024.

بطولة أستراليا المفتوحة 2025، التي أقيمت في يناير، لم تكن ضمن البيانات التدريبية، مما يجعلها اختبارًا مثاليًا: هل النموذج فهم قوانين التنس الحقيقية، أم أنه فقط يتذكر أنماط الماضي؟

أدخل جدول المباريات كاملًا إلى النموذج، ليقوم بالتنبؤ بكل مباراة.

النتيجة: من بين 116 مباراة، تنبأ بشكل صحيح بـ 99، وخطأ في 17، بمعدل دقة 85.3%.

الأهم، أن النموذج تنبأ بدقة بفوز سينر، اللاعب الذي يحتل المركز الأول عالميًا وفق نظام ELO، في جميع مبارياته خلال البطولة.

قبل أن تبدأ الكرة الأولى، استطاع الذكاء الاصطناعي أن يتوقع الفائز بالبطولة الكبرى.

الختام

رجل واحد، جهاز كمبيوتر محمول واحد، بدون بيانات حصرية، بدون بنية تحتية مكلفة، وبدون فريق بحث — استطاع بناء نموذج تنبؤي لمباريات التنس الاحترافية، بدقة تصل إلى 85%، وتوقع الفائز بالبطولة الكبرى قبل انطلاقها.

بيانات التنس متاحة على GitHub، ويمكن إعادة إنتاجها بالكامل.

تحقيق المعجزات لم يكن يومًا بهذه السهولة والواقعية.

الفارق الحقيقي ليس في الموارد، بل في مدى رغبتك في العمل.

شاهد النسخة الأصلية
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات