「用文言,可減 token 乎?」—— هذه الجملة المصاحبة لصورة لرد Claude Haiku 4.5 بعبارة “可也。文言較為簡潔,用詞凝練,確能減損 token 之耗損” أثارت نقاشًا تقنيًا جادًا ومثيرًا في المجتمع.
منطق هذه المسألة
بديهيًا، اللغة الكلاسيكية الصينية أكثر اختصارًا من اللغة الحديثة — كلمة “蝶” تعني “فراشة” في اللغة الحديثة؛ كلمة “可” تعني “يمكن”. إذا كان يُحسب كل حرف كـ token، فإن اللغة الكلاسيكية يمكن أن توفر بالفعل tokens. كما أكد Grok في سلسلة النقاش باستخدام اللغة الكلاسيكية.
رد المهندسين: tokenizer هو المفتاح
ومع ذلك، أشار العديد من المهندسين إلى تفاصيل فنية غالبًا ما يتم تجاهلها - token لا يساوي عدد الكلمات. تم تحسين tokenizer لنماذج OpenAI الغربية للغة الإنجليزية، وعند معالجة الصينية، غالبًا ما يحتاج الحرف الصيني إلى 1-2 token، وأحيانًا تحتاج الأحرف التقليدية إلى المزيد من tokens مقارنةً بالأحرف المبسطة. بعبارة أخرى، “可” و “可以” قد تكون كلاهما 2 token في بعض النماذج، قد يقل عدد الحروف، لكن عدد tokens ليس بالضرورة أقل.
استنتاج بعد التجربة: النماذج الأمريكية توفر tokens أكثر عند استخدام الإنجليزية، والنماذج الصينية توفر tokens أكثر عند استخدام الصينية الحديثة، حيث أن تكلفة tokens للمحتوى نفسه باستخدام النماذج المحلية قد تكون أرخص بنسبة حوالي 20% مقارنةً بالإنجليزية.
اكتشاف آخر غير متوقع: اللغة الكلاسيكية قد تسهل “الهروب من السجن”
ظهرت مراقبة أكثر إثارة للاهتمام خلال النقاش — النماذج اللغوية الكبيرة الرئيسية تقريبًا ليس لديها تدابير أمان ضد اللغة الكلاسيكية، مما يجعل من الأسهل طرح الأسئلة بهذه اللغة لتجاوز القيود الأمنية، وحتى الحصول على محتوى قد ترفض النماذج عادةً الإجابة عنه. يُزعم أن هناك أوراق بحثية في ICML أو ICLR سجلت هذه الظاهرة.
مشكلة جودة سلسلة التفكير باللغة الكلاسيكية
رد آخر جاء من تجربة الاستخدام الفعلية: “استخدام سلسلة التفكير باللغة الكلاسيكية قد يؤدي إلى انخفاض الجودة. ما يمكن لسلسلة التفكير الطبيعية الإجابة عنه، قد تخطئ فيه سلسلة التفكير باللغة الكلاسيكية.” السبب بسيط أيضًا: تعتمد بيانات تدريب النماذج اللغوية الكبيرة بشكل أساسي على الإنجليزية الحديثة والصينية الحديثة، وبيانات اللغة الكلاسيكية غير كافية بأقل من عشرها، مما يجعل من الصعب عليها التفكير باللغة الكلاسيكية، مما يزيد من معدل الهلوسة.
استنتاج: إنها ميم جيدة، ليست استراتيجية هندسية جيدة
كانت نتيجة هذا النقاش تقريبًا: بالنسبة للنماذج الغربية، استخدام الإنجليزية هو الطريقة الحقيقية لتوفير tokens؛ بالنسبة للنماذج المحلية، الصينية الحديثة أكثر استقرارًا من اللغة الكلاسيكية. تأثير “توفير tokens” للغة الكلاسيكية على مستوى tokenizer قد يتم تعويضه، مما قد يؤدي إلى انخفاض جودة الاستدلال. ومع ذلك، حققت هذه الصورة بالتأكيد هدفًا آخر: جعل قضية تكلفة الذكاء الاصطناعي المملة حديثًا مثيرًا يمكن للجميع المشاركة فيه.
هذه المقالة “用文言文和 AI 對話能省 Token 嗎?一個截圖引爆討論,工程師:其實用英文才是王道” ظهرت لأول مرة في “鏈新聞 ABMedia”.