التحقق من سلامة ونزاهة النماذج المفتوحة (GGUF, SafeTensors): كشف النماذج السامة أو المخترَقة وإجراءات التخفيف والتدقيق الأمني

Dark room setup with code displayed on PC monitors highlighting cybersecurity themes.

مقدمة: لماذا يهم فحص سلامة النماذج المفتوحة الآن؟

مع انتشار النماذج المفتوحة المصدر المُجلَّبة مُسبقًا (weights) وتبنيها على الحواسب المحلية والحوسبة على الحافة، ظهرت حاجة مُلحة لضمان سلامة ونزاهة ملفات النموذج قبل تشغيلها في بيئات الإنتاج أو حتى التجربة المحلية. تنسيقات حديثة مثل GGUF وSafeTensors قلّلت مخاطر تنفيذ كود ضار عند التحميل لكن لا تُلغي احتمال أن تكون الأوزان نفسها مُلوَّثة أو مُعدَّلة لتحتوي على backdoors أو سلوكيات ضارة مضمّنة.

هذا المقال يقدّم إطارًا عمليًا لفحص الملفات (statics + dynamic)، أدوات يُمكن الاعتماد عليها، ونظام قرارات لتخفيف المخاطر وضمان سلسلة توريد النماذج (model supply chain).

فحص سطحي وساكن للملف (Static Analysis)

قبل تشغيل أي نموذج، نفّذ خطوات الفحص التالية على مستوى الملف:

  • التحقق من المصدر والبروڤنينس: تأكّد من تنزيل النموذج من مخزن موثوق (مثل Hugging Face مع توثيق مالك النموذج) أو من مصدر وقعّت عليه جهة موثوقة؛ احفظ سجل التحميل وURL ووقت التنزيل.
  • التحقق من التوقيع والهاش: احسب SHA‑256 أو SHA‑512 للملف وقارنه بالقيمة المنشورة من المصدر. مثال للّحساب على Linux/macOS:
sha256sum model.gguf
sha512sum model.safetensors

إذا لم تتطابق القيم — اعتبر الملف مكسورًا أو مُعدَّلًا ولا تُشغِله.

ملاحظة تقنية: SafeTensors مصممة لمنع تنفيذ كود ضار أثناء التحميل لأنها تخزن بيانات تنسور فقط بدون بيكِل (pickle) قابل للتنفيذ؛ هذه ميزة أمنيّة مهمة لكنها لا تمنع إدخال backdoor داخل أوزان النموذج نفسها.

أما GGUF فهي حاوية أحادية تضم metadata والتنسورات وتدعم أنواع التكميش (quantization) لتسهيل الاستدلال المحلي — لذلك فحص الـmetadata وخصائص الكمّ مهمة لاكتشاف صيغ غير متناسقة قد تُشير إلى تحويل خاطئ أو تلاعب.

تحليل سلوكي وديناميكي (Dynamic Analysis) وكشف بوابات الظهر (Backdoors)

التحقق الديناميكي يتضمن تشغيل النموذج في بيئة معزولة ومراقبة المخرجات والسلوك. خطوات مقترحة:

  1. التشغيل داخل حاوية معزولة أو sandbox: استخدم حاويات أو أجهزة افتراضية لمنع وصول النموذج إلى موارد الشبكة أو الملفات أثناء مرحلة الفحص.
  2. اختبارات التحفيز (Trigger Tests): جرّب إدخال سلاسل مُصمّمة لاكتشاف محفزات backdoor (تراكيب كلمات معروفة، وسيناريوهات إساءة توظيف محتملة) وراقب التشوّه في التوزيع الإحصائي للمخرجات أو تغيّر الانتباه (attention patterns).
  3. اختبار تسريب الذاكرة (Memex / extraction): نفّذ استراتيجيات استخراج الذاكرة (مثل استدلال متكرر على مجموعات prompts مُصممة) للبحث عن حالات تذكُّر training data أو جمل مكررة غير متوقعة التي قد تُشير إلى تسرُّب بيانات أو تفعيل حقنة تدريبية.

البحث الأكاديمي والعملي يُظهر أن backdoors قد تُعرَف عبر أنماط مميزة في مخرجات النموذج وبيانات الانتباه عند وجود رؤوس attention مهيمنة وقت ظهور المحفز. لذلك تُستخدم اختبارات إحصائية ومقاييس التشتت للكشف عن شذوذ السلوك. كما طوّرت شركات كبرى أدوات لفحص backdoors/poisoning في النماذج، وهناك مبادرات مسح عبر الإنترنت لفحص الملفات بصيغ متعددة (GGUF, SafeTensors, ONNX) مثل LLMScan.

مقالات ذات صلة