مدلی که در آزمایشگاه دقت بالایی دارد، لزوماً برای استقرار آماده نیست. در محیط واقعی، حافظهٔ محدود، توان پردازشی پایین و نیاز به پاسخ بلادرنگ، محدودیتهایی میگذارند که آموزش به آنها بیاعتناست. سه تکنیک اصلی — کوانتیزهسازی، هرس و تقطیر دانش — به ما کمک میکنند مدل را بدون افت محسوس دقت سبک کنیم.
کوانتیزهسازی، دقت عددی وزنها را از اعشاری ۳۲ بیتی به اعداد صحیح ۸ بیتی کاهش میدهد. این کار حجم مدل را حدود چهار برابر کم و سرعت استنتاج را بهویژه روی سختافزاری که عملیات صحیح را بهینه اجرا میکند، بالا میبرد. کوانتیزهسازی پس از آموزش سریع است، اما کوانتیزهسازی حین آموزش معمولاً دقت بهتری حفظ میکند.
هرس یا pruning، اتصالها و نورونهایی را که سهم کمی در خروجی دارند حذف میکند. شبکههای عصبی معمولاً بیش از حد پارامتر دارند و بخش بزرگی از آنها قابل حذف است. هرس ساختاریافته که کانالها یا فیلترهای کامل را برمیدارد، بر خلاف هرس پراکنده، روی سختافزار معمول هم به شتاب واقعی منجر میشود.
تقطیر دانش رویکرد متفاوتی دارد؛ یک مدل کوچک — دانشآموز — آموزش میبیند تا رفتار یک مدل بزرگ و دقیق — معلم — را تقلید کند. مدل کوچک از خروجی نرم معلم بیش از برچسب خام یاد میگیرد و اغلب به دقتی نزدیک به معلم میرسد در حالی که چند برابر کوچکتر و سریعتر است. در عمل، ترکیب هر سه تکنیک بهترین نتیجه را میدهد.