مدلی که در آزمایشگاه دقت بالایی دارد، لزوماً برای استقرار آماده نیست. در محیط واقعی، حافظهٔ محدود، توان پردازشی پایین و نیاز به پاسخ بلادرنگ، محدودیت‌هایی می‌گذارند که آموزش به آنها بی‌اعتناست. سه تکنیک اصلی — کوانتیزه‌سازی، هرس و تقطیر دانش — به ما کمک می‌کنند مدل را بدون افت محسوس دقت سبک کنیم.

کوانتیزه‌سازی، دقت عددی وزن‌ها را از اعشاری ۳۲ بیتی به اعداد صحیح ۸ بیتی کاهش می‌دهد. این کار حجم مدل را حدود چهار برابر کم و سرعت استنتاج را به‌ویژه روی سخت‌افزاری که عملیات صحیح را بهینه اجرا می‌کند، بالا می‌برد. کوانتیزه‌سازی پس از آموزش سریع است، اما کوانتیزه‌سازی حین آموزش معمولاً دقت بهتری حفظ می‌کند.

هرس یا pruning، اتصال‌ها و نورون‌هایی را که سهم کمی در خروجی دارند حذف می‌کند. شبکه‌های عصبی معمولاً بیش از حد پارامتر دارند و بخش بزرگی از آنها قابل حذف است. هرس ساختاریافته که کانال‌ها یا فیلترهای کامل را برمی‌دارد، بر خلاف هرس پراکنده، روی سخت‌افزار معمول هم به شتاب واقعی منجر می‌شود.

تقطیر دانش رویکرد متفاوتی دارد؛ یک مدل کوچک — دانش‌آموز — آموزش می‌بیند تا رفتار یک مدل بزرگ و دقیق — معلم — را تقلید کند. مدل کوچک از خروجی نرم معلم بیش از برچسب خام یاد می‌گیرد و اغلب به دقتی نزدیک به معلم می‌رسد در حالی که چند برابر کوچک‌تر و سریع‌تر است. در عمل، ترکیب هر سه تکنیک بهترین نتیجه را می‌دهد.