در پروژه‌های یادگیری ماشین، تیم‌ها وسوسه می‌شوند بیشتر وقت را روی انتخاب معماری مدل بگذارند، اما تجربه نشان می‌دهد کیفیت دیتاست تأثیر بزرگ‌تری بر دقت نهایی دارد. یک مدل ساده با دادهٔ تمیز و متوازن، تقریباً همیشه از یک مدل پیچیده با دادهٔ نویزی و سوگیرانه بهتر عمل می‌کند. رویکرد داده‌محور یعنی سرمایه‌گذاری روی همین لایه.

نخستین گام، تعریف یک راهنمای برچسب‌گذاری دقیق و بدون ابهام است. اگر دو برچسب‌زن یک تصویر را متفاوت برچسب بزنند، مدل سیگنال متناقض دریافت می‌کند. ما موارد مرزی و مبهم را در راهنما با مثال روشن می‌کنیم و معیار توافق بین برچسب‌زن‌ها را اندازه می‌گیریم تا کیفیت فرایند قابل سنجش بماند.

توازن کلاس‌ها اهمیت زیادی دارد. اگر ۹۵ درصد نمونه‌ها از یک کلاس باشند، مدل می‌تواند با همیشه پیش‌بینی همان کلاس دقت ظاهری بالایی بگیرد اما در عمل بی‌فایده باشد. ما با جمع‌آوری هدفمند نمونه‌های کمیاب، افزون‌سازی داده و وزن‌دهی در تابع خطا، این عدم توازن را جبران می‌کنیم.

دیتاست یک محصول زنده است، نه یک فایل ثابت. ما نسخه‌بندی دیتاست را جدی می‌گیریم تا هر آزمایش قابل بازتولید باشد، و نمونه‌هایی را که مدل با اطمینان پایین یا اشتباه پردازش می‌کند برای بازبینی جدا می‌کنیم. این چرخهٔ بازخورد، دیتاست را در طول زمان غنی‌تر و مدل را در میدان واقعی قابل‌اعتمادتر می‌کند.