در پروژههای یادگیری ماشین، تیمها وسوسه میشوند بیشتر وقت را روی انتخاب معماری مدل بگذارند، اما تجربه نشان میدهد کیفیت دیتاست تأثیر بزرگتری بر دقت نهایی دارد. یک مدل ساده با دادهٔ تمیز و متوازن، تقریباً همیشه از یک مدل پیچیده با دادهٔ نویزی و سوگیرانه بهتر عمل میکند. رویکرد دادهمحور یعنی سرمایهگذاری روی همین لایه.
نخستین گام، تعریف یک راهنمای برچسبگذاری دقیق و بدون ابهام است. اگر دو برچسبزن یک تصویر را متفاوت برچسب بزنند، مدل سیگنال متناقض دریافت میکند. ما موارد مرزی و مبهم را در راهنما با مثال روشن میکنیم و معیار توافق بین برچسبزنها را اندازه میگیریم تا کیفیت فرایند قابل سنجش بماند.
توازن کلاسها اهمیت زیادی دارد. اگر ۹۵ درصد نمونهها از یک کلاس باشند، مدل میتواند با همیشه پیشبینی همان کلاس دقت ظاهری بالایی بگیرد اما در عمل بیفایده باشد. ما با جمعآوری هدفمند نمونههای کمیاب، افزونسازی داده و وزندهی در تابع خطا، این عدم توازن را جبران میکنیم.
دیتاست یک محصول زنده است، نه یک فایل ثابت. ما نسخهبندی دیتاست را جدی میگیریم تا هر آزمایش قابل بازتولید باشد، و نمونههایی را که مدل با اطمینان پایین یا اشتباه پردازش میکند برای بازبینی جدا میکنیم. این چرخهٔ بازخورد، دیتاست را در طول زمان غنیتر و مدل را در میدان واقعی قابلاعتمادتر میکند.