Database Labdon

🔵 عنوان مقاله
The Model Selection Showdown: 6 Considerations for Choosing the Best Model (5 minute read)

🟢 خلاصه مقاله:
انتخاب مدل مناسب در یادگیری ماشین با دنبال‌کردن شش گام عملی نتیجه می‌دهد: هدف را دقیق تعریف کنید و معیار موفقیت را با نیازهای ذینفعان هم‌راستا کنید؛ یک baseline ساده بسازید تا آستانه عملکرد و خطاهای داده روشن شوند؛ معیارهای سنجش را متناسب با مسئله و عدم‌توازن داده‌ها انتخاب کنید؛ با cross-validation درست (از جمله زمان‌محور برای سری‌های زمانی) برآورد تعمیم‌پذیری را مطمئن کنید و از نشت اطلاعات جلوگیری کنید؛ بین پیچیدگی و قابلیت تفسیر تعادل برقرار کنید و هزینه استقرار/نگه‌داری را بسنجید؛ و در نهایت، با داده‌های واقعی از طریق تست برون‌زمانی، A/B یا استقرار سایه اعتبارسنجی کنید و پایش مستمرِ رانش و کالیبراسیون داشته باشید. بهترین مدل لزوماً جدیدترین الگوریتم نیست، بلکه مدلی است که با مسئله، داده و نیاز کسب‌وکار بیشترین انطباق را دارد.

#ModelSelection #MachineLearning #DataScience #Metrics #CrossValidation #Interpretability #MLOps

🟣لینک مقاله:
https://machinelearningmastery.com/the-model-selection-showdown-6-considerations-for-choosing-the-best-model/?utm_source=tldrdata

➖➖➖➖➖➖➖➖
👑 @Database_Academy

👍1

127 views05:30

Database Labdon

🔵 عنوان مقاله
Training a Tokenizer for BERT Models (4 minute read)

🟢 خلاصه مقاله:
این مقاله توضیح می‌دهد چگونه با استفاده از کتابخانه‌های tokenizers و datasets از Hugging Face یک WordPiece tokenizer اختصاصی برای BERT آموزش دهیم: داده‌ها با یک iterator بارگذاری می‌شوند، یک واژگان 30,522 کلمه‌ای همراه با BERT special tokens مانند [PAD]، [UNK]، [CLS]، [SEP] و [MASK] ساخته می‌شود، و تنظیمات اختیاری مانند lowercase و pre-tokenization اعمال می‌گردد. سپس برای استفاده عملی، padding و truncation فعال می‌شود و tokenizer ذخیره و روی نمونه‌ها تست می‌شود. در مرحله‌ی آموزش یا fine-tuning مدل BERT، باید همخوانی tokenizer و مدل حفظ شود؛ اگر از یک BERT ازپیش‌آموزش‌داده‌شده با tokenizer جدید استفاده می‌کنید، ممکن است نیاز به تغییر اندازه‌ی embeddingها مطابق با واژگان جدید داشته باشید. این روند زمینه را برای پیش‌پردازش داده و fine-tuning مؤثر فراهم می‌کند.

#BERT #Tokenizer #WordPiece #HuggingFace #NLP #Tokenization #MachineLearning

🟣لینک مقاله:
https://machinelearningmastery.com/training-a-tokenizer-for-bert-models/?utm_source=tldrdata

➖➖➖➖➖➖➖➖
👑 @Database_Academy

133 views05:30

About

Blog

Apps

Platform