♻️♻️ مدیر محصول و مهندس نرمافزار: همکاری یا تنش؟ (بخش دوم)
بخش ۲، فلوی شکلگیری ایده تا رسیدن به محصول و محیط عملیاتی
در بخش اول دیدیم که ریشهی تنش بین مدیر محصول و مهندس، بیشتر از اینکه یه موضوع فردی باشه، یک مشکل ساختاریه. ابهام در مالکیت، اشتباه گرفتن Product Manager با Project Manager، و موندن توی مدل Feature Team، باعث میشه سیستم به سمت اصطکاک هدایت بشه، نه همکاری.
اما دونستن ریشه کافی نیست. سوال عملی اینه: یک ایده چطور باید از ذهن مدیر محصول به محیط عملیاتی برسه؟ چه کسی در هر مرحله مالک است؟ چه ابزاری کمک میکنه؟ و شرکتهای بزرگ این مسیر رو چطور طی میکنن؟ در این بخش به همین سوالها خواهم پرداخت.
فلوی کامل: از ایده تا Production
مسیر یک فیچر از لحظهی تولد تا استقرار، از شش مرحلهی مجزا عبور میکنه. هر مرحله یک مالک مشخص، یک ورودی مشخص، و یک خروجی مشخص باید داشته باشه.
مطلب کامل رو از لینک زیر مطالعه کنید:
🔗 بخش اول
🔗 بخش دوم
💬 نظر و تجربه شما چیه؟
بخش ۲، فلوی شکلگیری ایده تا رسیدن به محصول و محیط عملیاتی
در بخش اول دیدیم که ریشهی تنش بین مدیر محصول و مهندس، بیشتر از اینکه یه موضوع فردی باشه، یک مشکل ساختاریه. ابهام در مالکیت، اشتباه گرفتن Product Manager با Project Manager، و موندن توی مدل Feature Team، باعث میشه سیستم به سمت اصطکاک هدایت بشه، نه همکاری.
اما دونستن ریشه کافی نیست. سوال عملی اینه: یک ایده چطور باید از ذهن مدیر محصول به محیط عملیاتی برسه؟ چه کسی در هر مرحله مالک است؟ چه ابزاری کمک میکنه؟ و شرکتهای بزرگ این مسیر رو چطور طی میکنن؟ در این بخش به همین سوالها خواهم پرداخت.
فلوی کامل: از ایده تا Production
مسیر یک فیچر از لحظهی تولد تا استقرار، از شش مرحلهی مجزا عبور میکنه. هر مرحله یک مالک مشخص، یک ورودی مشخص، و یک خروجی مشخص باید داشته باشه.
Discovery → Shaping → Spec → RFC → Development → Release
مطلب کامل رو از لینک زیر مطالعه کنید:
🔗 بخش اول
🔗 بخش دوم
Please open Telegram to view this post
VIEW IN TELEGRAM
امین مصباحی
مدیر محصول و مهندس نرمافزار: همکاری یا تنش؟ (بخش دوم)
بخش ۲، فلوی شکلگیری ایده تا رسیدن به محصول و محیط عملیاتی در بخش اول دیدیم که ریشهی تنش بین مدیر محصول و مهندس، بیشتر از اینکه یه موضوع فردی باشه، یک مشکل ساختاریه. ابهام در مالکیت، اشتباه گرفتن Product Manager با Project Manager، و موندن توی مدل Feature…
❤10 4
نقش AI در آینده شغلی و حرفهای ما و البته خیلی رشتههای دیگه نه تنها غیرقابل انکاره، بلکه همراه با ملاحظاتی است که اگه ازشون غافل باشیم، شاید از گردونه رقابت حذف شیم یا در حالت خوشبینانهترش، نقشمون کمرنگ و موقعیتمون متزلزل بشه.
استفاده از AI برای توسعه نرمافزار، فقط این نیست که «چقدر سریعتر کد تولید میکنیم». مسئله مهمتر اینه که «چه کسی» «چه» تصمیمی رو «چرا» میگیره؟! «مدل» تصمیمگیر و تعیینکنندهی «جهت» است یا «دانش ما»؟!
برای درک این مطلب، یک قابلیت ساده مثل احراز هویت و دسترسی رو توی یک REST API را از سه سطح نگاه بررسی کردم:
سطح اول: پرامپتی که قابلیت رو مطالبه میکنه
سطح دوم: پرامپت مهندسیشده که جهتگیری و چگونگی رو تبیین میکنه
سطح سوم: Skill، Agent و استانداردسازی سازمانی
خلاصهی مطلبم اینه که:
امروز AI میتونه سرعت بده؛ اما جهت رو هنوز دانش مهندسی تعیین میکنه.
پس AI در توسعه نرمافزار؛ یه ضریبه.
اگر دانش داری، ضریبی که سرعتت رو بالا میبره. اگر دانش نداری، ضریبی که اشتباهاتت رو سریعتر تولید میکنه.
🔗 لینک مطلب
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍8
طی چند ماه اخیر، چند نمونه از بازنویسی محصولات بزرگ با کمک AI منتشر شد که ارزش توقف و مرور عمیقتر و بینسطور این اخبار رو داره!
مثلا کلادفلر نسخه اولیه EmDash رو منتشر کرد؛ بازنویسی وردپرس با TypeScript، با معماری AI-native که هم امنتره هم سبکتر. همین کلادفلر کمی قبلترش، vinext رو هم به عنوان نسخه بهینهتر از Next.js طی مدت کوتاهی توسعه داد. LakeSail نشون داد که میشه یه SQL parser رو با Rust در یک هفته نوشت که از نمونههای مشابه (PySpark) عملکرد بهتری داشته باشه. و نمونه مفهومیتر، پروژه cpp-to-rust-skill بود که البته برای کدبیسهای واقعی و بزرگ به تنهایی کافی نیست.
نکته مشترک همه این مثالها: این تیمها از AI برای تسریع چیزی استفاده کردن که خودشون بهش تسلط داشتن. دانش domain، تجربه معماری، و درک عمیق از مشکلی که میخواستن حل کنن؛ اینا پیشنیاز بود، نه خروجی AI. ابزار سرعت داد، نه جهت.
البته نمونههای زیادی هم هست که اولش خیلی سریع با AI تولید شده، بعدن توی دیباگ و نگهداری و… عاجز موندن.
این تمایز، یه سوال جدیتر رو باز میکنه و من به عنوان بهانه برای مطالب بعدی میخوام ازش استفاده کنم (در صورت استقبال)
وقتی یکی از مراحل SDLC؛ یعنی توسعه؛ سریعتر و ارزونتر میشه، بقیه بلاکهای چرخه نمیتونن بدون تغییر بمونن. Requirements & Analysis باید دقیقتر بشه، نه سطحیتر. Testing باید پوشش بیشتری بده، چون خروجی بیشتره و حالتها غیرقابل پیشبینی، بیشتر. Maintenance باید پذیرای کدی باشه که شاید کمتر «دستساز» احساس بشه. حتی ownershipها باید بازنگری شن. مسئولیتهای tech lead هم دیگه مثل قبل نیست.
اگه علاقهمند باشید، یه مطلب مفصلتر درباره تغییرات لایهبهلایه SDLC در دوره AI مینویسم.
💬 به نظرتون در سازمان شما، کدوم بلاک SDLC بیشترین lag رو داره؟ لیدرشیپ سازمان و تیمتون خودش رو با دوره AI همآهنگ کرده؟!
6
Please open Telegram to view this post
VIEW IN TELEGRAM
The Cloudflare Blog
Introducing EmDash — the spiritual successor to WordPress that solves plugin security
Today we are launching the beta of EmDash, a full-stack serverless JavaScript CMS built on Astro 6.0. It combines the features of a traditional CMS with modern security, running plugins in sandboxed Worker isolates.
استفاده از مدلهای آفلاین AI برای توسعه نرمافزار
اپیزود اخیر پادکست Merge Conflict، در مورد موضوع جالبیه که که شاید توی شرایط فعلی اینترنت ایران، مرورش بد نباشه. استفاده از مدلهای مختلف AI داخل VS Code و GitHub Copilot، ولی از طریق BYOK (یا Bring Your Own Key).
یعنی به جای اینکه فقط از مدلهای پیشفرض Copilot، Claude Code، Cursor یا ابزارهای مشابه استفاده بشه، بتونیم کلید API خودمون را از OpenAI، Anthropic، Azure Foundry، OpenRouter یا حتی سرویسهای دیگه که خودمون هاست کردیم بگیریم. بدون وابستگی به اینترنت. بدون مصرف اعتبار Copilot. مثلا Qwen با حدود ۲۷ میلیارد پارامتر، با quantization چهار بیتی، روی یک GPU با ۲۴ گیگابایت VRAM اجرا میشه. و تجربه گوینده توی خیلی از کارهای روزمره کدنویسی، تشخیص تفاوت بین این مدلهای کوچیک و لوکال از مدلهای بزرگی مثل Opus یا Sonnet رو سخت کرده!
نکته اول اینکه شاید ما بیش از حد روی «اسم مدل» حساس شدیم. یا اولویت مدل رو به فرایند برتری دادیم.
به جای اینکه بپرسیم Claude بهتره یا GPT؟ Sonnet بهتره یا Opus؟ شاید سوال مهمتر این باشه که آیا workflow ما درست طراحی شده یا نه؟ این چالش فقط برای دلداری دادن برای استفاده از مدل آفلاین نیست؛ خیلی شرکتها و تیمها چالش هزینه مصرف توکن رو دارن (و مثلا مایکروسافت اشتراک Claude code نیروهاش رو داره قطع میکنه) یا تجربه شخصی خودم: اعدادی که هر ماه از میزان مصرف توکن و هزینهی AI تیمم میگیرم؛ باعث شد بفهمم خیلی از برنامهنویسها ولو اینکه توی حوزه خودشون که اتفاقا AI هم هست، تخصص عمیق و تجربه طولانی دارن؛ الزاما LLM رو به خوبی نمیشناسن و ۵ رکن Harness و Model و Context و Tools و Prompts رو درک نکردند. برای همین مصرف توکنشون و هزینهشون خیلی بالاست؛ و مثلا برای تولید توضیحات PR هم از مدلهای بزرگ و گرون مثل Opus 4.7 و GPT 5.5 و... استفاده میکنن!! اگر دوست داشتید میتونیم روی این موضوع عمیقتر صحبت کنیم بعدن.
ولی به صورت کلی؛ اگه context رو خوب بسازیم؛ فایلهای درست رو در اختیار agent بگذاریم، planning داشته باشیم، task رو خوب خرد کنیم و خروجی رو مرحله به مرحله review کنیم، شاید تفاوت مدلها توی خیلی از سناریوهای روزمره کمتر از چیزی باشه که تصور میکنیم.
دوم اینکه agent فقط مدل نیست. و چیزی که ما توی VS Code، Copilot، Claude Code یا Cursor یا گراکبیلد تجربه میکنیم، فقط یه LLM خام نیست. پشتش کلی system prompt، ابزار خوندن و ویرایش فایل، حافظه، planning mode، sub-agent، permissions و کلی glue code دیگه وجود داره. به همین دلیل دو ابزار مختلف با یک مدل یکسان، لزوما تجربه یکسانی نمیدن.
مدل مهمه؛ اما harness یا همون محیطی که مدل رو تبدیل به یه دستیار کدنویسی واقعی میکنه هم به همون اندازه مهمه و باید خوب یادش بگیریم. باز به تجربه خودم برگردم که چند ماه پیش متوجه شدم که بعضی از بچههای تیم؛ در مورد امکان و شیوه دیباگ کردن مدل AI و ایجنتهاش بیاطلاعن؛ این یعنی همونطور که ما در رابطه با یک IDE جدید، زیر و بم امکانات، میانبرها و ابزارهای دیباگ کردنش رو یاد میگیریم؛ باید کارکرد و اجزاء ابزارهایی مثل کوپایلوت و کلادکد و... رو هم عمیق و اصولی یاد بگیریم و مثل چت تلگرام ازشون استفاده نکنیم.
و اینکه هنوز محدودیتها جدیان. همه یک RTX 3090 یا 4090 ندارن (البته وقتی وضع اینترنت اینه شاید شرکتها بتونن بهش فکر کنن؛ من سعی کردم ببینم الان قیمت ریالی این کارتها چنده؛ ولی به طور شرمآوری هر سایت داخلی که توی صفحه اول گوگل اومد، در دسترس نبود!!).
نهایتا این مطلب هم برای استفاده از مدلهای لوکال و Copilot CLI شاید مفید باشه.
امیدوارم چنین راهکارهایی از سر انتخاب و ترجیح انجام باشه به جای اجبار و ناچاری.
خوشحال میشم نظر یا تجربه شما رو هم بدونم 😊
از اینکه این مطلب رو نه الزاما به عنوان یک موضوع مهندسی، بلکه با در نظر گرفتن شرایط تحمیلی این روزهای اینترنت ایران؛ و تفکر مخرب اینترنت طبقاتی دارم مینویسم؛ حس بدی دارم!
اپیزود اخیر پادکست Merge Conflict، در مورد موضوع جالبیه که که شاید توی شرایط فعلی اینترنت ایران، مرورش بد نباشه. استفاده از مدلهای مختلف AI داخل VS Code و GitHub Copilot، ولی از طریق BYOK (یا Bring Your Own Key).
یعنی به جای اینکه فقط از مدلهای پیشفرض Copilot، Claude Code، Cursor یا ابزارهای مشابه استفاده بشه، بتونیم کلید API خودمون را از OpenAI، Anthropic، Azure Foundry، OpenRouter یا حتی سرویسهای دیگه که خودمون هاست کردیم بگیریم. بدون وابستگی به اینترنت. بدون مصرف اعتبار Copilot. مثلا Qwen با حدود ۲۷ میلیارد پارامتر، با quantization چهار بیتی، روی یک GPU با ۲۴ گیگابایت VRAM اجرا میشه. و تجربه گوینده توی خیلی از کارهای روزمره کدنویسی، تشخیص تفاوت بین این مدلهای کوچیک و لوکال از مدلهای بزرگی مثل Opus یا Sonnet رو سخت کرده!
نکته اول اینکه شاید ما بیش از حد روی «اسم مدل» حساس شدیم. یا اولویت مدل رو به فرایند برتری دادیم.
به جای اینکه بپرسیم Claude بهتره یا GPT؟ Sonnet بهتره یا Opus؟ شاید سوال مهمتر این باشه که آیا workflow ما درست طراحی شده یا نه؟ این چالش فقط برای دلداری دادن برای استفاده از مدل آفلاین نیست؛ خیلی شرکتها و تیمها چالش هزینه مصرف توکن رو دارن (و مثلا مایکروسافت اشتراک Claude code نیروهاش رو داره قطع میکنه) یا تجربه شخصی خودم: اعدادی که هر ماه از میزان مصرف توکن و هزینهی AI تیمم میگیرم؛ باعث شد بفهمم خیلی از برنامهنویسها ولو اینکه توی حوزه خودشون که اتفاقا AI هم هست، تخصص عمیق و تجربه طولانی دارن؛ الزاما LLM رو به خوبی نمیشناسن و ۵ رکن Harness و Model و Context و Tools و Prompts رو درک نکردند. برای همین مصرف توکنشون و هزینهشون خیلی بالاست؛ و مثلا برای تولید توضیحات PR هم از مدلهای بزرگ و گرون مثل Opus 4.7 و GPT 5.5 و... استفاده میکنن!! اگر دوست داشتید میتونیم روی این موضوع عمیقتر صحبت کنیم بعدن.
ولی به صورت کلی؛ اگه context رو خوب بسازیم؛ فایلهای درست رو در اختیار agent بگذاریم، planning داشته باشیم، task رو خوب خرد کنیم و خروجی رو مرحله به مرحله review کنیم، شاید تفاوت مدلها توی خیلی از سناریوهای روزمره کمتر از چیزی باشه که تصور میکنیم.
دوم اینکه agent فقط مدل نیست. و چیزی که ما توی VS Code، Copilot، Claude Code یا Cursor یا گراکبیلد تجربه میکنیم، فقط یه LLM خام نیست. پشتش کلی system prompt، ابزار خوندن و ویرایش فایل، حافظه، planning mode، sub-agent، permissions و کلی glue code دیگه وجود داره. به همین دلیل دو ابزار مختلف با یک مدل یکسان، لزوما تجربه یکسانی نمیدن.
مدل مهمه؛ اما harness یا همون محیطی که مدل رو تبدیل به یه دستیار کدنویسی واقعی میکنه هم به همون اندازه مهمه و باید خوب یادش بگیریم. باز به تجربه خودم برگردم که چند ماه پیش متوجه شدم که بعضی از بچههای تیم؛ در مورد امکان و شیوه دیباگ کردن مدل AI و ایجنتهاش بیاطلاعن؛ این یعنی همونطور که ما در رابطه با یک IDE جدید، زیر و بم امکانات، میانبرها و ابزارهای دیباگ کردنش رو یاد میگیریم؛ باید کارکرد و اجزاء ابزارهایی مثل کوپایلوت و کلادکد و... رو هم عمیق و اصولی یاد بگیریم و مثل چت تلگرام ازشون استفاده نکنیم.
و اینکه هنوز محدودیتها جدیان. همه یک RTX 3090 یا 4090 ندارن (البته وقتی وضع اینترنت اینه شاید شرکتها بتونن بهش فکر کنن؛ من سعی کردم ببینم الان قیمت ریالی این کارتها چنده؛ ولی به طور شرمآوری هر سایت داخلی که توی صفحه اول گوگل اومد، در دسترس نبود!!).
نهایتا این مطلب هم برای استفاده از مدلهای لوکال و Copilot CLI شاید مفید باشه.
امیدوارم چنین راهکارهایی از سر انتخاب و ترجیح انجام باشه به جای اجبار و ناچاری.
خوشحال میشم نظر یا تجربه شما رو هم بدونم 😊
بعضی آدمها مثل Andrej Karpathy اسمشون فقط یک رزومه نیست؛ بلکه سیگناله!
کسی که رهبری بخش AI و Autopilot Vision تسلا رو بر عهده داشت، عضو اولیه OpenAI بوده، و البته از چهرههای مهم آموزش Deep Learning بوده هزاران نفر بخشی از سواد AIشون رو از محتوای آموزشی ایشون دارن.
حالا ایشون رفته Anthropic؛ و میدونیم که احتمالا امسال آنتروپیک در مسیر IPO شدن و عرضه عمومی سهام است. و ماموریتش pre-training مدلهای Claude است.
بعد از خبر پیوستنش به آنتروپیک، بعضیها نوشتند که حضور Karpathy به تنهایی دهها میلیارد دلار به ارزشگذاری Anthropic اضافه کرده. (عدد دقیقش رو باید با احتیاط دید؛ چون سوشالمدیا اغراق دوست داره)
چیزی که همیشه برام جذاب بوده اینه که حضور یه آدم، همیشه پر کردن یک position نیست. گاهی مولفه اثرگذار روی سرنوشت محصول یا شرکته. گاهی یه signal مهم به بازار. گاهی سیگنال به استعدادهای اون حوزه. گاهی سیگنال به سرمایهگذارها. و گاهی حتی یه سیگنال به رقباست.
به نظرم هر از گاهی خوبه تا از خودمون بپرسیم:
«روی زمین، و نه پای منقل و سماور، من واقعاً چقدر برای سازمانم ارزش میسازم؟»
نه توی ذهن خودم یا گندهگوییهام پیش رفقا. نه توی عنوان شغلی. نه بنا به تعداد جلسهها یا میزان شلوغی تقویممون.
بلکه توی توان حل مسئله، کاهش ریسک، ساختن سیستم، تربیت آدمهای بهتر، و بالا بردن کیفیت تصمیمهای سازمان.
همه قرار نیست Karpathy باشیم. ولی همه میتونیم از خودمون بپرسیم: حضور من چه چیزی رو با چه میزان ارزشی واقعا بهتر میکنه؟
کسی که رهبری بخش AI و Autopilot Vision تسلا رو بر عهده داشت، عضو اولیه OpenAI بوده، و البته از چهرههای مهم آموزش Deep Learning بوده هزاران نفر بخشی از سواد AIشون رو از محتوای آموزشی ایشون دارن.
حالا ایشون رفته Anthropic؛ و میدونیم که احتمالا امسال آنتروپیک در مسیر IPO شدن و عرضه عمومی سهام است. و ماموریتش pre-training مدلهای Claude است.
بعد از خبر پیوستنش به آنتروپیک، بعضیها نوشتند که حضور Karpathy به تنهایی دهها میلیارد دلار به ارزشگذاری Anthropic اضافه کرده. (عدد دقیقش رو باید با احتیاط دید؛ چون سوشالمدیا اغراق دوست داره)
چیزی که همیشه برام جذاب بوده اینه که حضور یه آدم، همیشه پر کردن یک position نیست. گاهی مولفه اثرگذار روی سرنوشت محصول یا شرکته. گاهی یه signal مهم به بازار. گاهی سیگنال به استعدادهای اون حوزه. گاهی سیگنال به سرمایهگذارها. و گاهی حتی یه سیگنال به رقباست.
به نظرم هر از گاهی خوبه تا از خودمون بپرسیم:
«روی زمین، و نه پای منقل و سماور، من واقعاً چقدر برای سازمانم ارزش میسازم؟»
نه توی ذهن خودم یا گندهگوییهام پیش رفقا. نه توی عنوان شغلی. نه بنا به تعداد جلسهها یا میزان شلوغی تقویممون.
بلکه توی توان حل مسئله، کاهش ریسک، ساختن سیستم، تربیت آدمهای بهتر، و بالا بردن کیفیت تصمیمهای سازمان.
همه قرار نیست Karpathy باشیم. ولی همه میتونیم از خودمون بپرسیم: حضور من چه چیزی رو با چه میزان ارزشی واقعا بهتر میکنه؟
❤28 12👏7
اگر با مفهوم و ساختار skill آشنا نیستین، پیشتر در موردش نوشتم (مقدمهای بر Skills، مهارتآموزی AI برای توسعه نرمافزار)
دیگه Skill خوب نوشتن، مثل خوب کد نوشتن، یکی از معیارهای برنامهنویس خوب بود شده. گاهی فکر میکنم صرف نوشتن یه Agent Skill همه چیز تمومه؛ در حالی که اینطور نیست و معلوم نیست اسکیلی که نوشتیم چقدر خوب کار میکنه و شاید حتی استفاده نشه یا برای مدل، بدآموزی داشته باشه! طی یک سال گذشته، به جز کدریویو، من کلی اسکیلریویو هم کردم و قبل از این ابزارها، که توی این مطلب معرفی خواهم کرد؛ ابزارهای داخلی برای تیم توسعه دادیم چون بنچمارکهایی که روی کدبیسهای بزرگ داشتم نشون میده که مدلهای AI و ابزارهای مختلف، خیلی به کیفیت و ساختار اسکیل اهمیت میدن (یا به بیان بهتر ازش اثرپذیری دارن). ولی الان ابزارهای کدبازی مثل waza یا skill validator هستن که در مورد کیفیت اسکیلها بررسی انجام میدن و اگر از AI استفاده میکنین؛ استفاده ازشون حیاتی به نظر میاد.
مثلا شاید بگین ساختار و spec رو رعایت کردم؛ ولی لینکهات سالمن؟ token budget رو رعایت کردی؟ روی Claude و GPT هر دو یهجور رفتار میکنه؟ agent واقعاً میدونه کِی باید این skill رو استفاده کنه؟
دو تا ابزار که این سؤالها رو جواب میدن: یکی Waza و skill-validator هستن که میشه به صورت مستقل یا توی پایپلاین CI/CD ازشون استفاده کرد.
در مورد این دوتا اینجا نوشتم؛ اگر دوست داشتید بخونید :)
🔗 [لینک مطلب]
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7 6💯2👍1
هفته گذشته رایان پیترمن، مصاحبه مفصلی با بیارنه استراستروپ، خالق سیپلاسپلاس منتشر کرد که حداقل برای من بیشتر یک درس بود تا مصاحبه.
اگر دوست دارید از مهندسی عمیق؛ تجربه؛ و موضوعاتی فارغ از حبابهای زودگذر بشنوین؛ این مصاحبه خیلی ارزشمنده.
- داستان پیدایش ++C و دوران آزمایشگاههای بل
- فلسفه طراحی زبان و بحث شیءگرایی
- چالشهای فنی پیادهسازی و مفهوم abstraction با هزینه صفر (Zero/Negative Overhead):
- پاسخ به انتقادها درباره امنیت حافظه و کدهای مدرن ++C
داستان شکلگیری کمیته استاندارد ISO برای ++C و دموکراسی در توسعه زبان
- آینده برنامهنویسی و نقش هوش مصنوعی (LLMs)
- اشتباهات گذشته و حسرتها
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍4 2🔥1
بهینهسازی خودکارِ مهارتها، SkillOpt
چند سال پیش یکی از مهمترین دغدغههای استفاده از AI این سوالها بود: «کدوم مدل رو استفاده کنیم؟» یا «چجوری پرامپت بهتری بنویسیم؟»
حالا سوال مهمتر اینه: «این مدل با چه skillهایی کار میکنه، و کی کیفیتشون رو تضمین میکنه؟»
خروجی یه پروژهی تحقیقاتی مشترک Microsoft و چند دانشگاه چینی شده SkillOpt که این هفته بهصورت کدباز منتشر شد. ایدهاش سادهست: به جای fine-tune کردن مدل، فایل skill رو train کن.
یعنی یه فایل Markdown به عنوان trainable parameter یه agent frozen در نظر گرفته میشه. و optimizer، مسیر حل مسئله رو تحلیل میکنه، تغییرات ساختارمند پیشنهاد میده، و فقط اگه روی مرحله ارزیابی، بهتر شده بود، تغییرات رو قبول میکنه.
خروجی نهایی؟ یه best_skill.md بین ۳۰۰ تا ۲۰۰۰ توکن. بدون تغییر وزن مدل، بدون overhead در inference. نتایج تجربیشون روی ۵۲ از ۵۲ سلول ارزیابی بهترین یا مساوی بهترین بوده. روی GPT-5.5 بهطور میانگین +۲۳.۵ امتیاز نسبت به حالت بدون skill.
اما به نظرم مهمتر از خود ابزار، پیامشه:
اسکیل خوب میتونه خروجی یه مدل معمولی رو خیلی بهتر کنه. اسکیل بد میتونه خروجی یه مدل قوی رو خراب کنه. و اسکیل بدون validation و lifecycle، دیر یا زود تبدیل میشه به همون بدهی فنی قدیمی، فقط این بار در لباس AI.
اگه ۲۰ دقیقه وقت دارید و میخواید بدونید این چرخه بهینهسازی، چجوری کار میکنه، چه فرقی با prompt tuning معمولی داره، و چرا governance روی اسکیلها برای تیمهای انترپرایز جدیه، نسخهی مفصلتر رو روی بلاگ بخونید.
🔗لینک مطلب کامل روی بلاگ خودم
چند سال پیش یکی از مهمترین دغدغههای استفاده از AI این سوالها بود: «کدوم مدل رو استفاده کنیم؟» یا «چجوری پرامپت بهتری بنویسیم؟»
حالا سوال مهمتر اینه: «این مدل با چه skillهایی کار میکنه، و کی کیفیتشون رو تضمین میکنه؟»
خروجی یه پروژهی تحقیقاتی مشترک Microsoft و چند دانشگاه چینی شده SkillOpt که این هفته بهصورت کدباز منتشر شد. ایدهاش سادهست: به جای fine-tune کردن مدل، فایل skill رو train کن.
یعنی یه فایل Markdown به عنوان trainable parameter یه agent frozen در نظر گرفته میشه. و optimizer، مسیر حل مسئله رو تحلیل میکنه، تغییرات ساختارمند پیشنهاد میده، و فقط اگه روی مرحله ارزیابی، بهتر شده بود، تغییرات رو قبول میکنه.
خروجی نهایی؟ یه best_skill.md بین ۳۰۰ تا ۲۰۰۰ توکن. بدون تغییر وزن مدل، بدون overhead در inference. نتایج تجربیشون روی ۵۲ از ۵۲ سلول ارزیابی بهترین یا مساوی بهترین بوده. روی GPT-5.5 بهطور میانگین +۲۳.۵ امتیاز نسبت به حالت بدون skill.
اما به نظرم مهمتر از خود ابزار، پیامشه:
اسکیل خوب میتونه خروجی یه مدل معمولی رو خیلی بهتر کنه. اسکیل بد میتونه خروجی یه مدل قوی رو خراب کنه. و اسکیل بدون validation و lifecycle، دیر یا زود تبدیل میشه به همون بدهی فنی قدیمی، فقط این بار در لباس AI.
اگه ۲۰ دقیقه وقت دارید و میخواید بدونید این چرخه بهینهسازی، چجوری کار میکنه، چه فرقی با prompt tuning معمولی داره، و چرا governance روی اسکیلها برای تیمهای انترپرایز جدیه، نسخهی مفصلتر رو روی بلاگ بخونید.
🔗لینک مطلب کامل روی بلاگ خودم
❤10 2👍1
وقتی ابزار بودن AI Agent تبدیل به «باور» میشه!
اگر پیگیر تحولات حوزه AI باشین، تکاپوی شرکتهای بزرگ تکنولوژی برای تکمیل تکههای پازل «AI در انترپرایز» رو درک کردید؛ و کمکم ابزارها، تحقیقها، و روشهایی که پیشتر به صورت داخلی استفاده میکردن رو علنی میکنن یا از ابدا به صورت عمومی توسعه میدن. اما تمرکز از مدل، یا چتبات به سمت «زیرساخت» رفته.
دو نمونه برای مثال یا سرنخ:
🔐 انتشار NVIDIA SkillSpector: یه security scanner برای AI agent skills. بر اساس کار تحقیقی روی ۴۲ هزار skill واقعی که نشون داده ۲۶٪ شون آسیبپذیری دارن و ۵٪ هم احتمالاً مخرب هستن! SkillSpector تا الا ۶۴ تا الگوی مشخص رو اسکن میکنه: از prompt injection و data exfiltration گرفته تا privilege escalation، memory poisoning، و MCP tool poisoning.
⚖️ انتشار Microsoft Agent Governance Toolkit: که یه لایه governance برای دپلوی کردن ایجنتها در محیط عملیاتیه. سه سوال اصلی رو هدف میگیره: این action مجاز هست؟ کدوم ایجنت این کار رو کرد؟ میتونی ثابت کنی چه اتفاقی افتاد؟ از policy enforcement با YAML/OPA/Cedar گرفته تا identity با SPIFFE و audit log با Merkle chain. حتی cost و token budget هم داخلش هست.
اما این همه ماجرا نیست. وقتی agent ها از اسباببازی به ابزار کاری تبدیل میشن، یه لایه کامل از مشکلات ظاهر میشه که قبلاً وجود نداشت:
- چه کسی هزینه inference رو میپردازه و چطور باید ردیابیش کرد؟
- اگر agent ای یه تصمیم اشتباه گرفت و خسارت زد، مسئولیت با کیه؟
- چطور ثابت میکنی که ایجنت در لحظهی تصمیم، دقیقاً با همون policy که تأیید شده بود کار میکرد؟
- وقتی دهها ایجنت به هم وکالت میدن (delegation chain)، اعتماد بینشون چجوری منتقل میشه؟
اینها سوالهای فنی نیستن. یا دقیقتر بگم: فقط فنی نیستند.
شرکتهای بزرگ دارن میفهمن که مشکل اصلی ایجنتها، هوش مصنوعی داخل شون نیست. مشکل اصلی، اعتماد، مسئولیت، و قابلیت audit است.
درست مثل همون چیزی که سالها پیش با مایرکوسرویسها صنعت یاد گرفت؛ ولی این بار با ریسک بالاتر!
سوال: ایا این موضوعات جایی بین دغدغههای سازمان و تیم شما داره؟
اگر پیگیر تحولات حوزه AI باشین، تکاپوی شرکتهای بزرگ تکنولوژی برای تکمیل تکههای پازل «AI در انترپرایز» رو درک کردید؛ و کمکم ابزارها، تحقیقها، و روشهایی که پیشتر به صورت داخلی استفاده میکردن رو علنی میکنن یا از ابدا به صورت عمومی توسعه میدن. اما تمرکز از مدل، یا چتبات به سمت «زیرساخت» رفته.
دو نمونه برای مثال یا سرنخ:
🔐 انتشار NVIDIA SkillSpector: یه security scanner برای AI agent skills. بر اساس کار تحقیقی روی ۴۲ هزار skill واقعی که نشون داده ۲۶٪ شون آسیبپذیری دارن و ۵٪ هم احتمالاً مخرب هستن! SkillSpector تا الا ۶۴ تا الگوی مشخص رو اسکن میکنه: از prompt injection و data exfiltration گرفته تا privilege escalation، memory poisoning، و MCP tool poisoning.
⚖️ انتشار Microsoft Agent Governance Toolkit: که یه لایه governance برای دپلوی کردن ایجنتها در محیط عملیاتیه. سه سوال اصلی رو هدف میگیره: این action مجاز هست؟ کدوم ایجنت این کار رو کرد؟ میتونی ثابت کنی چه اتفاقی افتاد؟ از policy enforcement با YAML/OPA/Cedar گرفته تا identity با SPIFFE و audit log با Merkle chain. حتی cost و token budget هم داخلش هست.
اما این همه ماجرا نیست. وقتی agent ها از اسباببازی به ابزار کاری تبدیل میشن، یه لایه کامل از مشکلات ظاهر میشه که قبلاً وجود نداشت:
- چه کسی هزینه inference رو میپردازه و چطور باید ردیابیش کرد؟
- اگر agent ای یه تصمیم اشتباه گرفت و خسارت زد، مسئولیت با کیه؟
- چطور ثابت میکنی که ایجنت در لحظهی تصمیم، دقیقاً با همون policy که تأیید شده بود کار میکرد؟
- وقتی دهها ایجنت به هم وکالت میدن (delegation chain)، اعتماد بینشون چجوری منتقل میشه؟
اینها سوالهای فنی نیستن. یا دقیقتر بگم: فقط فنی نیستند.
شرکتهای بزرگ دارن میفهمن که مشکل اصلی ایجنتها، هوش مصنوعی داخل شون نیست. مشکل اصلی، اعتماد، مسئولیت، و قابلیت audit است.
درست مثل همون چیزی که سالها پیش با مایرکوسرویسها صنعت یاد گرفت؛ ولی این بار با ریسک بالاتر!
سوال: ایا این موضوعات جایی بین دغدغههای سازمان و تیم شما داره؟
GitHub
GitHub - NVIDIA/SkillSpector: Security scanner for AI agent skills. Detect vulnerabilities, malicious patterns, and security risks.
Security scanner for AI agent skills. Detect vulnerabilities, malicious patterns, and security risks. - NVIDIA/SkillSpector
❤3 3👍1🤓1
Final Results
9%
Copy-on-Write, MVCC
5%
LFU/LRU Cache
27%
Inbox/Outbox Pattern
11%
Bitemporal Modeling, Temporal Modeling
47%
Agent Client Protocol (ACP), A2A (Agent-to-Agent)
👀3🤓1
هر بار که تغییر بزرگی در اتمسفر توسعه نرمافزار پیش میاد؛ مثل وقتی که تکنولوژی انقلابی جدید معرفی میشه، ابزارها یا رویکردها تغییر بزرگی رو تجربه میکنن؛ مثل دورانی که SOA اومد، یا بعد که microservice اومد؛ یا این قریب به ۴ سال که GenAI از عمق تحقیاتی به سطح زندگی روزمره اومده؛ لازمه تا مفاهیم جدید رو دقیق یاد بگیریم تا درگیر حباب تکنولوژی، تبلیغات، یا استفاده اشتباه و نابجا نشیم. و به همون اندازه مهمه تا از دوران جدید جا نمونیم.
لذا اینکه چه زمانی و کجا؟ و با چه مقدمه و برای چه نیازی؟ چه راهکاری رو انتخاب کنیم؛ سوال مهمیه که حتی از اجرا کردن کًد باید برامون مهمتر باشه. مثلا بدونیم تفاوت و کاربرد اینا چیه:
Prompt-based
Tool/skill-based
MCP
Instantiated role
Single long-lived agent
Multi-agent + A2A/ACP
برای همین، چند خطی درباره A2A نوشتم که اگر دوست داشتید بخونید. رویکردم توضیح از پایه و مفاهیم بوده تا به نحوی باشه که از engineering manager تا architect تا developer رو پوشش بده. بنا به اقبال این موضوع، شاید بخش یا بخشهای بعدی هم با رویکرد عمیقتر و نگاه تخصصیتر (مثلا معماری یا توسعه یا امنیت) و عملیتر (کد) بنویسم.
🔗 لبنک مطلب و طبیعتا خوشحال میشم نظر و تجربهتون رو بنویسید
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍3