Media is too big
VIEW IN TELEGRAM
این دوتا ربات با کمک هم اتاق رو مرتب می کنن.
شرکت Figure
👉 @ai_python ✍️
لینک توییت : https://x.com/Figure_robot/status/2052770982214172892?s=20
شرکت Figure
لینک توییت : https://x.com/Figure_robot/status/2052770982214172892?s=20
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1
DLeX: AI Python
این دوتا ربات با کمک هم اتاق رو مرتب می کنن. شرکت Figure 👉 @ai_python ✍️ لینک توییت : https://x.com/Figure_robot/status/2052770982214172892?s=20
آقای Corey Lynch در این باره خاطر نشان کردن که :
To be clear, there's no explicit messaging between these robots, they coordinate their actions fully visually, e.g. head nods.
To be clear, there's no explicit messaging between these robots, they coordinate their actions fully visually, e.g. head nods.
2👍4❤1
متدهای رایج تغییر رفتار مدل های زبانی :
👉 @ai_python ✍️
How to change model behavior! Context engineering, fine-tuning and more
https://youtu.be/oqbKWwUhh4Y?si=qr81Br44pflBK-i4
How to change model behavior! Context engineering, fine-tuning and more
https://youtu.be/oqbKWwUhh4Y?si=qr81Br44pflBK-i4
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
How to change model behavior! Context engineering, fine-tuning and more
A look at context engineering, fine tuning, LoRA and more!
▬▬▬▬▬▬ C H A P T E R S ⏰ ▬▬▬▬▬▬
00:00 - Introduction
00:27 - Model 101
01:46 - Parameters
04:40 - Hidden layers and dimensions
05:35 - Embeddings
07:08 - Training phase
07:53 - Prompts and responses…
▬▬▬▬▬▬ C H A P T E R S ⏰ ▬▬▬▬▬▬
00:00 - Introduction
00:27 - Model 101
01:46 - Parameters
04:40 - Hidden layers and dimensions
05:35 - Embeddings
07:08 - Training phase
07:53 - Prompts and responses…
1❤2👍2
Forwarded from Reza Jafari
معرفی بنچمارک جدید ProgramBench : سخترین آزمون مهندسی نرم افزار برای LLMها
بنچمارک ProgramBench یه بنچمارک خیلی جدی و متفاوت برای ارزیابی توانایی LLMها در ساخت نرمافزار از صفره. ایدهی اصلیش اینه که ببینه آیا مدلهای زبانی واقعاً میتونن فقط با داشتن یک executable و documentation، دوباره کل یک برنامه رو بازسازی کنن یا نه.
توی هر تسک، Agent فقط به فایل اجرایی برنامه و مستنداتش دسترسی داره؛ نه Source Code رو میبینه، نه اجازهی decompile کردن داره و نه حتی اینترنت در اختیارشه. یعنی مدل باید دقیقاً مثل یه مهندس نرمافزار واقعی، رفتار برنامه رو بررسی کنه، Architecture طراحی کنه، Language انتخاب کنه، کل Source Code رو بنویسه و حتی Build Script هم بسازه.
این بنچمارک حدود ۲۰۰ تسک مختلف داره؛ از ابزارهای سبک command-line مثل jq و ripgrep گرفته تا پروژههای سنگین و پیچیدهای مثل PHP، FFmpeg و SQLite.
نکتهی مهم اینه که ProgramBench هیچ ساختار آمادهای به مدل نمیده. خبری از method signature، class skeleton یا حتی توضیح دربارهی ساختار فایلها نیست. Agent خودش باید تصمیم بگیره برنامه چطور modular بشه، چه abstractionهایی تعریف بشه و interfaceها چه شکلی باشن. همین باعث میشه این بنچمارک بیشتر از اینکه صرفاً coding رو بسنجه، توانایی واقعی software design و system architecture رو اندازهگیری کنه.
بعد از اینکه Agent برنامه رو تحویل میده، یه test suite خیلی بزرگ رفتار نسخهی ساختهشده رو با برنامهی اصلی مقایسه میکنه. این تستها با agent-driven fuzzing تولید شدن و در مجموع بیشتر از 248 هزار behavioral test روی ۲۰۰ تسک اجرا میشه. فقط وقتی همهی تستها پاس بشن، اون تسک «حلشده» حساب میشه.
یکی از جذابترین بخشهای ProgramBench اینه که عمداً جلوی shortcutها و cheating گرفته شده. Agentها داخل sandbox اجرا میشن، اینترنت ندارن و حتی دسترسی read به binary هم ندارن؛ یعنی ابزارهایی مثل decompiler، disassembler یا objdump عملاً کار نمیکنن. هدف اینه که benchmark واقعاً توانایی “building from scratch” رو اندازه بگیره، نه سرهم کردن کدهای decompiled.
امتیازها فعلاً خیلی پایینن، ولی این خودش نشون میده مسئله چقدر سخت و واقعی طراحی شده. با اینکه مدلها روی خیلی از تسکها partial progress دارن، ولی هنوز ساخت کامل و بدون نقص نرمافزارهای بزرگ برای AI یه چالش جدیه.
در کل، ProgramBench الان یکی از جدیترین بنچمارکها برای سنجش توانایی واقعی AI Agentها در Software Engineering محسوب میشه؛ جایی که فقط code generation مهم نیست، بلکه planning، architecture، debugging و understanding رفتار سیستم هم نقش اصلی رو دارن.
🔗 لینک سایت ProgramBench
👑 توضیحات در مورد دوره منتورینگ
🏆 نحوه ثبتنام در دوره منتورینگ
🤝 تجارب موفق قبلی بچهها از منتورینگ
@reza_jafari_ai
بنچمارک ProgramBench یه بنچمارک خیلی جدی و متفاوت برای ارزیابی توانایی LLMها در ساخت نرمافزار از صفره. ایدهی اصلیش اینه که ببینه آیا مدلهای زبانی واقعاً میتونن فقط با داشتن یک executable و documentation، دوباره کل یک برنامه رو بازسازی کنن یا نه.
توی هر تسک، Agent فقط به فایل اجرایی برنامه و مستنداتش دسترسی داره؛ نه Source Code رو میبینه، نه اجازهی decompile کردن داره و نه حتی اینترنت در اختیارشه. یعنی مدل باید دقیقاً مثل یه مهندس نرمافزار واقعی، رفتار برنامه رو بررسی کنه، Architecture طراحی کنه، Language انتخاب کنه، کل Source Code رو بنویسه و حتی Build Script هم بسازه.
این بنچمارک حدود ۲۰۰ تسک مختلف داره؛ از ابزارهای سبک command-line مثل jq و ripgrep گرفته تا پروژههای سنگین و پیچیدهای مثل PHP، FFmpeg و SQLite.
نکتهی مهم اینه که ProgramBench هیچ ساختار آمادهای به مدل نمیده. خبری از method signature، class skeleton یا حتی توضیح دربارهی ساختار فایلها نیست. Agent خودش باید تصمیم بگیره برنامه چطور modular بشه، چه abstractionهایی تعریف بشه و interfaceها چه شکلی باشن. همین باعث میشه این بنچمارک بیشتر از اینکه صرفاً coding رو بسنجه، توانایی واقعی software design و system architecture رو اندازهگیری کنه.
بعد از اینکه Agent برنامه رو تحویل میده، یه test suite خیلی بزرگ رفتار نسخهی ساختهشده رو با برنامهی اصلی مقایسه میکنه. این تستها با agent-driven fuzzing تولید شدن و در مجموع بیشتر از 248 هزار behavioral test روی ۲۰۰ تسک اجرا میشه. فقط وقتی همهی تستها پاس بشن، اون تسک «حلشده» حساب میشه.
یکی از جذابترین بخشهای ProgramBench اینه که عمداً جلوی shortcutها و cheating گرفته شده. Agentها داخل sandbox اجرا میشن، اینترنت ندارن و حتی دسترسی read به binary هم ندارن؛ یعنی ابزارهایی مثل decompiler، disassembler یا objdump عملاً کار نمیکنن. هدف اینه که benchmark واقعاً توانایی “building from scratch” رو اندازه بگیره، نه سرهم کردن کدهای decompiled.
امتیازها فعلاً خیلی پایینن، ولی این خودش نشون میده مسئله چقدر سخت و واقعی طراحی شده. با اینکه مدلها روی خیلی از تسکها partial progress دارن، ولی هنوز ساخت کامل و بدون نقص نرمافزارهای بزرگ برای AI یه چالش جدیه.
در کل، ProgramBench الان یکی از جدیترین بنچمارکها برای سنجش توانایی واقعی AI Agentها در Software Engineering محسوب میشه؛ جایی که فقط code generation مهم نیست، بلکه planning، architecture، debugging و understanding رفتار سیستم هم نقش اصلی رو دارن.
@reza_jafari_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
3❤9👍6
جزئیات آسیب پذیری کشف شده در Ollama :
👉 @ai_python ✍️
Ollama Out-of-Bounds Read Vulnerability Allows Remote Process Memory Leak
Ollama Out-of-Bounds Read Vulnerability Allows Remote Process Memory Leak
Please open Telegram to view this post
VIEW IN TELEGRAM
1😭3👍1💔1
قبلن در چانال به این موضوع اشاره کرده بودیم که اجنت های هوش مصنوعی به قدری در اکوسیستم Microsoft اینتگریت شدن که حتی در محصولی مثل Entra ، همون دسترسی هایی که به کاربران معمولی می دیم برای اجنت های خودکار هوش مصنوعی هم وجود داره و قابل تعریف هستند.
👉 @ai_python ✍️
حالا سوال اینجاست که دیتاهای ما چگونه باشند تا اجنت ها، موثر تر بتوانند آن ها را بخوانند و نتایج قابل اتکا تری به ما ارائه کنند؟ برای مثل در SharePoint ساختار مناسب برای داده ها چگونه است؟
این پست وبلاگ مایکروسافت درباره همین موضوع است :
Unlocking knowledge through intelligence: Lessons learned using SharePoint agents at Microsoft - Inside Track Blog
حالا سوال اینجاست که دیتاهای ما چگونه باشند تا اجنت ها، موثر تر بتوانند آن ها را بخوانند و نتایج قابل اتکا تری به ما ارائه کنند؟ برای مثل در SharePoint ساختار مناسب برای داده ها چگونه است؟
این پست وبلاگ مایکروسافت درباره همین موضوع است :
Unlocking knowledge through intelligence: Lessons learned using SharePoint agents at Microsoft - Inside Track Blog
Please open Telegram to view this post
VIEW IN TELEGRAM
Microsoft News
Unlocking knowledge through intelligence: Lessons learned using SharePoint agents at Microsoft
Discover how we’re using SharePoint agents to scale enterprise knowledge internally here at Microsoft.
1❤3👍1