🪢 Compositional Learning Journal Club
Join us this week for a critical exploration of robustness in Visual Question Answering systems and the broader implications for visual–language model reliability. We’ll analyze how even subtle, meaning-preserving changes to inputs can destabilize model outputs and discuss what this means for future evaluation and model design.
🌟 This Week's Presentation
📄 Paper:
Questioning the Stability of Visual Question Answering
🧠 Abstract:
Modern Visual Language Models (VLMs) have achieved impressive performance on a wide range of visual reasoning tasks, yet fundamental questions remain about their robustness to benign input perturbations. This paper presents the first large-scale, systematic study of how VLMs respond to small, meaning-preserving changes—such as pixel shifts, light geometric transformations, padded rescaling, paraphrasing, and multilingual rewrites—that do not change the true semantics of an image–question pair.
Across multiple datasets and models, the authors find that minor visual or textual perturbations frequently lead to different predicted answers, even for state-of-the-art systems like GPT-4o and Gemini 2.0 Flash. They also show that stability under perturbations correlates strongly with correctness, and that the stability patterns of small open-source models can be used to predict when larger models will fail.
In this session, we’ll discuss:
• What kinds of input changes most disrupt VQA predictions.
• How stability can serve as a proxy for reliability and model confidence.
• Implications for evaluation benchmarks and future model development.
🎙 Presenter: Amir Kasaei
Session Details:
- 📅 Date: Tuesday, December 23rd
- 🕒 Time: 3:00 AM - 4:00 PM
- 🌐 Location: Online at vc.sharif.edu/ch/rohban
We look forward to your participation! ✌️
@Ai_Events
Join us this week for a critical exploration of robustness in Visual Question Answering systems and the broader implications for visual–language model reliability. We’ll analyze how even subtle, meaning-preserving changes to inputs can destabilize model outputs and discuss what this means for future evaluation and model design.
🌟 This Week's Presentation
📄 Paper:
Questioning the Stability of Visual Question Answering
🧠 Abstract:
Modern Visual Language Models (VLMs) have achieved impressive performance on a wide range of visual reasoning tasks, yet fundamental questions remain about their robustness to benign input perturbations. This paper presents the first large-scale, systematic study of how VLMs respond to small, meaning-preserving changes—such as pixel shifts, light geometric transformations, padded rescaling, paraphrasing, and multilingual rewrites—that do not change the true semantics of an image–question pair.
Across multiple datasets and models, the authors find that minor visual or textual perturbations frequently lead to different predicted answers, even for state-of-the-art systems like GPT-4o and Gemini 2.0 Flash. They also show that stability under perturbations correlates strongly with correctness, and that the stability patterns of small open-source models can be used to predict when larger models will fail.
In this session, we’ll discuss:
• What kinds of input changes most disrupt VQA predictions.
• How stability can serve as a proxy for reliability and model confidence.
• Implications for evaluation benchmarks and future model development.
🎙 Presenter: Amir Kasaei
Session Details:
- 📅 Date: Tuesday, December 23rd
- 🕒 Time: 3:00 AM - 4:00 PM
- 🌐 Location: Online at vc.sharif.edu/ch/rohban
We look forward to your participation! ✌️
@Ai_Events
arXiv.org
Questioning the Stability of Visual Question Answering
Visual Language Models (VLMs) have achieved remarkable progress, yet their reliability under small, meaning-preserving input changes remains poorly understood. We present the first large-scale,...
❤2
📖 موضوع: تحلیل جریان اطلاعات مغزی در اوتیسم با بهره گیری از شبکه های عصبی مبتنی بر گراف
👨🎓 ابوالفضل حقیقی فر
🕘 زمان: ۳ دیماه، چهارشنبه ساعت ۱۱:۰۰
🏢 مکان: دانشگاه شهید بهشتی، دانشکده فیزیک، تالار ابن هیثم
🌐 لینک گوگل میت:
https://meet.google.com/rqz-mwbj-wau
@Ai_Events
👨🎓 ابوالفضل حقیقی فر
🕘 زمان: ۳ دیماه، چهارشنبه ساعت ۱۱:۰۰
🏢 مکان: دانشگاه شهید بهشتی، دانشکده فیزیک، تالار ابن هیثم
🌐 لینک گوگل میت:
https://meet.google.com/rqz-mwbj-wau
@Ai_Events
❤3👍1
Audio
اگر ما همه گمشدگانی باشیم که
به یکدیگر کمک میکنیم که پیدا شویم چه؟
بخشی از مبلغ تبلیغات کانال برای این پست واریز شد.
@Ai_Events ❤️
به یکدیگر کمک میکنیم که پیدا شویم چه؟
@Ai_Events ❤️
❤18🔥1
پاپیون (روز قبل از فرار از زندان): لويي من فکر مي کنم بايد با ما بيايي!
لویی (که به هر شرایطی عادت میکرد): ولي زن من داره براي آزاديم يه کارايي مي کنه، (زیر لب) اما خيلي وقت هم هست که نامه هاش نرسيده!
پاپیون: زن تو اينجاست يا توي پاريس ؟ با همه پولهات!؟ اگه زنت تو زندون بود، چقدر پول مي دادي تا اونو برگردوني؟
لویی: هر چي که دارم ...
پاپیون: اون تا حالا چقدر خرج کرده؟
لویی (بعد از چند ثانیه نگاه و تفکر): ولي من يه شانس بدون فرار دارم!!!
پاپیون: اونا میتونن من رو بکشن، ولی تو رو صاحب شدن ...
پینوشت: ما رو هم صاحب شدن ...
#اقتصاد
@Ai_Events
لویی (که به هر شرایطی عادت میکرد): ولي زن من داره براي آزاديم يه کارايي مي کنه، (زیر لب) اما خيلي وقت هم هست که نامه هاش نرسيده!
پاپیون: زن تو اينجاست يا توي پاريس ؟ با همه پولهات!؟ اگه زنت تو زندون بود، چقدر پول مي دادي تا اونو برگردوني؟
لویی: هر چي که دارم ...
پاپیون: اون تا حالا چقدر خرج کرده؟
لویی (بعد از چند ثانیه نگاه و تفکر): ولي من يه شانس بدون فرار دارم!!!
پاپیون: اونا میتونن من رو بکشن، ولی تو رو صاحب شدن ...
پینوشت: ما رو هم صاحب شدن ...
#اقتصاد
@Ai_Events
👍8🥴4💔4❤1
🔻نشست تخصصی هفته پژوهش
دانشکده مهندسی صنایع دانشگاه صنعتی شریف برگزار میکند:
🔹آینده زنجیرههای تامین با هوش مصنوعی: فرصتها و چالشها
👥 سخنرانان:
🔸دکتر محمدرضا اکبری جوکار - عضو هیئت علمی دانشکده مهندسی صنایع دانشگاه صنعتی شریف
🔸مهندس علی بهرامی - مدیرعامل شرکت کادک
🔸دکتر رضا سمیعزاده - مدیرعامل گروه فاخر
🔸مهندس سجاد خالصی - مدیر نوآوری هولدینگ شوینده گلرنگ
🔸دکتر علی شجاع - قائم مقام مدیرعامل شرکت آهنآنلاین و عضو هیئت مدیره
🗓 زمان: یکشنبه ۷ دیماه
⏰ ساعت: ۱۵:۳۰ تا ۱۷:۳۰
📍 محل برگزاری:
دانشگاه صنعتی شریف، دانشکده مهندسی صنایع، طبقه سوم، سالن اجتماعات
🔻محل برگزاری آنلاین
@IE_SUT
@Ai_Events
دانشکده مهندسی صنایع دانشگاه صنعتی شریف برگزار میکند:
🔹آینده زنجیرههای تامین با هوش مصنوعی: فرصتها و چالشها
👥 سخنرانان:
🔸دکتر محمدرضا اکبری جوکار - عضو هیئت علمی دانشکده مهندسی صنایع دانشگاه صنعتی شریف
🔸مهندس علی بهرامی - مدیرعامل شرکت کادک
🔸دکتر رضا سمیعزاده - مدیرعامل گروه فاخر
🔸مهندس سجاد خالصی - مدیر نوآوری هولدینگ شوینده گلرنگ
🔸دکتر علی شجاع - قائم مقام مدیرعامل شرکت آهنآنلاین و عضو هیئت مدیره
🗓 زمان: یکشنبه ۷ دیماه
⏰ ساعت: ۱۵:۳۰ تا ۱۷:۳۰
📍 محل برگزاری:
دانشگاه صنعتی شریف، دانشکده مهندسی صنایع، طبقه سوم، سالن اجتماعات
🔻محل برگزاری آنلاین
@IE_SUT
@Ai_Events
👍4👎2
اولین نمایشگاه بینالمللی هوش مصنوعی ایران (Iran AIX Expo 2026)22 تا 25 دی ماه در محل دائمی نمایشگاههای بینالمللی تهران برگزار میشود.
نمایشگاه بین المللی هوش مصنوعی ایران، به عنوان نخستین گردهمایی رسمی و تخصصی کشور در این حوزه، رویدادی استراتژیک است که با مجوز رسمی سازمان توسعه تجارت ایران و به همت شرکت ایده تجارت هرمس برگزار میشود.
این نمایشگاه که در سالن های ۷، ۸، ۹، ۱۰، ۱۱ و ۲۷ نمایشگاه بین المللی تهران برپا خواهد شد، با هدف اصلی ایجاد یک بستر تعاملی قدرتمند میان تمامی بازیگران اکوسیستم هوش مصنوعی کشور طراحی شده است.
https://iranaiexpo.com/
@Ai_Events
نمایشگاه بین المللی هوش مصنوعی ایران، به عنوان نخستین گردهمایی رسمی و تخصصی کشور در این حوزه، رویدادی استراتژیک است که با مجوز رسمی سازمان توسعه تجارت ایران و به همت شرکت ایده تجارت هرمس برگزار میشود.
این نمایشگاه که در سالن های ۷، ۸، ۹، ۱۰، ۱۱ و ۲۷ نمایشگاه بین المللی تهران برپا خواهد شد، با هدف اصلی ایجاد یک بستر تعاملی قدرتمند میان تمامی بازیگران اکوسیستم هوش مصنوعی کشور طراحی شده است.
https://iranaiexpo.com/
@Ai_Events
🤣4👍1
🚀 پلتفرم مدیریت هوش مصنوعی ChatOne رونمایی شد
🏢 راهکاری سازمانی برای استفاده امن، قابلکنترل و عملی از هوش مصنوعی
اگر:
🤖 از AI یا زیرساخت آن استفاده میکنید؛
💰 به کنترل هزینهها و مدیریت مدلهای زبانی نیاز دارید؛
👥 به یک پنل مدیریت کاربران برای تیمهای استارتاپی یا سازمانهای بزرگ فکر میکنید؛
✨ ChatOne میتواند پاسخگوی نیازهای تیم شما باشد.
🎁 دموی ۷ روزه رایگان، بهراحتی در دسترس است.
https://B2n.ir/tu9252
🏢 راهکاری سازمانی برای استفاده امن، قابلکنترل و عملی از هوش مصنوعی
اگر:
🤖 از AI یا زیرساخت آن استفاده میکنید؛
💰 به کنترل هزینهها و مدیریت مدلهای زبانی نیاز دارید؛
👥 به یک پنل مدیریت کاربران برای تیمهای استارتاپی یا سازمانهای بزرگ فکر میکنید؛
✨ ChatOne میتواند پاسخگوی نیازهای تیم شما باشد.
🎁 دموی ۷ روزه رایگان، بهراحتی در دسترس است.
https://B2n.ir/tu9252
😡3👍1
🔵برنامه نویسی در عصر ایجنت ها🔵
برای مدتی است که از مدل های زبانی بزرگ و همچنین «ایجنت» (agent) ها استفاده میکنم و این نوشتار را بهانه ای کردم برای خلاصه کردن برخی تجربیات شخصیم. تبلیغات کنونی آینده ی تاریکی را برای برنامه نویسان متصور هستند چرا که برخلاف آنچه تصور میشد نوشتن کد فرآیند تکراری است که به راحتی توسط ماشین یاد گرفته می شود. بخصوص اینکه چنین سیستم هایی تمام ارتباطات نرم افزاری، الگوریتم های برنامه سازی و حتی سخت افزار و فراتر از آن را در خود دارند. خود این سیستم ها حتی گاهی کد می نویسند تا بعضی از کارهای خودشان را انجام دهند. به طور مثال اگر بخشی از پاسخ به یک ورودی مشخص نیازمند یک محاسبه ی دقیق باشد مدل کدی می نویسد که آن را محاسبه کند. برنامه نویسی وارد دوره ی جدیدی می شود و به همین دلیل برنامه نویسان باید استراتژی های خود را تغییر دهند. البته هیچ شکی وجود ندارد که بخش زیادی از برنامه نویسانی که به شیوه های سنتی ادامه می دهند در نهایت از چرخه حذف می شوند. اما ویژگی های این دوران جدید چیست؟
اولین ویژگی برنامه نویسی با استفاده از یک کمک مانند یک ایجنت این است که شما را از سطح کد بیرون آورده و به سطح جدیدی وارد می کند که گاهی به کنایه به آن «وایب کدینگ» (vibe coding) گفته می شود. در این سطح جدید شما درگیر مسائل با درجه ی انتزاع پایین تر مانند مرتب کردن یک لیست نیستید بلکه به رابطه ها در سطح بالاتری نگاه می کنید مثلا شما ممکن است نیازمند یک کلاس باشید که تمام فایلاهای با فرمت مشخص را خوانده و آن را در یک پایگاه داده ذخیره کند. در این روش جدید جزییات آن کار انتزاعی اهمیتی ندارد چرا که مسائلی مشابه این بارها قبل توسط برنامه نویسان انجام شده مدل آن را «می داند». اما دقت کنید که این بدان معنی نیست که برنامه نویس نیاز به برنامه ریزی (planning)، بهینه سازی (optimization) و سازماندهی ندارد! این سازماندهی سطح بالاتر چیزی است که مدل به تنهایی قادر به انجام آن نیست! به همین دلیل هم مدل های کنونی می توانند معمولا برنامه های کوچک را به صورت کامل تنها با یک دستور بسازند اما به محض اینکه قدری برنامه بزرگ تر می شود یا مشخصات ان تغییر میکند، دچار مشکلات جدی می شوند.
دومین ویژگی برنامه نویسی با ایجنت ها وارد شدن به عصری است که در آن به تدریج کدهای ما به ترکیبی از زبان دقیق برنامه نویسی و زبان احتمالاتی (و مبهم) متنی تبدیل می شود. امروزه ما هر چه بیشتر از مدل هایی استفاده می کنیم که یک تابع بسیار پیچیده را محاسبه می کنند. مثلا یک بخش کد می تواند اطلاعات مربوط به پرواز را از یک ورودی متنی بدون هیچ فرمت مشخصی استخراج کرده و به سیستم دیگری پاس دهد که بتواند پراوز را رزرو کند! این ارتباط رفت و برگشتی بین «کد» و «مدل» (یا کد احتمالاتی) مشخصه ی نرم افزار های آینده هستند.
اما چنین تغییری موضوع جدیدی نیست: در ابتدای ساختن کامپیوتر ها پانچ کارت ها تنها راه ارتباط با کامپیوتر بود بعد ها این به زبان اسمبلی و ماشین و بعد ها به زبان های سطح پایین و در نهایت به زبان های سطح بالاتر که حاوی مفاهیمی چون «کلاس»، «وراثت» (inheritance) و چند ریختی (polymorphism) هستند منجر شد. انتزاعات کنونی به سطحی آمده است که زبان روزمره هم در آن دخیل شده است اما این بدان معنی نیست که می توان «شعر» را وارد کد کرد! چگونه این زبان جدید و دورگه را باید یاد گرفت؟ اگر دیگر روش های سنتی برای یادگیری برنامه نویسی جواب نمی دهد چه باید کرد؟ بنظر می رسد که نیاز به یادگیری پایه های محاسبه هرگز از بین نمیرود یا ارزش آن کم نخواهد شد با این حال تمرکز بیشتر برنامه نویسان اینده و زمان آن ها صرف مسائل مهم تری مانند مدل سازی می شود. به طور مثال شروع کردن از مدل های ساده و ساختن نرم افزار نیازمند درک دقیق ارتباط ها و نحوه ی رشد دادن آن است. نباید فراموش کنیم که مدل های زبانی معجزه نمی کنند! شما نمی توانید بنویسید یک نرم افزار شبیه فوتوشاپ بساز و مدل برای شما ده هزار خط منطقی و منسجم بنویسد! چنین کاری حداقل بسیار فراتر از تکنولوژی کنونی است. اگر شما ابزارتان را از اره به اره برقی تغییر بدهید یکدفعه یک ساختمان را برای شما درست نمی کند ولی با این حال ساختن چنین ساختمانی را سریع تر، لذت بخش تر کرده و شاید حتی فضای بیشتری برای خلاقیت به شما بدهد.
برنامه نویسان بیشتر از هر زمان دیگری نیاز دارند که به نیاز ها و فرآیند های بزرگ دقت بیشتری کنند یا قوانین و علوم را بهتر بشناسند! چنین ویژگی قدرت بیان دقیق تری به ان ها می دهد که ابزارهای هوش مصنوعی را به جای یک دشمن به یک دوست تبدیل می کند!
source: @matlabtips
@Ai_Events
برای مدتی است که از مدل های زبانی بزرگ و همچنین «ایجنت» (agent) ها استفاده میکنم و این نوشتار را بهانه ای کردم برای خلاصه کردن برخی تجربیات شخصیم. تبلیغات کنونی آینده ی تاریکی را برای برنامه نویسان متصور هستند چرا که برخلاف آنچه تصور میشد نوشتن کد فرآیند تکراری است که به راحتی توسط ماشین یاد گرفته می شود. بخصوص اینکه چنین سیستم هایی تمام ارتباطات نرم افزاری، الگوریتم های برنامه سازی و حتی سخت افزار و فراتر از آن را در خود دارند. خود این سیستم ها حتی گاهی کد می نویسند تا بعضی از کارهای خودشان را انجام دهند. به طور مثال اگر بخشی از پاسخ به یک ورودی مشخص نیازمند یک محاسبه ی دقیق باشد مدل کدی می نویسد که آن را محاسبه کند. برنامه نویسی وارد دوره ی جدیدی می شود و به همین دلیل برنامه نویسان باید استراتژی های خود را تغییر دهند. البته هیچ شکی وجود ندارد که بخش زیادی از برنامه نویسانی که به شیوه های سنتی ادامه می دهند در نهایت از چرخه حذف می شوند. اما ویژگی های این دوران جدید چیست؟
اولین ویژگی برنامه نویسی با استفاده از یک کمک مانند یک ایجنت این است که شما را از سطح کد بیرون آورده و به سطح جدیدی وارد می کند که گاهی به کنایه به آن «وایب کدینگ» (vibe coding) گفته می شود. در این سطح جدید شما درگیر مسائل با درجه ی انتزاع پایین تر مانند مرتب کردن یک لیست نیستید بلکه به رابطه ها در سطح بالاتری نگاه می کنید مثلا شما ممکن است نیازمند یک کلاس باشید که تمام فایلاهای با فرمت مشخص را خوانده و آن را در یک پایگاه داده ذخیره کند. در این روش جدید جزییات آن کار انتزاعی اهمیتی ندارد چرا که مسائلی مشابه این بارها قبل توسط برنامه نویسان انجام شده مدل آن را «می داند». اما دقت کنید که این بدان معنی نیست که برنامه نویس نیاز به برنامه ریزی (planning)، بهینه سازی (optimization) و سازماندهی ندارد! این سازماندهی سطح بالاتر چیزی است که مدل به تنهایی قادر به انجام آن نیست! به همین دلیل هم مدل های کنونی می توانند معمولا برنامه های کوچک را به صورت کامل تنها با یک دستور بسازند اما به محض اینکه قدری برنامه بزرگ تر می شود یا مشخصات ان تغییر میکند، دچار مشکلات جدی می شوند.
دومین ویژگی برنامه نویسی با ایجنت ها وارد شدن به عصری است که در آن به تدریج کدهای ما به ترکیبی از زبان دقیق برنامه نویسی و زبان احتمالاتی (و مبهم) متنی تبدیل می شود. امروزه ما هر چه بیشتر از مدل هایی استفاده می کنیم که یک تابع بسیار پیچیده را محاسبه می کنند. مثلا یک بخش کد می تواند اطلاعات مربوط به پرواز را از یک ورودی متنی بدون هیچ فرمت مشخصی استخراج کرده و به سیستم دیگری پاس دهد که بتواند پراوز را رزرو کند! این ارتباط رفت و برگشتی بین «کد» و «مدل» (یا کد احتمالاتی) مشخصه ی نرم افزار های آینده هستند.
اما چنین تغییری موضوع جدیدی نیست: در ابتدای ساختن کامپیوتر ها پانچ کارت ها تنها راه ارتباط با کامپیوتر بود بعد ها این به زبان اسمبلی و ماشین و بعد ها به زبان های سطح پایین و در نهایت به زبان های سطح بالاتر که حاوی مفاهیمی چون «کلاس»، «وراثت» (inheritance) و چند ریختی (polymorphism) هستند منجر شد. انتزاعات کنونی به سطحی آمده است که زبان روزمره هم در آن دخیل شده است اما این بدان معنی نیست که می توان «شعر» را وارد کد کرد! چگونه این زبان جدید و دورگه را باید یاد گرفت؟ اگر دیگر روش های سنتی برای یادگیری برنامه نویسی جواب نمی دهد چه باید کرد؟ بنظر می رسد که نیاز به یادگیری پایه های محاسبه هرگز از بین نمیرود یا ارزش آن کم نخواهد شد با این حال تمرکز بیشتر برنامه نویسان اینده و زمان آن ها صرف مسائل مهم تری مانند مدل سازی می شود. به طور مثال شروع کردن از مدل های ساده و ساختن نرم افزار نیازمند درک دقیق ارتباط ها و نحوه ی رشد دادن آن است. نباید فراموش کنیم که مدل های زبانی معجزه نمی کنند! شما نمی توانید بنویسید یک نرم افزار شبیه فوتوشاپ بساز و مدل برای شما ده هزار خط منطقی و منسجم بنویسد! چنین کاری حداقل بسیار فراتر از تکنولوژی کنونی است. اگر شما ابزارتان را از اره به اره برقی تغییر بدهید یکدفعه یک ساختمان را برای شما درست نمی کند ولی با این حال ساختن چنین ساختمانی را سریع تر، لذت بخش تر کرده و شاید حتی فضای بیشتری برای خلاقیت به شما بدهد.
برنامه نویسان بیشتر از هر زمان دیگری نیاز دارند که به نیاز ها و فرآیند های بزرگ دقت بیشتری کنند یا قوانین و علوم را بهتر بشناسند! چنین ویژگی قدرت بیان دقیق تری به ان ها می دهد که ابزارهای هوش مصنوعی را به جای یک دشمن به یک دوست تبدیل می کند!
source: @matlabtips
@Ai_Events
❤4👍3🤬3👎1