RoboEpics

دیگه لازم نیست برای خرید اکانت midjourney هزینه کنید! 😁

مدل Stable diffusion XL روی پلتفرم clip drop قابل استفادست.
این مدل آخرین مدل stable diffusion هست که توی ساخت تصاویر واقع گرایانه خیلی عالی عمل میکنه و حتی در بعضی حوزه ها از midjourney هم بهتر عمل میکنه.
شما با ساخت حساب کاربری توی سایت میتونید روزانه 60 تا عکس رایگان با هوش مصنوعی تولید کنید.

برای استفاده از مدل روی متن کلیک کنید.

این پست رو حتما برای کسایی که فکر میکنی به این مدل نیاز دارن بفرست. 😎

@RoboEpics

🤩1

470 views11:50

RoboEpics

تا حالا به این فکر کردین وقتی که به ChatGPT یا GPT-4 میگیم که چیزی رو داره اشتباه میگه میفهمه و اونو اصلاح میکنه؟
آیا براتون عجیب نیست که یه مدل با پارامتر‌های ثابت چرا دوباره همون جواب یکسان قبلی رو بهون نمیده؟

این قدرت مدل‌های بزرگ زبانیه که این اجازه رو میده توی Context (موضوعی که دارن در موردش صحبت میکنن) یاد بگیرن.

اگر با ChatGPT صحبت طولانی کرده باشین و بهش گفته باشید که یه سری جزییات توی بحثتون رو تغییر بده و اون موضوع ها رو همیشه تو ذهنش نگه داره میبینید که به مرور یه سری چیزهایی که گفتید رو یادش میره.
به حداکثر طول کلماتی که یک مدل در یک انتشار به جلو میتونه انجام بده رو اصطلاحا Context window میگن و این معیار خیلی مهمیه و توی تمام مدل‌های بزرگ زبانی اونو اندازه گیری میکنن و مقدار این معیار GPT3 هزار کلمست و در GPT4 به 25 هزار کلمه میرسه.

حالا یه مقاله ای هست که از طرف مایکروسافت منتشر شده که توی اون توضیح میده که این مدل های برزگ زبانی چی جوری میتونن توی اون زمینه ای که باهاش صحبت میکنی یاد بگیرن.

لینک مقاله

این پست رو حتما برای دوستان علاقه مندتون بفرستید😎👍

@RoboEpics

🐳3

417 views14:23

RoboEpics

This media is not supported in your browser

VIEW IN TELEGRAM

تیم متا به تازگی یک هوش مصنوعی برای کودکان منتشر کرد! 😃

تیم متا یک ابزار پویانمایی مبتنی بر هوش مصنوعی و 180 هزار عکس از نقاشی کودکان که با استفاده از اون تونستن این مدل رو بسازن منتشر کردن.

اسم این ابزار رو Animated Drawing گذاشتن و قابلیت تشخیص شکل، جدا کردن نقاشی از پس زمینه، اضافه کردن مفصل های حرکتی به نقاشی و حرکت دادن نقاشی رو داره.

شما همین الان می‌تونید از این محصول استفاده کنید و نقاشی‌ها رو به حرکت دربیارید.

لینک بلاگ

لینک استفاده از مدل

لینک گیت هاب مدل

این پست رو برای کسایی که فکر میکنید علاقه مندن بفرستید😎👌

@RoboEpics

🐳3

498 views10:40

RoboEpics

This media is not supported in your browser

VIEW IN TELEGRAM

مدل Dino v2 به درد همه ی کسایی که بینایی ماشین کار میکنن، میخوره 😎

متا امروز مدل Dino v2 رو منتشر کرد که با اون می‌تونید مدل های بینایی ماشین رو با کارایی بالا آموزش بدید.

این مدل خودنظارتی(self supervised) بینایی با بهره گیری از معماری ترانسفورمر ها میتونه توی تموم کار‌های بینایی ماشین شما نقش مهمی رو ایفا کنه و به fine tune هم نیازی نداره.

با این مدل میتونید بدون نیاز به مقدار زیادی از داده های برچسب خورده مدل بینایی ماشین خودتونو آموزش بدید.

از این مدل میتونید توی طبقه بندی کردن تصاویر(classification)، تقسیم بندی عکس(segmentation)، بازیابی عکس(image retrieval) و تخمین عمق(depth estimation) عکس استفاده کنید.

با این مدل میتونید مستقیما مدلتون رو با خود عکس‌ها آموزش بدید و دیگه نیازی به توضیح متنی برای عکس‌ها ندارید.

این مدل قابلیت یادگیری با هر مجموعه عکسی رو هم داره.

نسخه از پیش آموزش دیده Dino v2 موجوده و با مدل‌های CLIP و Open CLIP توی طیف گسترده ای از کار‌ها میتونه رقابت کنه.

لینک دموی مدل
لینک بلاگ
لینک گیت هاب

این پست رو حتما برای افرادی که فکر میکنید علاقه مندن بفرستید😎

@RoboEpics

👍3🤯2🤔1

625 views14:57

RoboEpics

This media is not supported in your browser

VIEW IN TELEGRAM

شرکت Nvidia تحقیقات خودشو روی مدل‌های تبدیل متن به ویدئو منتشر کرد 🤯

مدل‌های انتشار پنهان ویدئویی (Video Latent Diffusion Models) با استفاده از مدل‌ انتشار (diffusion model) توی یک فضای پنهان فشرده (Compressed latent space) ویدئو‌هایی با وضوح بالا تولید می‌کنن که در عین حال از منابع محسباتی کمتری هم استفاده می‌کنن.

نحوه‌ی عملکرد این مدل به صورت زیر خلاصه میشه:
1. روی تموم دیتاست عکس‌ها LDM رو پیش آموزش میدیم.

2. با اضافه کردن لایه‌های زمانی مثل فریم فیلم، LDM تصویر رو به LDM ویدیویی تبدیل میکنیم.

3. برای ساخت مدل تولید ویدئو، LDM ویدیویی روی دنباله‌ای از ویدیو‌های کدگذاری شده fine-tune می‌کنیم.

4. به صورت موقت نمونه بردار‌های مدل انتشاری (diffusion model upsamplers) رو روی تولید ویدیو با کیفیت بالا تنظیم می‌کنیم.

5. برای اینکه بخوایم مدلمون عملکرد خیلی خوبی پیدا کنه، LDM ویدیویی رو روی ویدیو‌های واقعی 1024*512 اعتبار سنجی می‌کنیم.

لینک سایت
لینک مقاله

این پست رو حتما برای دوستای علاقه‌مندتون بفرستید😎👌

@RoboEpics

🔥2

1.42K viewsedited 12:33

RoboEpics

0:59

This media is not supported in your browser

VIEW IN TELEGRAM

خودتون رو برای پارک ژوراسیک آماده کنید 😎

توی ویدئو مدلی رو میبینید که حرکات موجودات دوپا با استفاده از عضله‌های سه بعدی رو شبیه سازی می‌کنه.

این کنترل‌های حرکتی میتونه توی زمان واقعی با سرعت‌های مختلف، به سمت هدف های متفاوت و در مسیر‌های ناهموار حرکت کنن.

لینک مقاله

@RoboEpics

👍2

1.15K views09:18

RoboEpics

This media is not supported in your browser

VIEW IN TELEGRAM

با استفاده از این سایت می‌تونید شبکه‌های عصبی پیچشی(convolutional neural network) رو بهتر درک کنید.
این سایت CNN‌ها رو تصویر سازی میکنه و توضیح می‌ده که توی هر لایه از این شبکه‌های عصبی چه اتفاقی می‌افته.
می‌تونید این سایت رو توی مرورگر خود باز کنید و با CNN‌ها بازی کنید و یاد بگیرید.

لینک سایت
لینک مقاله‌ی یادگیری CNNها با استفاده از تصویرسازی تعاملی

این پست رو حتما برای کسانی که توی بینایی ماشین کار میکنن بفرستید😎

@RoboEpics

👍3

647 views08:42

RoboEpics

تاریخچه چت‌بات‌ها و مدل‌های بزرگ زبانی 📚

به مدت 30 سال از سال 1987 تا 2017، مدل‌های یادگیری ماشینی که بر اساس ویژگی‌ یاد می‌گرفتن ( feature based machine learning models) رو معمولا برای کار‌های پردازش زبان طبیعی مثل تجزیه و تحلیل احساسات یا پیدا کردن اسم شرکت‌ها تو متن استفاده می‌کردن.

درسته که این مدل‌ها تو مثال‌های بالا خوب کار می‌کردن اما توانایی درک زبان رو نداشتن. برای اینکه بتونیم درک بهتری از زبان با روش‌های قدیمی داشته باشیم نیاز داریم که مقدار قابل توجهی کد بزنیم که ساختار و معنای جملات و مفهوم بعضی کلمات و جملات دو پهلو رو مشخص کنیم و همینطور باید خیلی داده‌ی دستنویس تولید کنیم که قواعد دستور زبان رو به مدل بفهمونیم. این رویکرد خیلی پرهزینه و مقیاس ناپذیر بود و همینطور به طور گسترده قابل استفاده توی کار‌های مختلف نبود.

تا اینکه توی سال 2018 با توسعه نسل جدیدی از مدل‌های بزرگ زبانی، درک زبان طبیعی به صورت کلی متحول شد.

مدل‌هایی مثل BERT و GPT-3 با استفاده از یادگیری خودنظارتی(self-supervised) روی مقادیر خیلی زیادی از داده‌های متنی آموزش داده‌ شدن تا بتونن ساختار و معنای متن رو درک کنن.
این مدل‌ها از Transformer‌ها استفاده کردن که یک فناوری شبکه عصبی جدید بود که توی سال 2017 معرفی شد که کلماتی که با هم در یک زمینه (context) هستند در فضای برداری هم نزدیک به هم هستند و مدل کلمات رو با استفاده از درکی که از Context داره به صورت احتمالاتی در کنار هم قرار میده و این کار به مدل این قدرت رو می‌داد معنی جملات رو بهتر بفهمن و همینطور با استفاده از روش‌های stochastic gradient descent یا reinforcement learning می‌شه که این مدل‌ها رو برای درک بهتر زبان و انجام کار‌های مختلف توی حوزه‌ی NLP آموزش داد.

برای بیشتر آشنا شدن با معماری و الگوریتم‌های transformer ها میتونید به مقاله زیر مراجعه کنید.
لینک مقاله

@RoboEpics

❤3👍1

524 views11:55

RoboEpics

0:48

This media is not supported in your browser

VIEW IN TELEGRAM

از این به بعد ChatGPT صدا رو هم می‌شنوه و جواب می‌ده 🤯

کم کم میتونیم آماده‌ی اومدن نسل جدید دستیار‌های هوشمند باشیم که با قدرت گرفتن از ChatGPT و با استفاده از Plug-in هایی که برای ChatGPT می‌نویسن، می‌تونیم فقط با صحبت کردن با یک هوش مصنوعی تمام کارهایی که لازمه رو انجام بدیم به عنوان مثال خرید کنیم، برنامه‌های مختلف برای خودمون برنامه ریزی کنیم و ...

با توجه به پیشرفت و رشدی که میبینیم میتونیم توی آینده‌ی نزدیک شاهد این دستیار‌های هوشمند باشیم.

تیمی که روی این مدل کار کردن اسمش رو AudioGPT گذاشتن و اونو به صورت open source گذاشتن تا بقیه هم بتونن ازش استفاده کنن.

لینک مقاله
لینک گیت هاب مدل

این پست رو حتما برای افراد علاقه‌مند بفرستید😎

@RoboEpics

👍4🔥2

1.11K views13:08

RoboEpics

ترانسفورمر‌ها کاملا صنعت یادگیری ماشین رو در اختیار خودشون قرار دادن !

چند سال پیش بود که ترانسفورمر‌ها فقط یه نوآوری توی تحقیقات حوزه NLP بودن اما الان سخته که بخوایم حوزه ای توی یادگیری ماشین پیدا کنیم که توی اون عملکرد ترنسفورمر‌ها از عملکرد مدل‌های SOTA بهتر نباشه.

پینترست(pinterest) یکی از شبکه‌های اجتماعیه که توی حوزه‌ی یادگیری ماشین همیشه به روزه و اونا به تازگی با استفاده از دیتای رفتار بلند مدت و کوتاه مدت کاربرا، سیستم پیشنهادگرشون (recommendation system) رو با استفاده از ترنسفورمر‌ها تغییر دادن.
اصطلاحا به پست‌های پینترست پین (pin) میگن. پین‌ها ترکیبی از یک تصویر، توضیحات متن و یک لینک خارجی به محصول‌ واقعی هستن که کاربرا میتونن با لایک کردن، ذخیره کردن و باز کردن این پین‌ها با سایت تعامل داشته باشن.
به صورت معمول برای ساخت مدل‌های پیشنهادگر، دیتاهای فعالیت کاربر و نرخ تعامل کاربر‌ها با موارد مختلف بهمون توی ساخت مدل کمک میکنه و مواردی که به کاربر پیشنهاد میشه بر اساس یک دیتای تست مخصوصه مثلا برای یه سایتی مثل پینترست میایم دیتاهای فعالیت 30 روزه‌ی کاربر‌ها رو ثبت می‌کنیم و تمام فعالیت‌هایی که قبل از اون انجام داده رو فراموش می‌کنیم و هر گونه رفتار و علاقه ی کوتاه مدت (مثلا یک ساعت گذشته) توسط مدل قابل درک نیست.
برای ساخت همچین مدلی مسئله‌ی دسته‌بندی(calssification) باید حل کنیم و باید پیش بینی کنیم که کاربر با این مواردی که بهش پیشنهاد شده تعامل داره یا نه و ما یه سری ویژگی (features) میسازیم تا رفتار گذشته کاربرا رو ثبت کنیم و ساختار ذاتی سری زمانی این دیتاها رو نادیده می‌گیریم.

حالا پینترست به این مسئله به شکل دیگه‌ای نگاه می‌کنه!!

اونا میان به مدل علایق کوتاه مدت و بلند مدت رو به صورت جداگونه یاد میدن. اونا میان اول PinnerFormer Transformer رو با دیتاهای سری زمانی رفتار کاربرا تا یک سال آینده آموزش میدن.حالا این ترنسفورمر یاد میگیره با استفاده از رابطه‌ی تعاملات(engagements) کاربرا با سایت در مقاطع مختلف زمانی آینده رو پیش بینی کنه.
حالا به جای اینکه این مدل فقط آینده رو پیش بینی کنه یک تابع ضرر (loss function) ایجاد کردن که تا 14 روز آینده تمام تعاملات کاربر رو در نظر می‌گیره و آخرین لایه مدل برای encoding علاقه‌های بلند مدت کاربرا استفاده می‌شه و در یک database ذخیره می‌شه.
یک ترنسفورمر دیگه هم اینجا وجود داره که به عنوان ورودی engagementهای کاربر در کوتاه مدت( مثلا چند ساعت یا چند دقیقه پیش) و embedding‌های کاربر در بلند مدت رو می‌گیره و پین بعدی که قراره نمایش داده بشه و تبلیغ مناسب بعدی رو بر اساس الگوریتم‌های رتبه‌بندی(Learning to rank) پیش بینی می‌کنه و روابط بین رفتار‌های بلند مدت و کوتاه مدت کاربر رو یاد می‌گیره تا آیتم‌های مورد نظر کاربر رو بهش نمایش بده.

لینک مقاله

این پست رو حتما برای کسایی که علاقه‌مندن بفرستید 😎👍

@RoboEpics

👍4❤2

791 viewsedited 12:59

RoboEpics

زیرک: تجربه‌ای بهتر از ChatGPT

✅ بدون نیاز به VPN
✅ بدون نیاز به شماره خارج از کشور
✅ سرعت بالاتر

با استفاده از سرویس زیرک بدون هیچ دردسری و رایگان از ChatGPT استفاده کنید، سوالات خود را از آن بپرسید و با بازخورد دادن به جواب‌های زیرک به ما در تقویت این فناوری برای زبان فارسی کمک کنید.

همین الان وارد زیرک شوید و خلاقانه‌ترین سوالی که به ذهنتان می‌رسد را از آن بپرسید.
xerac.ir

برای ارتباط بیشتر با ما هم می‌توانید عضو سرور دیسکورد شوید یا در تلگرام (پشتیبانی) نظرات خود را برای ما ارسال کنید.

@RoboEpics

🔥10🤡6💯3🤔2👍1

10.9K viewsedited 14:11

RoboEpics

با GPT-4 نحوه‌ی عملکرد شبکه عصبی مدل‌های زبانی رو میشه پیدا کرد 😱

تیم OpenAI جدیدا توی بلاگی نوشته که میشه با استفاده از GPT-4 روش کار شبکه‌های عصبی مدل‌های بزرگ زبانی رو فهمید و این روش رو روی مدل GPT-2 امتحان کردن و نتایج نسبتا خوبی گرفتن.

برای اطلاعات بیشتر می‌تونید بلاگشون رو بخونید.

@RoboEpics

🤯1

592 viewsedited 11:12

RoboEpics

با استفاده از یک Agent کنترل بیش از ده هزار مدل Transformer رو به دست بگیرید 😎

تیم Hugging face از Transformer agents خودش رونمایی کرد این Agentها با استفاده از مدل‌های بزرگ زبانی می‌تونن به بیش از ده هزار مدل Transformer و diffuser متصل بشن.

در عمل این agentها چی جوری کار میکنن؟

این Agentها با استفاده از زنجیره افکار (Chain of thoughts)، وظیفه‌ای که براشون مشخص شده رو میفهمن و با استفاده از ابزار‌هایی که بهش دسترسی دارن کد پایتون خروجی میدن.

کار باهاشم هم بسیار سادست:

به Agent بگید که هدفش چیه
ابزاری هم که باید ازش استفاده کنه مشخص کنید
چند تا نمونه از کارایی که باید انجام بده رو براش مثال بزنید
وظیفه(task) رو براش مشخص کنید

همینطور میتونه کارهای پیچیده رو انجام بده و باهاتون مکالمه هم بکنه.

می‌تونید باهاش عکس ها رو ادیت کنید، یک بلاگ یا Pdf رو بگید خلاصه کنه و براتون به صدا تبدیل کنه و خیلی قابلیت‌های دیگه.

برای اطلاعات بیشتر و استفاده از اون روی Documentation کلیک کنید.

@RoboEpics

🔥1🙏1

650 views11:45

چرا ChatGPT بعضی اوقات توهم میزنه و چرت و پرت چی میگه؟ 🤔

ما توی این کلیپ سعی کردیم این مسئله رو به صورت خیلی ساده توضیح بدیم.
محتوای این کلیپ شامل:
1. مدل‌های زبانی Auto regressive مثل GPT-3 و GPT-4 چی جوری کار میکنن؟
2.چه چیز‌هایی باعث میشه که این مدل‌ها اطلاعات غلط بدن.
3. چه کارهایی باعث میشه که این اطلاعات غلط کمتر بشن.

حتما این ویدئو رو ببینید و به ما بگید که ChatGPT تا حالا چه چیزایی غلط و خنده داری به شما گفته؟

برای استفاده راحت و بدون دردسر از chatgpt هم میتونید به وبسایت زیرک مراجعه کنید.

@Roboepics

👏4❤3🤩1

822 viewsedited 11:53

RoboEpics

1:30

This media is not supported in your browser

VIEW IN TELEGRAM

متا مدل تبدیل متن به صوت و صوت به متن خودش رو Open source کرد.

این مدل توی 1100 زبان مختلف قابل استفادست و میتونه تا 4000 گویش رو شناسایی کنه.

لینک گیت هاب
لینک بلاگ
لینک مقاله

@Roboepics

🔥3🤯1🐳1

630 views10:17

RoboEpics

بهترین مدل زبانی Open Source منتشر شد.
تیم Technology Innovation Institute یک مدل زبانی از قبل آموزش دیده به اسم Falcon رو آموزش دادن که از مدل زبانی Llama که توسط تیم متا درست شده بود بهتر عمل کرده و در اندازه های 40 و 7 میلیارد پارامتری موجوده
از ویژگی‌های این مدل اینه که:
معماریش برای inference به خوبی بهینه شده.
این مدل برای استفاده تجاری هم مانعی نداره.

برای جزئیات بیشتر هم می‌تونید به لینک های زیر مراجعه کنید.
Falcon 7B
Falcon 40B
جدول امتیازات مدل‌های زبانی Open Source

@RoboEpics

huggingface.co

tiiuae/falcon-7b · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

610 viewsedited 11:18

جمعه ۵ خرداد در کنار دوستان cs50xiran و techcafe بودیم و در رویداد CS summit, روبواپیکس رو به بچه ها ارائه دادیم و گزارش کوتاهی هم از اتفاقات این رویداد براتون آماده کردیم.

@Roboepics

🔥5

578 viewsedited 12:40

RoboEpics

This media is not supported in your browser

VIEW IN TELEGRAM

مدل Voyager با استفاده از GPT-4 یادگرفت ماینکرفت بازی کنه 😲

مدل Voyager اولین مدلیه که با استفاده از مدل های زبانی و بدون دخالت انسان دنیای ماینکرفت رو می‌گرده و مهارت‌های مختلفی رو یاد می‌گیره.

مدل Voyager از سه بخش کلیدی تشکیل شده:
1.یک برنامه کلی خودکار که باعث شده مدل در دنیای ماینکرفت حرکت کنه
2.برای مدل، یک کتابخانه مهارت در نظر گرفتند که توی اون کد های رفتارهای پیچیده ای که مدل یاد می‌گرفت توی اون ذخیره می‌شد.
3. یک مکانیسم دستوری جدید پیوسته، که شامل بازخورد‌های محیطی، خطاهای اجرایی مدل و تایید کردن رفتار مدل میشه که با استفاده از مدل رفتار خودشو بهبود میده.

مدل Voyager با استفاده از black box query با مدل GPT-4 تعامل می‌کنه که بخش کلیدی سوم مدل به GPT-4 ارتباط پیدا می‌کنه.
برای انجام برنامه ی کلی Voyager از GPT-4 دستور میگیره و سعی میکنه که به ترتیب کارها رو انجام بده.

این مدل نسبت به مدل های قبلی 3.3 برابر آیتم‌های Unique بیشتر پیدا کرده ، 2.3 برابر مسافت های طولانی تری رو طی کرده و همینطور مهارت های مختلف در درخت دانش بازی رو تا 15.3 برابر زودتر یاد گرفته.

لینک وبسایت
لینک گیت هاب

@RoboEpics

732 views16:22

RoboEpics

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

دارک مود مهمه! خیلی مهمه (Dark mode matters) 😋

چیزی که خیلیاتون برای زیرک درخواست کرده بودید بالاخره داره میرسه
تا چند روز آینده "دارک مود" اضافه می‌کنیم که دیگه چشماتون اذیت نشه. 🌝🌚

وَ

تجربه بهتر از ChatGPT فقط در دسترسی راحت تر خلاصه نمیشه، کاربردهای تخصصی، تجربه ای بهتر از ChatGPT براتون میسازه!

خبرای خیلی جذابی تو راهه، منتظر باشید 💪🦾

www.xerac.ir

@RoboEpics

❤5👍2🌚1

771 viewsedited 13:25

RoboEpics

واقعا هوش مصنوعی قراره هممونو بیکار کنه؟🥲
ما توی این ویدئو اومدیم سیر نوآوری توی ایجاد شغل رو بررسی کردیم و میایم شرکت‌های مختلف رو به میزان استخدام نیرو و سودآور بودنشون با هم مقایسه می‌کنیم و در مورد این صحبت می‌کنیم که در آینده این سیر پیشرفت چه قدر می‌تونه توی کار و بهره وری افراد مختلف تاثیر بذاره.
امیدواریم از این کلیپ لذت ببرید و برای دوستاتون بفرستید😎👍
راستی به نظر شما چه قدر طول می‌کشه تا هوش مصنوعی هممونو بیکار کنه؟

https://youtu.be/E7YGaaPGxnE

#بیکاری_با_هوش_مصنوعی

YouTube

چه قدر طول می‌کشه تا هوش مصنوعی هممونو بیکار کنه؟| AI taking over jobs

امیدوارم که این ویدئو اطلاعات مفیدی بهتون داده بشه؟
اگه دوست دارید که بدونید برای آینده چه جور منابع درآمدی برای انسان‌ها در نظر گرفتن حتما ویدئو‌های ما رو لایک کنید تا ویدئو‌های جدید براتون بسازیم

👍3❤2🔥1

1.49K viewsedited 08:58

RoboEpics

از این به بعد مدل‌های بزرگ زبانی رو میشه توی گوشی جا داد 🤯🤯

پیشرفت‌های اخیر توی pre-train کردن LLM‌ها باعث ساخت‌ LLM‌های با کیفیتی مثل LLama و Falcon شده. حالا با فشرده کردن این LLMها از طریق کمی سازی(quantization) هر پارامتر به 3 تا 4 بیت، میتونیم که این مدل‌های بزرگ رو توی دستگاه‌هایی با حافظه‌ی کم مثل گوشی و لپ تاپ بالا آورد و مدلا رو شخصی سازی کرد.
البته فشرده سازی هر پارامتر تا 3-4 بیت معمولا باعث میشه عملکرد مدل‌ها بسیار کاهش پیدا کنه و دقت خوبی رو نداشته باشن مخصوصا رو مدل‌هایی با 1 تا 10 میلیارد پارامتری که از قبل اینا به صورت خوبی بهینه شدن تا هزینه ی زیرساخت و deploy کردن این مدل‌ها رو کاهش بدن.
حالا برای حل این مشکل روش Sparse-Quantized Representation (SpQR) رو معرفی کردن. SpQR یک فرمت جدید فشرده سازی و تکنیک کمی سازیه که به اندازه‌ی خیلی خوبی باعث میشه بدون کاهش دقت و عملکرد مدل‌ها، اونا رو فشرده کنیم.
روش SpQR میاد با شناسایی و جداسازی وزن‌های پرت (Outlier weights)، که معمولا این وزن‌ها باعث میشدن که خطای quantization بالا برن، اونا رو با دقت بالاتری ذخیره می‌کنه و بقیه وزن‌ها رو تا 3-4 بیت فشرده می‌کنه.
این روش رو روی مدل‌های Falcon و Llama پیاده سازی کردن و با افت دقت 1 درصدی مواجه شدن که نتیجه خیلی خوبی بوده و شما میتونید با استفاده از این روش یک مدل بزرگ و بدون اینکه با افت دقتی مواجه بشید روی یه GPU 24g بالا بیارید.

لینک مقاله

@RoboEpics

😱2👍1

706 views09:41

About

Blog

Apps

Platform