
گامهای جدید در توسعه یادگیری تقویتی با استفاده از چارچوبهای گوگل (Reinforcement Learning)
تیم "گوگل برین" (Google Brain) اخیراً یک چارچوب یادگیری تقویتی با نام "دوپامین" (Dopamine) را معرفی کرد، که دارای انعطافپذیری و بازتولیدپذیری میباشد. این اعلام در وبلاگ هوش مصنوعی گوگل به عنوان یک پروژه تحقیقاتی در زمینه هوش مصنوعی انجام شد. گوگل برین از سال ۲۰۱۱ فعالیت خود را آغاز کرده و تاکنون در حوزه هوش مصنوعی پیشرفتهای چشمگیری داشته است.
در متن منتشر شده در وبلاگ هوش مصنوعی گوگل، به پیشرفتهای چشمگیر در زمینه یادگیری تقویتی پرداخته شده و اهمیت این پیشرفتها در امکان انجام بازیها به سطح ابرانسانان توسط عاملهای هوشمند بیان شده است. مثالهای اشاره شده به DQN از سازمان "دیپمایند" و OpenAI Five است که نشان از انجام بازیهایی از جمله Dota 2 دارند.
در این سیاق، معرفی "حافظههای بازپخش" در DQN و روشهای یادگیری توزیع شده بزرگ مقیاس به منظور بهرهبرداری از تجربه عامل قبلی و مدل کردن توزیعهای کامل به جای مقادیر مورد انتظار آنها، به عنوان پیشرفتهای مهم ذکر شدهاند.
در ادامه، گوگل یک چارچوب مبتنی بر "تنسورفلو" برای یادگیری تقویتی معرفی کرده است که بر انعطافپذیری، پایداری، و بازتولیدپذیری تأکید دارد. این چارچوب از تاریخهای انگیزشی با پاداش در مغز الهام گرفته شده است و ارتباط قدرتمندی بین علوم اعصاب و یادگیری تقویتی برقرار میکند.
هدف این پلتفرم ایجاد یک جستوجوی نظری است که میتواند اکتشافات رادیکال در زمینه هوش مصنوعی داشته باشد. این نسخه از چارچوب شامل مجموعهای از colabها است که نحوه استفاده از آن را برای پژوهشگران تازهکار و افراد دارای تجربه نمایان میکند.
کاربردپذیری
شفافیت و سادگی از جمله نگرانیهای اساسی در چارچوب ارائه شده محسوب میشوند. کد این چارچوب کاملاً فشرده است و در حدود ۱۵ فایل پایتون قرار دارد، همچنین به دقت مستندسازی شده است. این تمرکز بر "Arcade Learning Environment"، یک بنچمارک معتبر و به خوبی درک شده در زمینه، و چهار عامل "مبتنی بر مقدار" شامل DQN و C51، نسخههای ساده شده از "عامل رینبو" و عامل "Implicit Quantile Network" که در کنفرانس بینالمللی یادگیری ماشین در جولای ۲۰۱۸ معرفی شدند، را در برمیگیرد.
اهمیت این چارچوب بر اساس امکان درک سریع و سادهٔ کارکردهای داخلی عامل و آزمودن بهسرعت ایدههای جدید برای پژوهشگران است. گوگل امیدوار است که سادگی این چارچوب به پژوهشگران کمک کند تا عملکردهای داخلی عامل را به راحتی درک کرده و به راحتی ایدههای نوآورانه را آزمایش نمایند.
بازتولیدپذیری
در این پروژه، گوگل به حساسیت قابل توجهی نسبت به بازتولیدپذیری در زمینه پژوهش یادگیری تقویتی پرداخته است. به منظور اطمینان از کیفیت کدها، آنها پوشش کاملی از تستها را فراهم کردهاند و این تستها به عنوان مستندات افزوده نیز در دسترس هستند. همچنین، چارچوب تجربی گوگل از راهنماییهای ارائه شده توسط «موکادو» (Machado) و همکاران در سال ۲۰۱۸ در زمینه استانداردسازی ارزیابی تجربی با Arcade Learning Environment پیروی میکند.
معیار سنجش (بنچمارک)
توانمندی در ارزیابی سریع ایدههای پژوهشی جدید برای ایجاد روشهای مسالههای مهم برای پژوهشگران ابتدایی امری حیاتی است. در این راستا، گوگل دادههای آموزشی جامع خود را در طول ۶۰ بازی پشتیبانی شده توسط محیط یادگیری آرکید (Arcade Learning Environment)، برای عاملهای آموزش یافته با چارچوب داخلی خود و به صورت فایل JSON (برای مقایسه با عاملهای آموزش یافته در چارچوبهای دیگر) منتشر کرده است.
همچنین، یک وبسایت آماده کرده که این امکان را فراهم میکند تا به سرعت اجراهای آموزش را برای تمامی عاملهای آموزش یافته در تمامی ۶۰ بازی بصری مورد ارزیابی قرار داد. در تصویر زیر، اجراهای آموزشی برای ۴ عامل در بازی "Seaquest"، یکی از بازیهای آتاری ۲۶۰۰ که توسط محیط یادگیری آرکید پشتیبانی میشود، آورده شدهاند.
این منبع ارزشمند برای پژوهشگران جدید امکان پذیرش و تجزیه و تحلیل سریع و دقیق از عملکرد عاملهای آموزش یافته را فراهم میکند. اطلاعات در دسترس علاوه بر افزایش شفافیت، با استفاده از فرمت JSON برای دادههای مقایسه، امکان ارتقاء قابلیت اطمینان در مقایسه با دیگر چارچوبهای یادگیری ماشین را فراهم میسازد. این ابزارها به توسعه روشهای نوآورانه برای حل چالشهای پیچیده در حوزه یادگیری ماشین و هوش مصنوعی کمک بزرگی میکنند.

گوگل با ارائه چارچوب باز متن با نام TensorFlow، به تحقیقات در حوزه یادگیری عمیق ادامه میدهد. این چارچوب، که امکان ایجاد مدلهای عصبی پیچیده و انجام تحلیلهای آماری با لوگهای خام را فراهم میکند، به همراه امکانات ترسیم نمودار با TensorBoard ارائه شده است. منابع مربوط به این چارچوب در قسمت دانلود سایت گوگل در دسترس است.
امیدواری گوگل این است که این چارچوب انعطافپذیری بیشتری به پژوهشگران علوم کامپیوتر ارائه دهد، تا آنها بتوانند ایدههای خود را با اطمینان آزمایش کنند، چه به صورت افزایشی و چه به صورت رادیکال. تیم تحقیقاتی گوگل با اعلام استفاده فعال خود از این چارچوب برای پژوهشهای خود، تاکید کرده که انعطافپذیری این ابزار این امکان را به آنها میدهد تا به سرعت ایدههای مختلف را بازتولید کرده و بررسی نمایند.
تیم Brain گوگل نیز ابراز کرده که منتظرند از پروژههای جدیدی که توسط جامعه بزرگتر از این چارچوب اجرا میشوند، با اشتیاق شاهد باشند. علاقمندان میتوانند مخزن گیتهاب این پروژه را بررسی کرده، با آن کار کنند و نظرات خود را با تیم به اشتراک بگذارند.
تیم پروژه
این پروژه با همکاری یک تیم گسترده از افراد متخصص در گوگل به اتمام رسیده است. تیم اصلی این پروژه از افرادی چون "مارک جی بلمر" (Marc G. Bellemare)، "پابلو ساموئل کسترو" (Pablo Samuel Castro)، "کرلس گلادا" (Carles Gelada)، "سابهودیپ مویترا" (Subhodeep Moitra) و "سوراب کومار" (Saurabh Kumar) تشکیل شده است. علاوه بر این اعضای اصلی، تیم پروژه از همکاریهای موثر افرادی که در آزمایش و تست این چارچوب مفید بودهاند نیز قدردانی میکند.
برای ثبت نظر لطفا وارد حساب کاربری شوید
ورود / ثبت نام