گام‌های جدید در توسعه یادگیری تقویتی با استفاده از چارچوب‌های گوگل (Reinforcement Learning)

گام‌های جدید در توسعه یادگیری تقویتی با استفاده از چارچوب‌های گوگل (Reinforcement Learning)

تیم "گوگل برین" (Google Brain) اخیراً یک چارچوب یادگیری تقویتی با نام "دوپامین" (Dopamine) را معرفی کرد، که دارای انعطاف‌پذیری و بازتولیدپذیری می‌باشد. این اعلام در وبلاگ هوش مصنوعی گوگل به عنوان یک پروژه تحقیقاتی در زمینه هوش مصنوعی انجام شد. گوگل برین از سال ۲۰۱۱ فعالیت خود را آغاز کرده و تاکنون در حوزه هوش مصنوعی پیشرفت‌های چشم‌گیری داشته است.

در متن منتشر شده در وبلاگ هوش مصنوعی گوگل، به پیشرفت‌های چشم‌گیر در زمینه یادگیری تقویتی پرداخته شده و اهمیت این پیشرفت‌ها در امکان انجام بازی‌ها به سطح ابرانسانان توسط عامل‌های هوشمند بیان شده است. مثال‌های اشاره شده به DQN از سازمان "دیپ‌مایند" و OpenAI Five است که نشان از انجام بازی‌هایی از جمله Dota 2 دارند.

در این سیاق، معرفی "حافظه‌های بازپخش" در DQN و روش‌های یادگیری توزیع شده بزرگ مقیاس به منظور بهره‌برداری از تجربه عامل قبلی و مدل کردن توزیع‌های کامل به جای مقادیر مورد انتظار آن‌ها، به عنوان پیشرفت‌های مهم ذکر شده‌اند.

در ادامه، گوگل یک چارچوب مبتنی بر "تنسورفلو" برای یادگیری تقویتی معرفی کرده است که بر انعطاف‌پذیری، پایداری، و بازتولیدپذیری تأکید دارد. این چارچوب از تاریخ‌های انگیزشی با پاداش در مغز الهام گرفته شده است و ارتباط قدرتمندی بین علوم اعصاب و یادگیری تقویتی برقرار می‌کند.

هدف این پلتفرم ایجاد یک جست‌و‌جوی نظری است که می‌تواند اکتشافات رادیکال در زمینه هوش مصنوعی داشته باشد. این نسخه از چارچوب شامل مجموعه‌ای از colab‌ها است که نحوه استفاده از آن را برای پژوهشگران تازه‌کار و افراد دارای تجربه نمایان می‌کند.

کاربردپذیری

شفافیت و سادگی از جمله نگرانی‌های اساسی در چارچوب ارائه شده محسوب می‌شوند. کد این چارچوب کاملاً فشرده است و در حدود ۱۵ فایل پایتون قرار دارد، همچنین به دقت مستندسازی شده است. این تمرکز بر "Arcade Learning Environment"، یک بنچ‌مارک معتبر و به خوبی درک شده در زمینه، و چهار عامل "مبتنی بر مقدار" شامل DQN و C51، نسخه‌های ساده شده از "عامل رینبو" و عامل "Implicit Quantile Network" که در کنفرانس بین‌المللی یادگیری ماشین در جولای ۲۰۱۸ معرفی شدند، را در برمی‌گیرد.

اهمیت این چارچوب بر اساس امکان درک سریع و سادهٔ کارکردهای داخلی عامل و آزمودن به‌سرعت ایده‌های جدید برای پژوهشگران است. گوگل امیدوار است که سادگی این چارچوب به پژوهشگران کمک کند تا عملکردهای داخلی عامل را به راحتی درک کرده و به راحتی ایده‌های نوآورانه را آزمایش نمایند.

بازتولیدپذیری

در این پروژه، گوگل به حساسیت قابل توجهی نسبت به بازتولیدپذیری در زمینه پژوهش یادگیری تقویتی پرداخته است. به منظور اطمینان از کیفیت کدها، آنها پوشش کاملی از تست‌ها را فراهم کرده‌اند و این تست‌ها به عنوان مستندات افزوده نیز در دسترس هستند. همچنین، چارچوب تجربی گوگل از راهنمایی‌های ارائه شده توسط «موکادو» (Machado) و همکاران در سال ۲۰۱۸ در زمینه استانداردسازی ارزیابی تجربی با Arcade Learning Environment پیروی می‌کند.

معیار سنجش (بنچمارک)

توانمندی در ارزیابی سریع ایده‌های پژوهشی جدید برای ایجاد روش‌های مساله‌های مهم برای پژوهشگران ابتدایی امری حیاتی است. در این راستا، گوگل داده‌های آموزشی جامع خود را در طول ۶۰ بازی پشتیبانی شده توسط محیط یادگیری آرکید (Arcade Learning Environment)، برای عامل‌های آموزش یافته با چارچوب داخلی خود و به صورت فایل JSON (برای مقایسه با عامل‌های آموزش یافته در چارچوب‌های دیگر) منتشر کرده است.

همچنین، یک وب‌سایت آماده کرده که این امکان را فراهم می‌کند تا به سرعت اجراهای آموزش را برای تمامی عامل‌های آموزش یافته در تمامی ۶۰ بازی بصری مورد ارزیابی قرار داد. در تصویر زیر، اجراهای آموزشی برای ۴ عامل در بازی "Seaquest"، یکی از بازی‌های آتاری ۲۶۰۰ که توسط محیط یادگیری آرکید پشتیبانی می‌شود، آورده شده‌اند.

این منبع ارزشمند برای پژوهشگران جدید امکان پذیرش و تجزیه و تحلیل سریع و دقیق از عملکرد عامل‌های آموزش یافته را فراهم می‌کند. اطلاعات در دسترس علاوه بر افزایش شفافیت، با استفاده از فرمت JSON برای داده‌های مقایسه، امکان ارتقاء قابلیت اطمینان در مقایسه با دیگر چارچوب‌های یادگیری ماشین را فراهم می‌سازد. این ابزارها به توسعه روش‌های نوآورانه برای حل چالش‌های پیچیده در حوزه یادگیری ماشین و هوش مصنوعی کمک بزرگی می‌کنند.

۱. اجراهای آموزش برای هر ۴ عامل در بازی Seaquest. محور X تکرارها را نمایش می‌دهد که در آن هر تکرار یک میلیون فریم بازی است (۴.۵ ساعت بازی زمان واقعی). محور Y متوسط امتیازی است که در هر بازی به دست می‌آید. ناحیه سایه زده شده بازه‌های اطمینان از ۵ اجرای مستقل را نمایش می‌دهد.

گوگل با ارائه چارچوب باز متن با نام TensorFlow، به تحقیقات در حوزه یادگیری عمیق ادامه می‌دهد. این چارچوب، که امکان ایجاد مدل‌های عصبی پیچیده و انجام تحلیل‌های آماری با لوگ‌های خام را فراهم می‌کند، به همراه امکانات ترسیم نمودار با TensorBoard ارائه شده است. منابع مربوط به این چارچوب در قسمت دانلود سایت گوگل در دسترس است.

امیدواری گوگل این است که این چارچوب انعطاف‌پذیری بیشتری به پژوهشگران علوم کامپیوتر ارائه دهد، تا آن‌ها بتوانند ایده‌های خود را با اطمینان آزمایش کنند، چه به صورت افزایشی و چه به صورت رادیکال. تیم تحقیقاتی گوگل با اعلام استفاده فعال خود از این چارچوب برای پژوهش‌های خود، تاکید کرده که انعطاف‌پذیری این ابزار این امکان را به آن‌ها می‌دهد تا به سرعت ایده‌های مختلف را بازتولید کرده و بررسی نمایند.

تیم Brain گوگل نیز ابراز کرده که منتظرند از پروژه‌های جدیدی که توسط جامعه بزرگ‌تر از این چارچوب اجرا می‌شوند، با اشتیاق شاهد باشند. علاقمندان می‌توانند مخزن گیت‌هاب این پروژه را بررسی کرده، با آن کار کنند و نظرات خود را با تیم به اشتراک بگذارند.

تیم پروژه

این پروژه با همکاری یک تیم گسترده از افراد متخصص در گوگل به اتمام رسیده است. تیم اصلی این پروژه از افرادی چون "مارک جی بلمر" (Marc G. Bellemare)، "پابلو ساموئل کسترو" (Pablo Samuel Castro)، "کرلس گلادا" (Carles Gelada)، "سابهودیپ مویترا" (Subhodeep Moitra) و "سوراب کومار" (Saurabh Kumar) تشکیل شده است. علاوه بر این اعضای اصلی، تیم پروژه از همکاری‌های موثر افرادی که در آزمایش و تست این چارچوب مفید بوده‌اند نیز قدردانی می‌کند.

نظرات

برای ثبت نظر لطفا وارد حساب کاربری شوید

ورود / ثبت نام