استفاده از روش تربیت سگ در توسعه الگوریتمهای یادگیری ماشین
یادگیری ماشین یا Machine Learning چیست؟
انسانها و بسیاری از جانوران، با هوشی شهودی متولد میشوند و این هوش آنها را قادر میسازد تا از تجربیات و تعامل با محیط بیاموزند. اما رباتها و کامپیوترها نیاز دارند تا برای انجام تمام وظایفشان برنامه نویسی شوند.
در این میان یادگیری ماشین (Machine Learning) یکی از مباحث نوین در هوش مصنوعی است که به طراحی الگوریتمهایی میپردازد که کامپیوترها و رباتها را قادر میسازد تا بدون اینکه تمام جزییات را برایشان برنامه نویسی کنیم، بتوانند از اشتباهاتشان برای بهتر انجام دادن وظایفشان بیاموزند.
پروژه رباتیک محققان علوم کامپیوتر و الهام از روش تربیت سگ
تیمی تحقیقاتی متشکل از دانشجویان دکترای رشته علوم کامپیوتر در دانشگاه جان هاپکینز با استفاده از بعضی تکنیکهایی که برای آموزش به سگها استفاده میشود، ایده کارایی برای نوشتن الگوریتمهای یادگیری ماشین گرفتهاند. این تیم توانستهاند این الگوریتمها را بر روی رباتی به نام اسپات (Spot) پیاده کنند.
ربات اسپات متشکل از یک بازوی رباتیک Universal و یک گریپر یا دست رباتیکی است که در انتهای بازو نصب شده است. در این پروژه تحقیقاتی وظیفه ربات اسپات برداشتن تعدادی مکعب و چیدن آنها بر روی یکدیگر بود. این ربات با بهره گرفتن از این الگوریتمها توانسته است تا مهارتی را که به یک ماه زمان برای یادگیری نیاز داشت، تنها در عرض دو روز بیاموزد.
تیم تحقیقاتی چگونه از تربیت سگ ایده گرفت؟
دانشجوی دکترای این دانشگاه که در نگهداری و آموزش سگ تجربه داشته است از روش تربیتی تشویق محور سخن میگوید. روش آموزشی که باعث شده تا سگش هنگام قدم زدن با شنیدن دستور “رهایش کن (leave it) ” دست از تعقیب سنجابها بردارد.
او میگوید که در این روش سگش تنها در ازای عمل به دستور او، علاوه بر خوراکی همیشگی یک تکه پنیر نیز به عنوان جایزه دریافت میکرده است. این روش، الهام بخش تیم تحقیقاتی او برای افزایش مهارت یادگیری ربات اسپات بوده است.
محققان چگونه شیوه آموزش سگ را برای آموزش ربات بهکار بردند؟
همانگونه که یک سگ برای عمل به دستور صاحبش به عنوان تشویق خوراکی جایزه میگیرد، محققان نیز الگوریتمی طراحی کردند که ربات اسپات در ازای انجام درست هر مرحله از وظیفهاش (برداشتن و چیدن مکعبها بر روی یکدیگر) امتیازهای عددی بگیرد. در واقع با این الگوریتم یادگیری ماشین، وقتی ربات به برداشتن و چیدن مکعبها میپرداخت، به سرعت یادگرفت که با انجام درست هر مرحله امتیازات بیشتری بدست میآورد و با انجام اشتباه آن هیچ امتیازی نخواهد گرفت. به همین دلیل این الگوریتم باعث شد تا ربات دیگر اشتباهات قبلی خود را تکرار نکند و رفتار درست را برای بدست آوردن پاداش بیشتر، فرا بگیرد.
یکی از محققان می گوید:
“تکنیک آموزشی تشویق محور نه تنها در کار آموزش به ربات ها درست کار کرد، بلکه باعث شد وظیفهای را که ربات برای انجام درستش به هفتهها زمان نیاز داشت، تنها در عرض دو روز بیاموزد.”
پی نوشت پیشروبات:
روشی که این تیم تحقیقاتی استفاده نمودند در واقع همان روش “یادگیری تقویتی” یا Reinforcement Learning میباشد. بکارگیری این روش در مباحث یادگیری ماشین متداول است. در بکارگیری از این روش ربات طبق الگوریتمی که برایش طراحی شده است و در طی فرآیندی مبتنی بر آزمون و خطا، برای بدست آوردن Reward یا پاداش بیشتر، اشتباهات قبلی خود را تکرار نمیکند و رفتارهایی را که منجر به بیشتر شدن این پاداش شود را به عنوان رفتار درست تکرار خواهد کرد. از نظر ریاضی منظور از اخذ پاداش در این روش، ماکسیمم شدن مقدار عددی تابع پاداش (Reward Function) میباشد.
منبع: Johns Hopkins University