یک توصیه برای علاقه‌مندان هوش‌مصنوعی: یادگیری آماری

ترم پیش یه درسی داشتیم به اسم فنون آماری با خانم دکتر امین‌غفاری. این درس به‌نظرم از معدود درس‌هاییه که بشه گفت تو دوران تحصیلم مفیده بود. لااقل از جهت ایده‌هایی که بهم داد. موضوع این درس در یک کلام مبحث یادگیری آماری بود، که در واقع بستری آماری از همون مبحث یادگیری ماشینه که توی اون ابزارهای بستری خوبی برای پیداکردن توابع پیشگو در یادگیری‌های باناظر و بدون ناظره. ابزارهایی که توی مباحث یادگیری ماشین مثلا بینایی ماشین، تشخیص صدا، پرازش سیگنال و… کاربرد اساسی دارن. منبعی که برای این درس خوندیم و من هم بهتون توصیه می‌کنم  کتاب Statistical Learning نوشته‌ی Trevor Hastie. Robert Tibshirani. Jerome Friedman بود.

 لازم می‌دونم بگم نویسنده‌ی اول این کتاب که اسمش Hastie هست با اون «هستی» که تو فارسی داریم که اسم خانمه فرق می‌کنه و اینجا اسم یه آقاست در استنفورد. چون اول تصور می‌کردم یه خانمه. نمی‌دونم چرا :).

در آخر اگر به هوش‌مصنوعی و یا به‌طور خاص به یادگیری ماشین علاقه‌مندید بهتون توصیه می‌کنم این مبحث آماریو پی‌گیری کنید. لااقل ایده‌گرفتن ازش هم می‌تونه جالب باشه.
نظراتون باعث خوشحالیم خواهد بود :).

آمار، راست یا دروغ!




سه نوع دروغ وجود دارد! دروغ، دروغ خیلی کثیف، آمار.جمله منسوب به مارک‌تواین

 

قبل از هرچیزی باید اول در مورد اینکه منظورم از «آمار» چیه، اول بگم منظور من علم آماره! علمی که شاخه‌های مختلفی داره که یکیش همون آمار رسمیه که مردم بیشتر باهاش سروکار دارن. البته نه فقط این. علم آمار بخش‌های دیگه‌ای هم داره :)
توی باور عامیانه آمار همین عددهایی که به عنوان مثلا جمعیت یا نرخ بیکاری و فلان از مراکز آمار منتظر می‌شه! درحقیقت و از نظر علم آمار هم اینا نوعی از آمار (آمار رسمی) هستند! پس برای اینکه مشکلی بین رویکردهای متفاوت به تعریف «آمار» پیش نیاد، اول من نظرمو در مورد صحت آمار رسمی می‌گم و بعد در مورد «کارایی علم آمار در مقابل دید صرفاً ریاضیاتی»!
    • آمارهای رسمی:
بحث عام بین مردمه که معمولاً شامل آمارهای جمعیتی، نرخ‌ بیکاری، شاخص‌های اقتصادی همچون ضریب جینی و… می‌شود.
آمارهای رسمی معمولاً بر اساس قواعد خاصی که به شکل استاندارد موجوده با تلاش در راستای حداقل کردن خطاها جمع‌آوری می‌شوند. به‌طور کلی این قواعد به‌قدری با دقت طراحی شده‌اند که درصورت انجام شدن درست آن‌ها در دستگاه‌های اجرایی در هنگام سرشماری یا نمونه‌گیری‌های پیش یا پس از سرشماری می‌تواند میزان خطا را حداقل (نه صفر) نماید. از آن‌جایی که میزان خطا هرگز نمی‌تواند صفر شود آیا می‌شه گفت: «علم آمار دروغ می‌گوید؟» به نظر من اتفاقا این‌که آمار همواره بر ماهیت اندازه‌گیری که دارای خطا است*** تاکید می‌کنه دلیل بر صداقت آمار در بیان حتی آمار‌های رسمی است!‌ اینکه برخی مراکز آماری در برخی کشورها در بیان آمارهای رسمی به دست آمده صداقت به‌خرج نمی‌دن دلیل بر دروغ بودن آمار نیست!
*** یعنی به فرم ساده‌ی ریاضیاتی بسنده نمی‌شود و بر محاسبه‌ی توزیع خطای اندازه‌گیری تاکید می‌شه
    • علم آمار:
اول بگم که آمار استنباطی گاهی‌ مورد هجوم قرار می‌گیره چرا که همواره با سطحی از تردید در بیان نتیجه ما رو مواجه می‌کنه! بعضی‌ها میگن که علم آمار باعث سردرگمی می‌شه به همین خاطر! ولی باید گفت که توی مطالعات علمی که بی‌شمار عامل در خروجی فرایند‌ها اثرگذار هستن، اگه بخوایم بگیم که چیزی بهتر از آمار میتونه یه مساله رو فرمول شده و دقیق به ما تحویل بده خودمونو گول زدیم! در واقع آمار استنباطی با در نظر گرفتن خطایی که حاصل از ضعف انسان در مطالعه‌ی همه‌ی عوامل هست، دید مناسب رو از پیش به ما می‌ده که نتیجه‌ی به‌دست اومده ما به عنوان محقق، مستقل از رشته‌ی مطالعاتیمون، چقدر خطا رو می‌تونه تحمل کنه (یا به اصطلاحی تا چه سطحی از خطا برای ما معنی‌دار نیست و قابل قبوله).
در کل جمله‌ی مارک تواین که بالای همین پست نوشتم به نظرم بیشتر به‌معنی آسیبی که آمارهای رسمی غلط می‌زنه است نه دروغ بودن علم آمار! :)
شاید درآینده در مورد سواستفاده از آمار برای دروغ‌گویی بنویسم!
از اینکه تا اینجا رو خوندین خوشحالم. لطفاً منو از نظراتتون بی‌بهره نذارید ;)