علی شکیبا

دفتر یادداشت دیجیتال برای هر چیز مفید!

۳ مطلب با کلمه‌ی کلیدی «داده حجیم» ثبت شده است

جمعه؛ ۲۹ بهمن ۹۵

به دلیل عدم حضور دانشجویان؛ تشکیل نشد.

جمعه؛ ۶ اسفند ۹۵

معرفی درس؛ چهارچوب Map-Reduce و شیوه‌ی محاسبه در این قالب؛ حل مثال محاسبه‌ی فرکانس لغات در یک فایل متنی بزرگ (تا پایان اسلاید ۴۲)

جمعه؛ ۱۳ اسفند

به دلیل عدم حضور دانشجویان؛ تشکیل نشد. جبرانی آن در جلسات بعد برگزار می‌شود.

۰ نظر موافقین ۰ مخالفین ۰ ۲۹ بهمن ۹۵ ، ۱۳:۵۸
علی شکیبا

پنج‌شنبه؛ ۲۸ بهمن ۹۵

معرفی درس؛ قاعده‌ی Boneferroni به همراه یک مثال؛ معرفی طرح Map-Reduce و مشخصات مربوطه؛ حل یک مثال شمارش کلمات در یک فایل متنی حجیم با پیاده‌سازی Map و Reduce. (تا پایان اسلاید ۳۸)

پنج‌شنبه؛ ۵ اسفند ۹۵

تا پایان اسلاید ۴۹ - ضرب ماتریس در چهارجوب Map-Reduce به عنوان تمرین واگذار شد.

۰ نظر موافقین ۰ مخالفین ۰ ۲۸ بهمن ۹۵ ، ۲۰:۵۰
علی شکیبا

مطالعه این خبر بهانه‌ای برای نوشتن این یادداشت شد. قبلا هم با داده‌های حجیم کار کرده‌ام. وجه مشترک پردازش داده‌های حجیم دو چیز است! یعنی دو چیز را اگر از متخصصین پردازش داده‌های حجیم بگیریم، اکثر الگوریتم‌هایشان کار نخواهد کرد! اولی توابع درهم‌ساز و دومی نمونه‌گیری تصادفی!

خبری که ذکر آن رفت، در پایگاه خبری دانشگاه MIT آمده است، تحت عنوان «برای مدیریت داده‌ی حجیم، آن را کوچک کن!» و بر مبنای مقاله http://arxiv.org/abs/1412.0588 است که در کنفرانس ACM Symposium of Theory of Computing در ماه ژوئن ارائه شده است. صفحه شخصی یکی از نویسندگان این مقاله، http://math.mit.edu/~rpeng/ است. البته ظاهرا این نویسندگان، مقاله دیگری نیز کار کرده اند http://arxiv.org/abs/1408.5099 که بحثش نمونه گیری یکنواخت از یک ماتریس است.

در این مقاله، هدف کاهش تعداد نمونه‌های یک مساله، یعنی حجم داده و نه بعد آن، است. از این جهت، بیشتر مشابه مقاله زیر است که اخیرا چاپ کرده ام و بخشی از رساله ی دکتری ام است.

A. Shakiba, M.R. Hooshmandasl, Data volume reduction in covering approximation spaces with respect to twenty-two types of covering based rough sets, International Journal of Approximate Reasoning, Volume 75, August 2016, Pages 13-38, ISSN 0888-613X, http://dx.doi.org/10.1016/j.ijar.2016.04.002.

(http://www.sciencedirect.com/science/article/pii/S0888613X16300433)

اما در مقام مقایسه، کار من روی داده های سمبلیک است در صورتی که این مقاله با داده های عددی کار می کند.

۰ نظر موافقین ۱ مخالفین ۰ ۰۸ ارديبهشت ۹۵ ، ۱۸:۰۰
علی شکیبا