کاهش حجم داده
مطالعه این خبر بهانهای برای نوشتن این یادداشت شد. قبلا هم با دادههای حجیم کار کردهام. وجه مشترک پردازش دادههای حجیم دو چیز است! یعنی دو چیز را اگر از متخصصین پردازش دادههای حجیم بگیریم، اکثر الگوریتمهایشان کار نخواهد کرد! اولی توابع درهمساز و دومی نمونهگیری تصادفی!
خبری که ذکر آن رفت، در پایگاه خبری دانشگاه MIT آمده است، تحت عنوان «برای مدیریت دادهی حجیم، آن را کوچک کن!» و بر مبنای مقاله http://arxiv.org/abs/1412.0588 است که در کنفرانس ACM Symposium of Theory of Computing در ماه ژوئن ارائه شده است. صفحه شخصی یکی از نویسندگان این مقاله، http://math.mit.edu/~rpeng/ است. البته ظاهرا این نویسندگان، مقاله دیگری نیز کار کرده اند http://arxiv.org/abs/1408.5099 که بحثش نمونه گیری یکنواخت از یک ماتریس است.
در این مقاله، هدف کاهش تعداد نمونههای یک مساله، یعنی حجم داده و نه بعد آن، است. از این جهت، بیشتر مشابه مقاله زیر است که اخیرا چاپ کرده ام و بخشی از رساله ی دکتری ام است.
A. Shakiba, M.R. Hooshmandasl, Data volume reduction in covering approximation spaces with respect to twenty-two types of covering based rough sets, International Journal of Approximate Reasoning, Volume 75, August 2016, Pages 13-38, ISSN 0888-613X, http://dx.doi.org/10.1016/j.ijar.2016.04.002.
(http://www.sciencedirect.com/science/article/pii/S0888613X16300433)
اما در مقام مقایسه، کار من روی داده های سمبلیک است در صورتی که این مقاله با داده های عددی کار می کند.
اگر قبلا در بیان ثبت نام کرده اید لطفا ابتدا وارد شوید، در غیر این صورت می توانید ثبت نام کنید.