علی شکیبا

دفتر یادداشت دیجیتال برای هر چیز مفید!

۲ مطلب با کلمه‌ی کلیدی «داده کاوی» ثبت شده است

مطالعه این خبر بهانه‌ای برای نوشتن این یادداشت شد. قبلا هم با داده‌های حجیم کار کرده‌ام. وجه مشترک پردازش داده‌های حجیم دو چیز است! یعنی دو چیز را اگر از متخصصین پردازش داده‌های حجیم بگیریم، اکثر الگوریتم‌هایشان کار نخواهد کرد! اولی توابع درهم‌ساز و دومی نمونه‌گیری تصادفی!

خبری که ذکر آن رفت، در پایگاه خبری دانشگاه MIT آمده است، تحت عنوان «برای مدیریت داده‌ی حجیم، آن را کوچک کن!» و بر مبنای مقاله http://arxiv.org/abs/1412.0588 است که در کنفرانس ACM Symposium of Theory of Computing در ماه ژوئن ارائه شده است. صفحه شخصی یکی از نویسندگان این مقاله، http://math.mit.edu/~rpeng/ است. البته ظاهرا این نویسندگان، مقاله دیگری نیز کار کرده اند http://arxiv.org/abs/1408.5099 که بحثش نمونه گیری یکنواخت از یک ماتریس است.

در این مقاله، هدف کاهش تعداد نمونه‌های یک مساله، یعنی حجم داده و نه بعد آن، است. از این جهت، بیشتر مشابه مقاله زیر است که اخیرا چاپ کرده ام و بخشی از رساله ی دکتری ام است.

A. Shakiba, M.R. Hooshmandasl, Data volume reduction in covering approximation spaces with respect to twenty-two types of covering based rough sets, International Journal of Approximate Reasoning, Volume 75, August 2016, Pages 13-38, ISSN 0888-613X, http://dx.doi.org/10.1016/j.ijar.2016.04.002.

(http://www.sciencedirect.com/science/article/pii/S0888613X16300433)

اما در مقام مقایسه، کار من روی داده های سمبلیک است در صورتی که این مقاله با داده های عددی کار می کند.

۰ نظر موافقین ۱ مخالفین ۰ ۰۸ ارديبهشت ۹۵ ، ۱۸:۰۰
علی شکیبا

برای نصب خیلی ساده می توانید از دستورات استاندارد Python برای نصب استفاده کنید! اما اگر ابزاری مانند apt-get در دبیان می خواهید، conda در خدمت شما است. البته برای نصب برخی از بسته ها مجبور(!) می شوید از pip یا easy_install استفاده کنید، اما هر چه باشد، نصب از روی کد منبع کابوس است و کابوس! علی الخصوص هنگامی که سرتان هم درد می کند! بگذریم ...

برای نصب کتابخانه textblob برای anaconda، می توانید از یکی از دو راه زیر استفاده کنید. اولی برای افرادی است که از MacOS استفاده می کنند (ما که کاری به MacOS نداریم!) و دومی برای بنده و امثال بنده است که عمده وقتشان را با ترمینال لینوکس پر می کنند و شاید هم ویندوز (رو سیاهم خجالتی )!

خوب، اول اولی را می گویم که ساده است!

$ conda config --add channels https://conda.binstar.org/sloria
$ conda install textblob
$ python -m textblob.download_corpora

حال نوبت به دومی می رسد که بازهم ساده است! فقط یک نکته! اگر مثل بنده از چندین توزیع مختلف پایتون مثل anaconda و python.org یا نسخه های مختلف استفاده می کنید، لازم است تا به جای استفاده از دستور pip، مسیر کامل توزیع مورد نظر را بدهید و یا با استفاده از دستور update-alternatives توزیع مورد نظر را در اولویت قرار دهید (بیان بهتر است ویرایشگر متن خود را به auto-completion مجهز کند!). بقیه ساده است:

$ pip install -U textblob
$ python -m textblob.download_corpora

پس از نصب، لازم است پیکره مورد استفاده این بسته را نیز دریافت کنید و خط دوم به همین دلیل است. اگر سرعت اینترنت یا حجم محدودی دارید، می توانید به جای خط دوم از این دستور استفاده کنید:

$ python -m textblob.download_corpora lite

تمام است! از پایتون خود لذت ببرید!

۰ نظر موافقین ۰ مخالفین ۰ ۲۱ آذر ۹۳ ، ۰۰:۲۹
علی شکیبا