علی شکیبا

دفتر یادداشت دیجیتال برای هر چیز مفید!

۲ مطلب با کلمه‌ی کلیدی «پردازش متن» ثبت شده است

برای گذراندن درس Text Retrieval and Search Engines و انجام تمرین‌های عملی آن نیاز به نصب Meta-toolkit است که یک کتابخانه ++C برای پیاده‌سازی سیستم‌های بازیابی متن است. برای نصب آن در Ubuntu 14.04 LTS x64 از روش زیر استفاده کردم. لازم به ذکر است که این بسته در ویندوز به صورت رسمی پشتیبانی نمی‌شود (لیستی از سکوهای مورد پشتیبانی و نحوه نصب).

برای نصب، لازم است تا ابتدا یک نسخه از کد منبع را بر روی سیستم خود دانلود کنیم

git clone https://github.com/meta-toolkit/meta.git

برای کامپایل این بسته نیاز به cmake داریم. لازم است تا به apt-get مخزن مربوطه را معرفی کنیم

sudo add-apt-repository ppa:george-edison55/cmake-3.x

حال پیش‌نیازها را نصب می‌کنیم:

sudo apt-get update
sudo apt-get install software-properties-common cmake libicu-dev

سپس به محل دانلود بسته meta رفته و پیش‌نیازهای آن را دریافت می‌کنیم (این مرحله خیلی مهم است!)

git submodule update --init --recursive

حال نوبت به نصب بسته می‌رسد

mkdir build
cd build
cp ../config.toml .
cmake ../ -DCMAKE_BUILD_TYPE=Release
make

در صورتی که فرایند نصب موفق باشد، خروجی دستور ذیل

ctest --output-on-failure

باید به صورت زیر باشد

Test project /home/ali/Downloads/meta/build
Start 1: analyzers
1/14 Test #1: analyzers ........................ Passed 0.30 sec
Start 2: stemmers
2/14 Test #2: stemmers ......................... Passed 0.33 sec
Start 3: parallel
3/14 Test #3: parallel ......................... Passed 2.90 sec
Start 4: inverted-index
4/14 Test #4: inverted-index ................... Passed 3.04 sec
Start 5: forward-index
5/14 Test #5: forward-index .................... Passed 2.34 sec
Start 6: string-list
6/14 Test #6: string-list ...................... Passed 0.00 sec
Start 7: vocabulary-map
7/14 Test #7: vocabulary-map ................... Passed 0.00 sec
Start 8: libsvm-parser
8/14 Test #8: libsvm-parser .................... Passed 0.00 sec
Start 9: classifiers
9/14 Test #9: classifiers ...................... Passed 8.89 sec
Start 10: rankers
10/14 Test #10: rankers .......................... Passed 18.67 sec
Start 11: ir-eval
11/14 Test #11: ir-eval .......................... Passed 1.01 sec
Start 12: compression
12/14 Test #12: compression ...................... Passed 0.02 sec
Start 13: graph
13/14 Test #13: graph ............................ Passed 0.01 sec
Start 14: parser
14/14 Test #14: parser ........................... Passed 0.01 sec

100% tests passed, 0 tests failed out of 14
Total Test time (real) = 37.59 sec

پی‌نوشت: در هنگام نصب، من حواسم به اجرای دستور

git submodule update --init --recursive

نبود، بنابراین کلی خطای متفرقه دریافت کردم و تقریبا 2 ساعت درگیر رفع خطا بودم تا اینکه دستکاری فایل‌ها به حدی رسید که ترجیح دادم یک نسخه جدید را build کنم! اینجا بود که فهمیدم خطا از کجا بوده! بنابراین این پست را به عنوان یک یادداشت در بلاگ درج کردم.

۰ نظر موافقین ۰ مخالفین ۰ ۰۸ فروردين ۹۴ ، ۰۲:۱۵
علی شکیبا

برای نصب خیلی ساده می توانید از دستورات استاندارد Python برای نصب استفاده کنید! اما اگر ابزاری مانند apt-get در دبیان می خواهید، conda در خدمت شما است. البته برای نصب برخی از بسته ها مجبور(!) می شوید از pip یا easy_install استفاده کنید، اما هر چه باشد، نصب از روی کد منبع کابوس است و کابوس! علی الخصوص هنگامی که سرتان هم درد می کند! بگذریم ...

برای نصب کتابخانه textblob برای anaconda، می توانید از یکی از دو راه زیر استفاده کنید. اولی برای افرادی است که از MacOS استفاده می کنند (ما که کاری به MacOS نداریم!) و دومی برای بنده و امثال بنده است که عمده وقتشان را با ترمینال لینوکس پر می کنند و شاید هم ویندوز (رو سیاهم خجالتی )!

خوب، اول اولی را می گویم که ساده است!

$ conda config --add channels https://conda.binstar.org/sloria
$ conda install textblob
$ python -m textblob.download_corpora

حال نوبت به دومی می رسد که بازهم ساده است! فقط یک نکته! اگر مثل بنده از چندین توزیع مختلف پایتون مثل anaconda و python.org یا نسخه های مختلف استفاده می کنید، لازم است تا به جای استفاده از دستور pip، مسیر کامل توزیع مورد نظر را بدهید و یا با استفاده از دستور update-alternatives توزیع مورد نظر را در اولویت قرار دهید (بیان بهتر است ویرایشگر متن خود را به auto-completion مجهز کند!). بقیه ساده است:

$ pip install -U textblob
$ python -m textblob.download_corpora

پس از نصب، لازم است پیکره مورد استفاده این بسته را نیز دریافت کنید و خط دوم به همین دلیل است. اگر سرعت اینترنت یا حجم محدودی دارید، می توانید به جای خط دوم از این دستور استفاده کنید:

$ python -m textblob.download_corpora lite

تمام است! از پایتون خود لذت ببرید!

۰ نظر موافقین ۰ مخالفین ۰ ۲۱ آذر ۹۳ ، ۰۰:۲۹
علی شکیبا