داده حجیم :: علی شکیبا

۴ مطلب با موضوع «داده حجیم» ثبت شده است

کامپایل و اجرای برنامه‌های هدوپ

module load hadoop2.6
module load jdk-11.0.2

کامپایل فایل

export CLASSPATH="$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.6.0.jar:$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-common-2.6.0.jar:$HADOOP_HOME/share/hadoop/common/hadoop-common-2.6.0.jar:~/hadoop/MyCodes/*:$HADOOP_HOME/lib/*"
/opt/java/jdk1.8.0_144/bin/javac -d .  *.java

تولید فایل jar با استفاده از Manifest.txt با محتوای

Main-Class: SalesCountry.SalesCountryDriver

/opt/java/jdk1.8.0_144/bin/jar cfm FinalPackageName.jar Manifest.txt PackageName/*.class

اجرای برنامه هدوپ

hadoop jar ProductSalePerCountry.jar /ali.shakiba/data.csv /ali.shakiba/output.log

۰ نظر

۰ ۲۹ تیر ۹۸ ، ۰۱:۲۹

علی شکیبا

حل مشکل مجوز در HDFS در Hadoop2.6

دستورات زیر را اجرا می‌کنیم:

# sudo -u hadoop /opt/hadoop-2.6.0/bin/hdfs dfs -mkdir /ali.shakiba
# sudo -u hadoop /opt/hadoop-2.6.0/bin/hdfs dfs -chown ali.shakiba /ali.shakiba

و برای قرار دادن اطلاعات در سیستم فایل:

$ hdfs dfs -mkdir /ali.shakiba/data
$ hdfs dfs -copyFromLocal hello.txt /ali.shakiba/data/

۰ نظر

۰ ۲۸ تیر ۹۸ ، ۲۳:۴۱

علی شکیبا

اجرای برنامه های fast.ai در Google COLAB

فقط کافی است کد زیر در ابتدای notebook قرار گیرد:

!pip install fastai
!apt-get -qq install -y libsm6 libxext6 && pip install -q -U opencv-python
import cv2
from os import path
from wheel.pep425tags import get_abbr_impl, get_impl_ver, get_abi_tag
platform = '{}{}-{}'.format(get_abbr_impl(), get_impl_ver(), get_abi_tag())

accelerator = 'cu80' if path.exists('/opt/bin/nvidia-smi') else 'cpu'

!pip install -q http://download.pytorch.org/whl/{accelerator}/torch-0.3.0.post4-{platform}-linux_x86_64.whl torchvision
import torch
!pip install Pillow==4.0.0
!pip install image
%matplotlib inline
from fastai.imports import *

۰ نظر

۰ ۰۵ شهریور ۹۷ ، ۱۶:۴۰

علی شکیبا

کاهش حجم داده

مطالعه این خبر بهانه‌ای برای نوشتن این یادداشت شد. قبلا هم با داده‌های حجیم کار کرده‌ام. وجه مشترک پردازش داده‌های حجیم دو چیز است! یعنی دو چیز را اگر از متخصصین پردازش داده‌های حجیم بگیریم، اکثر الگوریتم‌هایشان کار نخواهد کرد! اولی توابع درهم‌ساز و دومی نمونه‌گیری تصادفی!

خبری که ذکر آن رفت، در پایگاه خبری دانشگاه MIT آمده است، تحت عنوان «برای مدیریت داده‌ی حجیم، آن را کوچک کن!» و بر مبنای مقاله http://arxiv.org/abs/1412.0588 است که در کنفرانس ACM Symposium of Theory of Computing در ماه ژوئن ارائه شده است. صفحه شخصی یکی از نویسندگان این مقاله، http://math.mit.edu/~rpeng/ است. البته ظاهرا این نویسندگان، مقاله دیگری نیز کار کرده اند http://arxiv.org/abs/1408.5099 که بحثش نمونه گیری یکنواخت از یک ماتریس است.

در این مقاله، هدف کاهش تعداد نمونه‌های یک مساله، یعنی حجم داده و نه بعد آن، است. از این جهت، بیشتر مشابه مقاله زیر است که اخیرا چاپ کرده ام و بخشی از رساله ی دکتری ام است.

A. Shakiba, M.R. Hooshmandasl, Data volume reduction in covering approximation spaces with respect to twenty-two types of covering based rough sets, International Journal of Approximate Reasoning, Volume 75, August 2016, Pages 13-38, ISSN 0888-613X, http://dx.doi.org/10.1016/j.ijar.2016.04.002.

(http://www.sciencedirect.com/science/article/pii/S0888613X16300433)

اما در مقام مقایسه، کار من روی داده های سمبلیک است در صورتی که این مقاله با داده های عددی کار می کند.

۰ نظر

۰ ۰۸ ارديبهشت ۹۵ ، ۱۸:۰۰

علی شکیبا

علی شکیبا

علی شکیبا

تحصیلات دانشگاهی

ارائه‌ها

مدیر شبکه و سیستم

لینوکس

برنامه‌نویسی

LaTeX

دلنوشته‌ها!

پایتون

شخصی