نوشته‌ها


Warning: Illegal offset type in isset or empty in /home/behravan/public_html/wp-content/plugins/learnpress/inc/course/lp-course-functions.php on line 573

Warning: Illegal offset type in isset or empty in /home/behravan/public_html/wp-content/plugins/learnpress/inc/course/lp-course-functions.php on line 573

کاربرد کلان داده در سنکروترون

Abstract In today’s world, there is plenty of data being generated from various sources in different areas across economics, engineering and science. For instance, accelerators are able to generate 3 PB data just in one experiment. Synchrotrons industry is an example of the volume and velocity of data which data is too big to be analyzed at once. While some light sources can deal with 11 PB, they confront with data problems. The explosion of data become an important and serious issue in today’s synchrotrons world. Totally, these data problems pose in different fields like storage, analytics, visualisation, monitoring and controlling. To override these problems, they prefer HDF5, grid computing, cloud computing and Hadoop/Hbase and NoSQL.Recently, big data takes a lot of attention from academic and industry places. We are looking for an appropriate and feasible solution for data issues in ILSF basically. Contemplating on Hadoop and other up-to-date tools and components is not out of mind as a stable solution. In this Thesis, we are evaluating big data tools and tested techniques in various light source around the world for data in beamlines studying the storage and analytics aspects.In this regard, an online interview has been designed and sent to a number of beamline scientists. The result, contrary to the assumption, is that scientists are more likely to be faced with data transfer, data storage, data processing, and data analysis and analysis with highvolume or high-speed data issues, respectively. Given the data collected about the big data, and in which areas there are more tendencies to use or have already been used these tools, respectively, access to data analysis, data processing, data analysis, storage and data control.

خوشه بندی داده های جریانی با استفاده از آپاچی اسپارک

The speed of data generation is growing these days. The model of data generation has changed to multi producer- multi consumer from one producer-multi consumer, as individuals can generate and publish data easily. Traditional data base is not able to process these vast data, which are known as big data. One of the most important framework of big data is Hadoop. Hadoop consists of two parts: processing and storing parts. The main idea of processing is Map-Reduce. In this model of processing each process is divided into sub-process and the results are integrated at the end. Spark programing is the same as Map-Reduce with the difference that all operation is done in the main memory in order to increase the speed of processing. One of the important source of big data is synchrotron. Stream clustering is a procedure to categorize data in real time. Here, we are going to use stream clustering on synchrotron data by using spark programing.

مطالعه پاشندگی اسپینی در نانوساختار های مغناطیسی

فیزیک آزمایشگاهی شاخه ای از علم فیزیک بوده که در آن با مشاهده پدیده های طبیعی و جمع آوری داده و انجام آزمایش سعی در شرح پدیده های مشاهده شده و پیشبینی پدیده های جدید بر اساس از آزمایش ها و مدل های ریاضی است. آزمایشات و روش ها در این رشته بسیار متنوع بوده و مشاهده های ساده ای نظیر آزمایش کاوندیش[۱] که در آن به مطالعه نیروی گرانش بین اجسام پرداخته می شود را شامل شده و همچنین مشاهدات بسیار پیچیده تری مانند برخورد دهنده هادرونی بزرگ[۲] را در بر گرفته که یک شتاب دهنده ذره مستقر در مرکز تحقیقاتی سرن[۳] می باشد.

داده های علمی تولید شده در فرایند های مختلف مربوط به آزمایشات فیزیکی داری حجم و تنوع زیادی بوده و در بسیاری از آزمایشات مربوط به شتاب دهنده های ذرات از سرعت و نرخ تولید بسیار زیادی نیز برخوردار می باشند.

داده های علمی را به داده‌های خام ایجاد شده از آزمایشات، داده های ساخت یافته‌ی بدست آمده از فیلتر نمودن داده های خام، داده‌های انتشار یافته و داده‌های مرتبط با مقالات دسته بندی نمود [۱]. داده های خام در برخی از آزمایشات به صورت جریانی از داده ها در کسری از ثانیه توسط حسگرها دریافت می شوند، فیزیک‌دانان در تاسیسات های فیزیک آزمایشگاهی با چالش هایی برای مدیریت داده ها از جنبه های مختلفی نظیر ذخیره سازی و پردازش روبرو می باشند.

سالیانه حدود ۱۵ ترابایت داده توسط برخورد دهنده هاردونی بزرگ مستقر در سرن تولید می شود. رایانه های معمولی امکان نگهداری و پردازش چنین داده هایی را ندارند و به همین دلیل یک راه حل مناسب می تواند استفاده از چندین سامانه کامپیوتری به صورت خوشه ای جهت انجام پردازش و ذخیره داده ها باشد.

هدوپ[۴]  به عنوان یک چارچوب و محیطی برای کلان داده می باشد که با ارائه ابزار های متن باز مختلف امکان ذخیره سازی و پردازش داده های با حجم بسیار بالا را فراهم نموده است. فایل سیستم توزیع شده هدوپ[۵] با ایجاد یک سیستم فایل یکپارچه امکان استفاده از فضای ذخیره سازی رایانه های مختلف متصل به شبکه را فراهم نموده و همچنین با پیاده سازی الگوریتم نگاشت-کاهش[۶] باعث شده تا بتوان برنامه های پردازشی را بین گره های مختلف برای تحلیل داده های حجیم توزیع نمود]۲[.

پس از هدوپ پروژه اسپارک[۷] با ارائه امکان پردازش داخل حافظه سعی در بهبود عملکرد و سرعت پردازش کلان داده نمود، این ابزار نیز می تواند در کنار سایر ابزار های محیط هدوپ استفاده شود]۳[.

ما در این پایان نامه سعی داریم با استفاده از ابزارهای کلان داده راه حل هایی را برای مدیریت داده های علمی تولید شده در تاسیسات فیزیک آزمایشگاهی[۸] بپردازیم.

مطالعه نانوساختارهای مغناطیسی در طیف گسترده ای از کاربردها قابل استفاده است که ازجمله آنها می توان به ساخت حافظه های مغناطیسی (MRAM)، ساخت سنسورهای میدان مغناطیسی بسیار حساس، ایجاد منطق اسپینی قابل برنامه نویسی و ساخت فصای ذخیره سازی بسیار فشرده اشاره نمود.

در این آزمایش ما با استفاده از چارچوب میکرومغناطیس شی گرا (OOMMF) اقدام به شبیه سازی جهت گیری ممان مغناطیسی (M) در یک نانوساختار به ابعاد ۲۰۰۰ در ۵۰ در ۱ نانومتر مطابق شکل یک پرداختیم.

برای این منظور می بایست ابعاد نانو ساختار و همچنین ابعاد شبکه (mesh) را مشخص سازیم. ما در این مرحله شبکه را با اندازه های ۱x2x2‌نانومتر و همچنین ۱x1x1 نانومتر انتخاب نموده و شبیه سازی نموده ایم. برنامه شبیه ساز برآیند نیروهای مغناطیسی (M) مانند شکل ۲ را در هر شبکه بر اساس رابطه ۱ محاسبه نموده و اندازه آن را در راستای محور های x,y,z ذخیره می نماید. حال بر اساس میزان داده تولید شده و همچنین مدت زمان اجرای هر یک از این دو آزمایش می توان میزان فضای مورد نیاز برای ذخیره سازی داده ها و زمان لازم برای تولید آنها را با دقت زیاد و در مقیاس انگستروم برآورد نمود. این نتایج در جدول ۱ نشان داده شده است.

این آزمایشات در دو مرحله انجام شده ابتدا در مرحله استاتیک وضعیت اولیه ماده و جهت گیری ممان های مغناطیسی محاسبه شده و سپس این وضعیت اولیه به برنامه دینامیک داده شده تا وضعیت ممان های مغناطیسی در حضور یک موج تابیده شده محاسبه گردد.

اندازه مشتعداد مشحجم فایل استاتیکمدت زمان اجراحجم فایل داینامیکمدت زمان اجرا
۱x2x2 nm۲۵۰۰۰۴٫۵۷ MB۵۳ دقیقه۲۷٫۴ GB۲ ساعت و ۴۶ دقیقه
۱x1x1 nm۱۰۰۰۰۰۳۱٫۵ MB۱۶ ساعت و ۲۸ دقیقه۳۳۴ GB۵۹ ساعت و ۴۹ دقیقه
۵x5x5 angstrom۸۰۰۰۰۰~ ۲۵۶ MBحدود ۵ روز~ ۲۶ TBحدود ۲۰ روز
۱x2x2 angstrom۲۵۰۰۰۰۰۰~ ۴٫۵ GBحدود ۳۶ روز~ ۸۳۳ TBحدود ۲ ماه

جدول ۱- تخمین مدت زمان اجرای آزمایش و حجم فضای ذخیره سازی مورد نیاز

ب : فرضيات

داده های علمی تولید شده در تاسیسات فیزیک آزمایشگاهی دارای مشخصه های کلان داده هستند.

ابزار های کلان داده می توانند برای مدیریت داده های علمی مورد استفاده قرار گیرند.

استفاده از ابزار کلان داده می تواند برخی از چالش های مرتبط با ذخیره سازی و پردازش داده های آزمایشات فیزیکدانان را حل نماید.

ج : هدف از اجراء

آزمایشات مختلف علمی از جمله آزمایشات فیزیکی صورت گرفته در تاسیسات فیزیک آزمایشگاهی داده های عظیمی را ایجاد نموده که شامل مشخصه های متنوع و زیادی هستند، نگهداری حجم زیاد داده های ایجاد شده در برخی از این آزمایشات و پردازش آنها نیازمند توان محاسباتی بالایی بوده که معمولا از حد توان یک رایانه یا سرویس دهنده خارج می باشد. ما در این تحقیق سعی داریم تا با استفاده از ابزار محیط کلان داده  امکانی را فراهم سازیم تا نیازهای فیزیک دانان برای ذخیره سازی داده و پردازش داده ها را برطرف ساخته و بدین وسیله دقت و کیفیت تحلیل‌ها و نتایج آزمایشات را ارتقاء بخشیم.

طراحی مفهومی نرم افزار موبایل جهت کمک به سیستم کنترل سنکروترون با استفاده از واقعیت افزوده

Due to involvement of different engineering disciplines, tools and methodologies in design, construction and operation of an experimental physics facility (EPF), an integrated information system is needed to efficiently manage data. DISCS is a framework developed to address this need which includes multiple modules and services
that provide web-based management tools and APIs to access EPF related information stored in various data-
bases like Controls Configuration Database (CCDB) and Cables Database (CDB). In this paper we propose a conceptual design of a mobile application that can easily be used by technicians working at EPFs to access their required data. The proposed application would use QR code and Augmented Reality (AR) to enhance user experience.
It can also be used as a means to create a collaborative environment by providing social networking features helping technicians to share their knowledge from different facilities worldwide.

اتقال داده های حجیم

در طی فرایند های علمی صورت گرفته در آزمایشگاه های مختلف و مراکز تحقیقاتی داده های متنوعی تولید و نگهداری می شوند. ابزارهای علمی و شبیه سازهای رایانه ای داده های عظیمی را تولید و ذخیره سازی می نمایند که نیازمند روش های جدیدی برای تحلیل و مرتب سازی آنها می باشند. در مطالعه صورت گرفته در مرکز تحقیقات میکروسافت، ابعاد مختلف مدیریت داده های علمی بررسی گردیده است. در این مطالعه با اشاره به رشد نمایی و بسیار سریع داده های تولید شده و همچنین افزایش دقت دستگاه های اندازه گیری بیان می شود که توسعه الگوریتم های جدید برای کار با حجم عظیم داده ها و همچنین مسئله جستجو و یافتن مواردی که در اندازه گیری های گذشته نادیده گرفته شده اند از چالش های جدید پیش رو هستند.

در هنگام ساخت خط لوله های داده های کلان، نیازمند تزریق حجم زیادی از داده های متنوع تولید شده با سرعت بالا که به صورت جریانی وارد سیستمی نظیر هدوپ  برای پردازش می شوند هستیم از این رو یافتن ابزارهای مناسب که دارای ویژگی های قابلیت اطمینان، مقیاس پذیری و کم هزینه بودن توسعه اهمیت خاصی دارد. این ابزار ها می توانند جهت دریافت ذخیره سازی و پردازش داده های جریانی تولید شده در آزمایشات سنکروترون که از آشکارساز های مختلف دریافت می شوند کاربرد داشته باشند.

طراحی موتور جستجوی متمرکز بر حوزه شتاب دهنده

A Synchrotron as an experimental physics facility can provide the opportunity of a multi-disciplinary research and collaboration between scientists in various fields of study such as physics, chemistry etc. during the construction and operation of such facility valuable data regarding the design of the facility, instruments and conducted experiments are published and stored. It takes researchers a long time going through different results from generalized search engines to find their needed scientific information so that the design of a domain specific search engine can help researchers to find their desired information with greater precision. It also provides the opportunity to use the crawled data to create a knowledgebase and also to generate different datasets required by the researchers. There have been several other vertical search engines that are designed for scientific data search such as medical information. In this paper we propose the design of such search engine on top of the Apache Hadoop framework. Usage of Hadoop ecosystem provides the necessary features such as scalability, fault tolerance and availability. It also abstracts the complexities of search engine design by using different open source tools as building blocks, among them Apache Nutch for the crawling block and Apache Solr for indexing and query processing.

Keywords: Synchrotron, Search Engine, Information Retrieval, Big Data, Hadoop, Solr, Nutch.

A vertical search engine called HVSE has been proposed in [14], in which the authors improved topic oriented web crawler algorithms and developed a search engine based on Hadoop platform. With the decentralized Hadoop platform this search engine can have higher efficiency for massive amount of data due to ability of expanding the Hadoop cluster.

The architecture of a search engine consist of four main parts as shown in figure 1, the crawler as the first part is responsible for collection of data from web pages, then the indexer part creates a search able index of the collected raw data. The third is the query parser which pars the user’s input query and retrieves the related information. The last and forth part is the user interface which could be in the form of a web application or mobile app that facilitates the search and showing the results to the end user.

Fig. 1.  Architecture of a search engine