به دلیل اندازه آن، ذخیره داده های بزرگ (BIG DATA) با استفاده از نرم افزارهای سنتی پردازش داده ها دشوار و پردازش آنها پیچیده است. به جای انتقال داده های بزرگ به محیط های محاسباتی تخصصی، سازمان ها معمولاً این داده ها را در ابرهای مدیریت شده ذخیره و تجزیه و تحلیل می کنند.
ArcGIS GeoAnalytics Engine قدرت قابلیتهای تجزیه و تحلیل فضایی Esri را به جایی میآورد که دادههای بزرگ (BIG DATA) مبتنی بر ابر سازمانها زندگی میکنند: در دریاچههای داده، انبارهای داده و پایگاههای داده. محیط های ابری پشتیبانی شده عبارتند از Microsoft Azure Synapse Analytics، Amazon EMR و Google Cloud Dataproc.
دانشمندان داده و تحلیلگران GIS مستقیماً از داخل Apache Spark، موتور پردازش داده در مقیاس بزرگ که برای تجزیه و تحلیل داده های بزرگ(BIG DATA) طراحی شده است، به GeoAnalytics Engine دسترسی دارند. این باعث میشود که تجزیه و تحلیل فضایی روی دادههای بزرگ(BIG DATA) سریعتر و کارآمدتر شود در حالی که فراتر از اصول اولیه است.
انجام تجزیه و تحلیل در جایی که داده ها ذخیره می شوند
در گذشته، داده ها باید به جایی منتقل می شدند که تجزیه و تحلیل در دسترس بود، معمولاً در محیط های تحلیل تخصصی. اما انتقال داده های انبوه هزینه زیادی دارد و زمان بر است و سیلوهای داده را ایجاد می کند.
اساساً به همین دلیل است که دانشمندان داده Spark – یک موتور تجزیه و تحلیل منبع باز که برای پردازش مقادیر زیادی داده استفاده می شود – به عنوان محیط کلان داده انتخابی خود انتخاب کردند. از محاسبات خوشهای برای افزایش سرعت پردازش دادههای بزرگ (BIG DATA) استفاده میکند در حالی که میزبان کتابخانههای مختلف توابع تحلیلی است که مستقیماً به دادههایی که در آن ذخیره میشوند تحویل داده میشوند.
GeoAnalytics Engine بومی Spark است، بنابراین از قدرت محاسباتی Spark استفاده می کند و در عین حال حجم عظیمی از داده های مکانی را به سرعت پردازش می کند. بدون GeoAnalytics Engine، پردازش مجموعه داده های بزرگ (BIG DATA) می تواند ساعت ها یا حتی روزها طول بکشد. اما تست بنچمارک انجام شده توسط Esri نشان میدهد که عملکرد GeoAnalytics Engine 10 تا 100 برابر سریعتر از سایر گزینههای تحلیل فضایی منبع باز است.
پردازش 16 میلیارد رکورد در پنج دقیقه
سازمانهای دولتی و سازمانهای تجاری اغلب با دهها میلیارد رکورد کار میکنند تا اطلاعات عملی را از دادهها به دست آورند. به عنوان مثال، داده های پوشش شبکه سلولی بسیار زیاد است و اگر تجزیه و تحلیل فضایی مناسب روی آن اعمال شود، می تواند اطلاعات زیادی را نشان دهد.
استفادههای واقعی از دادههای پوشش سلولی ناشناس شامل تعیین مکانهای پوشش رضایتبخش یا نامطلوب شبکههای تلفن همراه و یافتن تعداد افراد در یک سایت خاص برای مدت زمان خاص است. Cell Analytics، از شریک Esri Ookla، داده های بزرگی را در مورد نحوه عملکرد شبکه های سلولی در سراسر جهان هر روز جمع آوری می کند.
با استفاده از مجموعه داده ای از حدود 16 میلیارد رکورد غیرشخصی از Cell Analytics (مجموعه داده پوشش سلولی از Speedtest)، تیمی از دانشمندان داده در Esri از ابزارهای Find Hot Spots و Find Dwell Locations در GeoAnalytics Engine برای شناسایی الگوهای قدرت سیگنال سلولی و انسان استفاده کردند. حضور و تحرک استخراج، تبدیل، بارگذاری و تجزیه و تحلیل 16 میلیارد رکورد کمتر از پنج دقیقه طول کشید. سپس این تیم توانست به سرعت داشبوردهای تعاملی، برنامه های وب و موبایل، داستان های مبتنی بر نقشه و مدل های تحلیلی بسازد تا اطلاعات عملی را با سهامداران به اشتراک بگذارد.
در این سناریو، اگر دانشمندان داده از بستههای تحلیل فضایی سنتی استفاده میکردند، باید دادهها را به صورت جغرافیایی فهرستبندی میکردند که زمان قابلتوجهی را میطلبد. GeoAnalytics Engine به کاربران این امکان را میدهد که از آن مرحله بگذرند و دادههای مکانی را فوراً به کار گیرند و فرآیند رسیدن از دادههای خام به نتایج عملی را سادهتر کند.
این بدان معنی است که تجزیه و تحلیل داده ها می تواند بلافاصله شروع شود. کاربران می توانند به جای از دست دادن زمان ارزشمند برای جابجایی و آماده سازی داده ها، بر پشتیبانی از ماموریت در دست تمرکز کنند. و پس از تولید، نتایج تجزیه و تحلیل به راحتی قابل ارتباط است تا ذینفعان بتوانند عمل کنند.
دیدن تصویر کامل
GeoAnalytics Engine کاربران را قادر می سازد تا تحلیل های جامعی از موقعیت های خاص ایجاد کنند. دارای کتابخانه ای از بیش از 120 توابع و ابزار تجزیه و تحلیل – از ابزارهای تبدیل ساده و تجمیع فضایی تا الگوریتم های آماری پیشرفته که در بسته های منبع باز موجود نیستند – در یک گردش کار استاندارد تجزیه و تحلیل کلان داده ها. بنابراین، دانشمندان داده و تحلیلگران GIS دیگر مجبور نیستند بسته های تجزیه و تحلیل فضایی را با هم وصله کنند تا تصویر کاملی از یک موقعیت بدست آورند.
برای انجام تجزیه و تحلیل کامل تصویر با GeoAnalytics Engine، دانشمندان داده در Esri اطلاعات عمومی را از وبسایت دادههای باز شهر نیویورک بهدست آوردند تا ببینند که در کجا شکایتهای نویز در تعداد زیاد رخ میدهد. مقامات شهری میتوانند از نتایج تحلیلی مانند این برای شناسایی مکانهایی که نیاز به استفاده از منابع دستکاری نویز بیشتری دارد استفاده کنند.
در نیویورک، ساکنان میتوانند با مرکز خدمات مشتریان 311 شهر تماس بگیرند یا پیامی ارسال کنند تا شکایتهای صوتی را مطرح کنند (و به سایر خدمات شهری غیر اضطراری دسترسی پیدا کنند). تیم Esri برای انجام تجزیه و تحلیل، 27 میلیون پرونده شکایت نویز را برای یک دوره 10 ساله به دست آورد.
اگر اعضای تیم برای پاسخ دادن به سؤال اصلی خود به تجزیه و تحلیل سنتی متکی بودند، می توانستند از داده های 311 برای تعیین اینکه آیا شکایات نویز افزایش یافته، کاهش یافته یا ثابت مانده اند استفاده می کردند، اما یافتن اینکه کجاست بسیار دشوارتر بود. و اینکه شکایات چه زمانی رخ داده است و چه مدت طول کشیده است تا به آنها پاسخ داده شود. اینجاست که تحلیل فضایی وارد میشود.
با استفاده از GeoAnalytics Engine برای پردازش دادهها، تیم یک نقشه هگزبین ایجاد کرد تا خوشههایی از 311 شکایت نویز را به همراه زمانهای پاسخ مربوط به آنها نشان دهد. سطلهای تیرهتر روی نقشه، مناطقی را نشان میدهند که پاسخگویی مقامات شهری به شکایات مربوط به سر و صدا بیشتر طول میکشد که نشاندهنده کارآمدی کمتر خدمات 311 است.
ادامه به تکامل تجزیه و تحلیل فضایی کلان داده(BIG DATA)
از آنجایی که سازمانها حجم بیشتری از دادههای مکانی را به دست میآورند که نیاز به پردازش و تجزیه و تحلیل دارند، قابلیتهای GeoAnalytics Engine همچنان به رشد خود ادامه میدهند. نسخههای آینده بر افزودن ابزارها و توابع، پیشبرد نحوه ورود و به اشتراکگذاری دادهها از موتور GeoAnalytics و افزایش قابلیتهای تجسم تمرکز خواهند کرد.
(BIG DATA) (BIG DATA) (BIG DATA) (BIG DATA) (BIG DATA) (BIG DATA) (BIG DATA) (BIG DATA) (BIG DATA) (BIG DATA) (BIG DATA)
بیشتر بدانید
با ArcGIS GeoAnalytics Engine شروع کنید.