معرفی مدل سازی داده ها در Tableau
شاید Tableau را به عنوان یک ابزار تجزیه و تحلیل سلف سرویس عالی بشناسید که هم تجزیه و تحلیل قدرتمندی ارائه می دهد و هم استفاده از آن آسان است. همچنین ممکن است فکر کنید که Tableau به نیازهای کلیدی تجزیه و تحلیل سازمانی یعنی امنیت داده، استحکام مدل داده و قابلیت نگهداری داده ها کمک می کند.
در این مقاله، یاد خواهید گرفت که Tableau تمام این الزامات داده های کلیدی را پوشش داده است. شما یاد خواهید گرفت که چگونه داده ها برای تجزیه و تحلیل و عملکرد Tableau به بهترین شکل ساختار یافته اند و عملکرد Tableau Prep Builder و Tableau Desktop و نقشی که هر کدام در ساخت مدل های داده ایفا می کنند را درک خواهید کرد. سپس این مدلهای داده را در Tableau Server یا Online منتشر میکنید و آنها را برای عملکرد، حاکمیت و امنیت بهینه میکنید.
در پایان این مقاله، شما تمام استراتژیها و تکنیکهای مورد نیاز را خواهید داشت تا افراد سازمان خود را قادر کنید تا بدون در نظر گرفتن سطح تخصصشان، با دادهها به سؤالات خود پاسخ دهند. همچنین تماس های دریافتی از همین افراد در مورد داده ها و داشبوردهای گیج کننده که دیر بارگذاری می شوند را به شدت کاهش خواهید داد.
Data Modeling
Tableau با سایر ابزارهای BI بسیار متفاوت است زیرا مدل می تواند ضمنی یا صریح باشد. به عنوان مثال، بسیاری از تحلیلگران Tableau Desktop را باز می کنند، به داده ها متصل می شوند و بلافاصله شروع به ایجاد تصاویر بصری می کنند. در این مثال، Tableau به طور ضمنی یک مدل داده ایجاد کرد (یعنی یک اتصال ایجاد کرد، یک پرس و جو را اجرا کرد و ابرداده ایجاد کرد) بدون اینکه یک تحلیلگر برای ایجاد مدل کاری انجام دهد.
این مدل سازی داده های ضمنی زمانی به خوبی کار می کند که منبع داده شما قبلاً برای تجزیه و تحلیل آماده شده باشد و شما فردی باشید که نمودارها و داشبوردها را ایجاد می کنید. اغلب، دادههای ما به این شکل ساخته نمیشوند. از منابع مختلف می آید و نیاز به ترکیب و تعریف به روش های معنی دار دارد. در این موارد، Tableau ابزارهایی را برای شما فراهم میکند تا مدلهای دادهای ایجاد کنید که مقیاسپذیر، ایمن و برای مهارتهای مختلف طبقه وسیعی از توسعهدهندگان و مصرفکنندگان باشد.
Tableau از یک مدل داده به عنوان پایه ای برای ایجاد تمام تحلیل ها استفاده می کند. یک مدل داده Tableau شامل موارد زیر است:
- اطلاعات اتصال به منبع داده زیربنایی.
- پرس و جوهای مورد نیاز برای بازیابی داده ها.
- فراداده اضافی، یا دادههای مربوط به دادهها، به دادههای اساسی اضافه شده است. فراداده می تواند شامل نام فیلدهای قابل خواندن تر، انواع فیلدها، گروه بندی داده ها در سلسله مراتب، و محاسباتی باشد که در داده های اصلی نیستند.
Tableau زمانی بهترین عملکرد را دارد که دادههای شما در قالب جدول صفحهگسترده سنتی باشد – یعنی، Tableau فرض میکند که ردیف اول دادههای شما شامل سرصفحههای ستون است و سرصفحه هر ستون 1:1 به یک نام فیلد نگاشت میشود، با ردیفهای اضافی از دادهها که هر کدام حاوی آن هستند. یک رکورد از داده ها اگر داده های زیربنایی به این شکل قالب بندی نشوند، تجزیه و تحلیل در Tableau بسیار دشوار می شود و عملکرد آسیب می بیند. برای رفع این مشکل، میتوانید دادههای خود را در قالبی مدلسازی کنید که با Tableau بهترین کار را داشته باشد. بهترین شیوهها برای مدلسازی صحیح دادهها، محتوای اصلی این مقاله است.
الزامات فنی
Tableau Desktop (و Tableau Prep Builder نسخه 2022.2 یا بالاتر در فصلهای آینده) نسخه 2022.2 یا بالاتر برای تکمیل تمرینهای این فصل مورد نیاز است.
اگر نسخه مجاز Tableau Desktop را ندارید، می توانید یک نسخه آزمایشی رایگان 14 روزه را از https://www.tableau.com/products/desktop دریافت کنید.
جایگزین دیگر Tableau Public است. نسخه رایگان Tableau Public Desktop تقریباً همه ویژگیهای مشابه نسخه پولی را دارد، به استثنای تعداد کمی از گزینههای اتصال منبع داده، و خروجی را فقط میتوان در سایت Tableau Public ذخیره کرد. با این حال، اغلب دارای ویژگی های کافی برای انجام تجزیه و تحلیل بصری است تا زمانی که داده ها محرمانه نیستند. نسخه دسکتاپ عمومی Tableau را می توانید در https://public.tableau.com/s/ پیدا کنید.
هنگام اتصال به داده ها در Tableau Desktop چه اتفاقی می افتد؟
هنگامی که در Tableau Desktop به داده ها متصل می شوید، Tableau شروع به تفسیر داده های شما می کند. ابتدا برای هر ستون از داده های شما یک فیلد ایجاد می کند. دوم، به هر یک از فیلدها یک نوع داده اختصاص می دهد. Tableau این کار را انجام می دهد زیرا توسط یک فناوری پرس و جو اختصاصی به نام VizQL پشتیبانی می شود. VizQL فناوری است که زیربنای Tableau است و با ایجاد خودکار تجسم برای کاربر، تجربه تجزیه و تحلیل بصری را امکان پذیر می کند. این بسیار متفاوت از بسیاری از ابزارهای هوش تجاری است که به کاربر متکی است تا به ابزار بگوید چگونه میخواهد دادهها از طریق انتخاب یک نوع نمودار تجسم شوند.
برای اینکه VizQL کار کند، Tableau باید نوع هر فیلد را بداند. دو نوع میدان اصلی در Tableau گسسته و پیوسته هستند:
- فیلدهای گسسته (Discrete fields): آبی رنگی در تبلو. طبق تعریف فرهنگ لغت آکسفورد، گسسته به معنای مستقل از چیزهای دیگر از همان نوع است. وقتی فیلدهای گسسته روی تجسم Tableau قرار میگیرند، معمولاً یک سرصفحه ایجاد میکنند – شبیه به سرفصل ستون در یک صفحه گسترده.
- زمینه های پیوسته (Continuous fields): سبز رنگی در تبلو. مجدداً، با استفاده از فرهنگ لغت آکسفورد، پیوسته به صورت وقوع یا وجود برای یک دوره زمانی بدون وقفه تعریف می شود. وقتی روی تصویرسازی Tableau قرار میگیرند، فیلدهای پیوسته یک محور ایجاد میکنند – یعنی نمایش بصری دادهها را ایجاد میکنند.
یکی از راههای فکر کردن در مورد رابطه بین میدانهای گسسته و پیوسته این است که میدانهای پیوسته اندازهگیریها را ثبت میکنند و میدانهای گسسته آن اندازهگیریها را توصیف میکنند. در یک بیانیه، این معمولاً می تواند به صورت پیوسته با گسسته بیان شود – به عنوان مثال، فروش (پیوسته) بر اساس منطقه (گسسته).
تبلو
در این دو نوع فیلد اصلی، انواع فیلدهای اضافی وجود دارد که به VizQL نحوه ایجاد یک نمایش بصری را هنگامی که روی بوم Tableau آورده میشوند، اطلاع میدهند.
- Number (decimal)- عدد (اعشاری): عددی که اجازه کسر را می دهد. با نماد # در رابط کاربری Tableau نشان داده شده است.
- Number (whole)- عدد (کل): یک عدد صحیح یا عددی بدون اعشار. همچنین با نماد # نشان داده می شود.
- String– رشته: فیلدی که شامل کاراکترهای الفبایی است. نمایندگی
- Date – تاریخ: تبلو چندین گزینه قالب بندی تاریخ را می پذیرد. توسط یک نماد تقویم نشان داده شده است.
- Date & Time – تاریخ و زمان: فیلد تاریخ با جزئیات تا دوم یک روز. توسط یک نماد تقویم به علاوه یک ساعت آنالوگ نشان داده شده است.
- Geographical/Spatial – جغرافیایی/فضایی: میدانی که می توان آن را روی نقشه ترسیم کرد. انواع مختلفی از زمینه های جغرافیایی وجود دارد، از جمله کشور، ایالت/استان، شهر، کد پستی/پستی، فرودگاه، ناحیه کنگره، NUTS (اروپا)، و مقدار طول یا عرض جغرافیایی. توسط یک نماد کره نشان داده شده است.
- Binary/Boolean – باینری/بولی: فیلدی که شرط درست/نادرست یا بله/خیر را می گیرد. توسط یک نماد T/F نشان داده شده است.
مدل داده
بیایید Tableau Desktop را باز کنیم و به فایل Superstore sales 2022.csv متصل شویم. این فایل حاوی داده های نمونه است که همراه با نصب Tableau ارائه می شود. این یک مجموعه داده خرده فروشی نمونه (و تخیلی) است که برای اهداف نمایشی و یادگیری مفید است. در صورت امکان از این داده ها در سراسر مقاله استفاده خواهیم کرد.
1- Tableau Desktop را باز کنید.
2- روی لینک آبی Connect to Data نزدیک بالا سمت چپ UI Tableau Desktop کلیک کنید:
3- اکنون گزینه های مختلفی برای منابع داده به شما ارائه می شود. در فصل های آینده به برخی از این موارد خواهیم پرداخت. در حال حاضر قسمت To a file را پیدا کرده و روی گزینه Text file کلیک کنید. به فایل Superstore sales 2022.csv در مکانی که آن را در رایانه خود ذخیره کرده اید بروید. روی Open کلیک کنید.
4- Tableau داده ها را وارد کرده و به تب Data Source تمرکز می کند، به شرح زیر:
لایسنس تبلو
قسمت بالای صفحه به عنوان یک بوم بصری عمل می کند که در آن می توانیم داده های اضافی را از طریق روابط، پیوندها و اتحادها وارد کنیم. در حال حاضر، ما به قسمت پایین صفحه نگاه خواهیم کرد.
این بخش از رابط کاربری به دو بخش تقسیم می شود. بخش سمت چپ، متادیتا را برای فیلدهای منبع داده نمایش می دهد. فهرست فراداده شامل نوع، نام فیلد، جدول فیزیکی که از آن دادهها درخواست میشود، و نام فیلد راه دور است.
Type نوع فیلد Tableau است که به VizQL اجازه می دهد تا تحلیلگر را به بهترین نمایش بصری برای داده ها هدایت کند. Field Name تلاش Tableau برای گرفتن نام فیلد راه دور و ترسیم آن به یک نام تجاری مناسب است. در مجموعه داده ما، نام ستون ها به راحتی به نام های تجاری مناسب ترجمه می شود. تصور کنید که فایل منبع ما حاوی postal_code بود و کد پستی در ردیف اول نبود. Tableau به طور خودکار postal_code را به کد پستی در نام فیلد تبدیل میکند و کار مدلسازی داده ما را برای ما آسانتر میکند. ما همیشه میتوانیم نام پیشفرضی را که Tableau به هر فیلدی اختصاص میدهد، تغییر دهیم.
بخش سمت راست حاوی نمونهای از دادههایی است که مورد پرسش قرار میگیرد، به نام صفحه جزئیات جدول. به طور پیش فرض، Tableau 100 ردیف اول را به عنوان نمونه برمی گرداند. اندازه نمونه را می توان بر حسب تعداد ردیف هایی که باید برگشت تغییر داد.
در ادامه، به این خواهیم پرداخت که قالب جدول چگونه به نظر می رسد و چرا برای Tableau بسیار مهم است.
فرمت داده ایده آل برای Tableau – قالب جدول
زمانی که هر ستون در دادههای مبدأ مربوط به یک فیلد واحد باشد و هر ردیف نشاندهنده رکوردی از دادهها در پایینترین سطح مورد نیاز برای تحلیل باشد، Tableau بهترین عملکرد را دارد و استفاده از آن راحتتر است. همانطور که در تصویر زیر مشاهده می کنید، Tableau نام تمام فیلدها را شامل نوع هر فیلد در ستون ها قرار می دهد. این ابرداده در مدل داده شماست. هر ردیف زیر ردیف سرصفحههای فیلد حاوی دادههایی است که هر ردیف نشاندهنده یک رکورد از دادهها است:
مدل سازی داده در تبلو
هنگامی که داده ها به این شکل ساختار می شوند، به Tableau این امکان را می دهد تا بر اساس عملکرد پرس و جو، سهولت تجزیه و تحلیل ساخت و ترکیب داده ها از منابع مختلف، بهینه عمل کند.
هنگامی که به منبع داده جدیدی متصل می شوید، Tableau به طور خودکار فرض می کند که داده های شما از این طریق ذخیره می شوند. این را در تمرین قبلی دیدیم. Tableau اولین ردیف را از فایل مقادیر جدا شده با کاما برداشت و از آن برای ایجاد نام فیلدها استفاده کرد و بعد از جداکننده کاما دوباره راه اندازی شد. بعد، Tableau پس از اولین بازگشت کالسکه فرض کرد که ردیف دوم یک ردیف از مقادیر است که به طور منظم در ستون های بالای آن قرار می گیرد. برای هر بار برگشتی اضافی، Tableau رکورد داده دیگری را در نظر گرفت.
معلوم شد که Tableau در مفروضاتی که ساخته درست بوده است. دادههای آماده شده برای تجزیه و تحلیل اغلب در این قالب ذخیره میشوند و هر ردیف یک رکورد منحصر به فرد از دادهها است که بر اساس فیلدهای جداول پایگاه داده یا سرفصلها در فایلهای مسطح و اکسل به فیلدهای جداگانه تفکیک شده است.
وقتی نیست چه اتفاقی می افتد؟ این یک تحلیلگر را در موقعیت ایجاد تحلیل های پیچیده تر (محاسبات، برگه ها، داشبوردها و داستان ها) قرار می دهد و عملکرد پرس و جو تقریباً همیشه آسیب می بیند.
شکل دادن به داده ها برای Tableau
در بخش قبل، ما به فرمت داده ای که در Tableau بهترین کارایی را دارد نگاه کردیم. اکنون به یکی از دو مثال اصلی که در آن دادهها برای Tableau بهطور ناکارآمد شکل میگیرند و اینکه چگونه میتوانیم قبل از شروع تجزیه و تحلیل دادهها به آسانی آن را به فرمت صحیح تغییر دهیم، نگاه میکنیم.
دادههای مبتنی بر زمان، بهویژه دادههای مالی، اغلب در اکسل با تاریخهای سرصفحه ستونها، فیلدهای پراکنده در ستونهای ردیف اول و مقادیری که در سلولهای تقاطع قرار دارند، ذخیره میشوند.
اگر این داده ها را به Tableau متصل کنیم، ابرداده زیر را به ما می دهد:
با فکر کردن به داشتن فیلدها در ستونها، نوع فیلد و مقادیر در ردیفها، میبینیم که این تفسیر از دادهها اصلاً مفید نیست. آنچه ما می خواهیم سه فیلد از انواع زیر است:
- تاریخ: نوع – تاریخ. 12 مقدار وجود دارد، یکی برای هر ماه در سال 2022.
- Category: نوع – رشته. سه مقدار وجود دارد: مبلمان، لوازم اداری و فناوری.
- هدف درآمد: نوع – عدد کامل
دیتا مدل تبلو
برای اینکه این فیلدها را به فرمت مناسب برسانیم، باید آن ستونهای تاریخ را در ردیفهایی بچرخانیم و سپس نام دو فیلد را تغییر دهیم. Tableau این کار را برای ما آسان می کند. در اینجا مراحل انجام می شود:
1- Tableau Desktop را باز کنید.
2- روی لینک آبی Connect to Data نزدیک بالا سمت چپ UI Tableau Desktop کلیک کنید.
3- مایکروسافت اکسل را انتخاب کنید. به فایل SuperStore 2022 Budget.xlsx در مکانی که آن را در رایانه خود ذخیره کرده اید بروید. روی Open کلیک کنید.
4- صفحه ای شبیه به تصویر زیر به شما نمایش داده می شود.
5- در قسمت Table Details روی هدر Jan-22 کلیک کنید و کلید Shift را نگه دارید و روی Dec-22 header کلیک کنید تا تمام ستون های تاریخ انتخاب شوند. اگر ابتدا صفحه ابرداده را جمع کنید، ممکن است این کار را آسانتر کنید:
6- نشانگر خود را روی گوشه سمت راست بالای سربرگ 22 دسامبر نگه دارید تا فلش رو به پایین بالا بیاید.
7- روی فلش رو به پایین کلیک کنید تا منوی گزینه ها ظاهر شود. Pivot را انتخاب کنید.
لایسنس Tableau
8- اکنون سه فیلد به شما نمایش داده می شود. ما تقریباً آنجا هستیم!
9- آخرین مرحله ما تغییر نام سه فیلدمان است. میتوانیم این کار را با کلیک بر روی نام فیلد و تایپ کردن روی آنهایی که در آنجا هستند، یا با کلیک کردن روی همان فلش رو به پایین که در مرحله 8 استفاده کردیم و از گزینه Rename استفاده کنیم، انجام دهیم.
10- نام فیلدهای خود را به این صورت تغییر می دهیم: F1 به Category، Pivot Field Names به Date و Pivot Field Values به Sales Target:
11- آخرین مرحله ما اطمینان از صحت انواع فیلدهایمان است. Category یک فیلد رشته ای (الفبایی) است، بنابراین باید Abc را نشان دهد، که این کار را می کند. به طور مشابه، هدف فروش یک عدد است و Tableau آن را صحیح اعلام کرده است. تاریخ به عنوان یک رشته نشان داده می شود. ما واقعاً این را به عنوان یک فیلد تاریخ میخواهیم زیرا Tableau دارای قابلیتهای ویژهای برای رسیدگی به تاریخ است تا تجزیه و تحلیل را برای ما آسانتر کند. برای تغییر فیلد Date به یک نوع تاریخ، روی Abc over Date کلیک کنید و نوع فیلد را به Date تغییر دهید:
این workbook را نبندید؛ ما از این نقطه در تمرین در بخش بعدی استفاده خواهیم کرد، جایی که داده ها را با مدل داده های خود از جداول دیگر ترکیب می کنیم.
در این بخش، به این موضوع پرداختیم که چگونه ممکن است نیاز به تغییر شکل داده های خود برای ایجاد مدل های داده بهتر در Tableau داشته باشیم. در بخش بعدی، یک مورد استفاده را بررسی خواهیم کرد که در آن باید ستونهای (فیلد) اضافی از دادهها را از منابع داده دیگر به مدل خود اضافه کنیم.
اتصال چندین جدول برای افزودن ستون های جدید
اکنون که فرمت ایدهآل دادهها را برای Tableau درک کردیم، میتوانیم راههایی را برای گسترش اندازه مدل دادهمان با اتصال به چندین جدول بررسی کنیم. ما در این فصل به طور مستقل به دو جدول مختلف متصل شده ایم. اکنون آن جداول را به همراه جدول سوم ترکیب می کنیم.
دو روش وجود دارد که ما می توانیم چندین جدول را به یک مدل داده واحد اضافه کنیم. اولین مورد از طریق پیوستن به داده ها است. زمانی که میخواهیم ستونهای اضافی را برای زمینه اضافی به مدل خود اضافه کنیم، به دادهها میپیوندیم. به داده های هدف فروش ما فکر کنید. ما میخواهیم این دادهها را به دادههای فروش SuperStore خود بپیوندیم تا زمینه اضافی اهداف فروش را اضافه کنیم. این به تحلیلگران اجازه می دهد تا دیدگاه هایی ایجاد کنند تا ببینند دسته های مختلف چگونه در برابر اهداف خود عمل می کنند.
راه دوم برای اضافه کردن داده های اضافی به مدل ما با افزودن ردیف های اضافی (با همان ستون ها) است. دادههای SuperStore که قبلاً در این فصل استفاده کردیم مربوط به سال 2022 بود. اگر بخواهیم از سال 2021 به فروش اضافه کنیم، چه؟ این جایی است که اتحادیه می تواند پاسخگو باشد.
برای تمرین بعدی ما، باید توجه داشت که ما در حال ایجاد یک رابطه برای اضافه کردن ستون جدید هستیم و نه یک join. استفاده از یک رابطه به Tableau اجازه می دهد تا اتصال مناسب را در زمان اجرا بر اساس داده های مورد تجزیه و تحلیل ایجاد کند. شما می توانید یک رابطه را به عنوان یک پیوست پویا و هوشمندانه تر در نظر بگیرید.
برای اضافه کردن ستون اضافی هدف فروش، از انتهای تمرین قبلی انتخاب می کنیم:
1- روی پیوند آبی رنگ Add در سمت راست Connections کلیک کنید:
2- To a file | را انتخاب کنید فایل متنی | Superstore Sales 2022.csv | باز کن.
3- در قسمت Files، Superstore Sales 2022.csv را روی بوم بکشید تا نودل نارنجی نشان داده شود و سپس رها کنید.
4- در این مرحله Tableau سعی در ایجاد رابطه بین این جداول دارد. گاهی اوقات، Tableau می تواند نحوه ایجاد این رابطه را بیابد. در این حالت، میتوانیم ببینیم که Tableau قادر به انجام این کار از علامت تعجب در یک مثلث قرمز نبود:
مدل داده در تبلو
5- باید به Tableau بگوییم که دو رابطه ای که باید ایجاد کند Date with Order Date و Category with Category است. بیایید ابتدا دو فیلد دسته را به هم مرتبط کنیم. این کار را با انتخاب Category و Category1 انجام می دهیم و مطمئن می شویم که عملگر برابر با (=) تنظیم شده است:
6- برای تکمیل رابطه، ما همچنین باید فیلدهای Date را به هم پیوند دهیم تا اطمینان حاصل شود که اهداف فروش با تاریخ های مناسب برای تجزیه و تحلیل مطابقت دارند. در این مورد خاص، خرما در یک دانه نیست (یکی در سطح ماه و یکی در سطح روز).
7- اکنون که منابع داده (جدول) اضافی را برای اضافه کردن ستونهای اضافی برای تجزیه و تحلیل به هم پیوستهایم، اضافه کردن ردیفهای جدید داده از طریق یک اتحادیه را بررسی میکنیم.
8- مکان نما خود را در سمت راست مستطیل فایل Superstore Sales 2022.csv روی بوم قرار دهید و وقتی ظاهر شد روی فلش رو به پایین کلیک کنید. تبدیل به Union… را انتخاب کنید:
9- فایل Superstore Sales 2021.csv را از قسمت فایل های روی بوم به داخل کادر union dialog بکشید. پس از کلیک بر روی OK، تمام ردیفهای 2021 و 2022 برای تجزیه و تحلیل در دسترس خواهند بود:
ما اکنون دو روش اصلی گسترش مدل داده خود را از طریق روابط و اتحادیه ها پوشش داده ایم.
برای خرید لایسنس نرم افزار Tableau ، میتوانید از خدمات ما استفاده نموده و درخواست خود را از طریق فرم زیر ثبت نمایید.
بدون دیدگاه