Речник на данните: как да и най-добрите практики

Речникът с данни е списък на ключови термини и показатели с дефиниции, бизнес речник. Въпреки че звучи просто, почти тривиално, способността му да изравнява бизнеса и да премахва объркването може да бъде дълбока. Всъщност речникът с данни е вероятно един от най-ценните артефакти, които екипът от данни може да предостави на бизнеса.

Повечето фирми имат поне една концепция, термин или показател, която се използва или интерпретира по различен начин сред екипите. Когато това се случи, царува объркване. Лицата, които вземат решения, могат да не са съгласни какво показват данните и какви действия да предприемат. Отчетите сред екипите може да показват различни числа за един и същ показател от един и същ източник на данни поради непоследователна бизнес логика. Екипите могат дори да спорят за правилната дефиниция и да защитават тревата си, може би защото тяхното определение прави броя им да изглежда по-добре. Това не е добре за бизнеса.

След като имате речник с данни, това е документ, на който всички служители могат да се позовават и да бъдат на една и съща страница, това улеснява вкарването на нов персонал и екипът за бизнес разузнаване (BI) има кристално ясни изисквания за прилагането на тези показатели.

За да е ясно, тук не разглеждаме сурова документация на базата данни, въпреки че това също е важно, а списък от бизнес условия и показатели на по-високо ниво. Как бизнесът като цяло мисли за „потребител”, „приходи” или „цена на придобиване”? Всички имат ли еднакво разбиране или „територия на продажбите“, „средно време на кораба“ или „сесия“? Целта трябва да бъде млад, нетехнически член на персонала, като агент за обслужване на клиенти, да може да прочете раздела за своята част от бизнеса и да разбере съответните условия, но достатъчно подробни и точни, за да улови бизнес логиката от тези показатели.

В тази публикация ще опиша подробно някои най-добри практики, свързани с речниците на данни и процес как да го създадете. Това в никакъв случай не е единственият процес, който ще работи, но той поне работи за мен. Ето, предполагам, че BI екипът управлява този процес. Според мен те трябва да притежават речника на данни и прилагането на показатели в BI инструментите.

1. Събирайте термини

Първата стъпка е да съставите списък с термини. Тоест, BI екипът трябва да създаде електронна таблица със списък на имената на бизнес концепциите и показателите (мерките) и как данните се нарязват и нарязват на кубчета (размерите). Макар това да звучи обезсърчително, един подход е да се направи бизнес екип от бизнес екип и да се проучи извадка от всичките им стандартни доклади и табла. Избройте всички етикети на осите от диаграмите, заглавките на колоните от таблиците на отчетите и размерите на това как се въртят данните. По този начин докладът, показващ приходите по територия (за определен период от време) дава два ключови термина: „приходи” и „територия”. На този етап вие просто съставяте списък на имената на термините, а не на техните определения.

Резултатът е списък с име на отбора, име на термина, тип данни, примерна стойност или две и може би връзка към примерен отчет, използващ този термин. Допълнителни колони, които може да бъде полезно да добавите, са колона, указваща дали това е измерение или мярка (като цяло има по-голямо съгласие за измеренията от мерките) и колона, уточняваща източника на истината.

Стъпка 1: списък на термините без дефиниции

Организирайте и групирайте списъка по бизнес функции, като финансови показатели, маркетингови показатели, показатели за обслужване на клиенти и т.н. Можете също така да искате да очертаете наистина общи измерения („година“, „product_id“, „страна“ и т.н.), които обхващат много екипи към своя собствена секция също.

Списъкът вероятно не е толкова дълъг, колкото може да очаквате. Това е така, защото екипите са склонни да имат сравнително малък набор от показатели, които се опитват да проследят и оптимизират със сравнително малък набор от лостове, на разположение - например онлайн маркетингът може да се съсредоточи върху няколко основни аспекта като кампания, канал, харчите и сегментирайте.

Помолете бизнес екипа да разгледа списъка, по-специално техния раздел и да добавите всички условия, които липсват. Ако имат надежден набор от табла и отчети, вероятно имате изчерпателен списък. Ако те не го правят, тогава това предоставя допълнителни концепции, които са ценни за събиране.

2. Определете термините

Екипът на BI сега трябва да направи първи пропуск при опит за съпоставяне или създаване на дефиниции.

Първо, издърпайте всякакви определения от всяка съществуваща документация. Това може да е от уики, годишни отчети или от действителен код, като SQL заявки или макроси на Excel. Определенията трябва да са ясни и недвусмислени. Ако е по-ясно да покажете проста формула (например ARPU = total_revenue / number_subscribers), а не да напишете определение, тогава покажете това. Повечето служители трябва да са в състояние да разберат определението, дори ако трябва да пресекат някои от термините.

Второ, седнете с екипите един по един и помолете за тяхната помощ, за да посочите липсващи определения или да прецизирате определенията. (Ще постигнете по-добър напредък, като започнете с дефиниция, дори ако е грешна, отколкото с празна клетка.) Това може да изисква някои напред и назад, докато не постигнете съгласие в рамките на този екип. Може да се наложи и някои изследвания за това как се изчислява в момента показател.

Важното е, че не питайте „какво е настоящото определение?“, Но „как трябва да се дефинира?“ Ако настоящото изпълнение не е тяхната идеална дефиниция, това е перфектният шанс за бизнес екипа да определи идеалното си състояние. Например, това е шанс за опростяване, ако сте наследили прекалено сложна дефиниция. След като тази идеална дефиниция бъде уловена, тогава има допълнителен натиск върху екипа за данни, технологичния екип или други части на бизнеса, за да изпълнят този показател, както е дефиниран.

3. Определете конфликтите

Това е ключова стъпка: изкоренете всички термини, при които дефиницията му се различава между екипите.

4. Получете изравняване

За тези условия, които се различават между отделните екипи, въведете съответните екипи в същата стая (и заключете вратата). Накарайте ги да обсъдят как и защо се различават.

За тази среща трябва да има съгласие само с два резултата:

* единият екип се съгласява да приеме определението на другия екип.

* имат основателни причини, поради които се различават. В този случай се съгласете за ново име за един или и за двете условия.

(Трета опция, при която и двата екипа са съгласни да променят своето определение на някаква обща дефиниция, е възможна, но по-малко вероятна.)

Имената трябва да са толкова дълго, колкото е необходимо, за да се избегне неяснота или объркване. Ако „community_adjusted_editba“ е по-подходящ и подходящ термин, който го отличава от обичайната „ebitda“, използвайте този по-дълъг, по-описателен термин. Целта е да се премахне объркването, за да не бъде кратък.

5. Излезте от системата

Да се ​​отпишат главите на екипа. Това е от решаващо значение. Не искате екипът на BI да определя термин, а бизнес екипът тайно не е съгласен. В този случай бизнесът просто ще започне и ще внедрява собствената си логика в Excel и вие ще се върнете към квадрат. Тъй като експертите в областта на домейните и като хората, които ще вземат бизнес решения въз основа на тези показатели, тези собственици на бизнес трябва да бъдат изцяло на борда.

В Warby Parker използвахме помощта на съизпълнителните директори, за да изискват ръководителите на екипите да напуснат и да направят това до определена дата. Ръководителите на екипите са заети и речникът на данните може да не изглежда с първостепенен приоритет, дори и да виждат стойността. По този начин тази подкрепа отгоре надолу се оказа много ценна.

6. Публикувайте

Публикувайте речника на данните като документ на една страница, където той е достъпен за цялата компания - по този начин, а не само в BI инструмент. Тези определения трябва да бъдат широко разбрани и приети не само от изпълнители, анализатори и отговорни лица, но и от целия персонал. Следователно видимостта е от решаващо значение. Ако компанията използва уики силно, те публикуват там. Тя трябва да бъде там, където хората очакват.

В концептуален план тези термини не зависят от нито една система или източник на данни и по този начин не са обвързани с BI инструмент. Въпреки това, отделните дефиниции също трябва да бъдат включени в BI инструментите, когато е възможно. Ако инструментът поддържа това, когато мишката върху дадено измерение или мярка, определението и примерът трябва да изскачат.

Като се има предвид, че тези дефиниции могат да се появят на много места, екипът за данни трябва да се стреми да генерира автоматично речника от данни от един източник, като таблица на база данни или хранилище на кодове, вместо да поддържа ръчно статична таблица. Например, в Warby Parker, речникът ни с данни беше генериран от работа на Jenkins. Ако хранилището е променено, то регенерира нашата документация (специален вътрешен уебсайт или „книга с данни“ за цялата документация с данни).

7. Поддържайте

Въпреки че ключовите показатели трябва да са относително стабилни, може да има законни причини за бизнеса, поради които дефиницията на показателя може да се промени. Тази промяна и ново определение трябва да дойдат от бизнес екипа. Въпреки това ще е необходима помощта на екипа за данни, за да осъществи промяната и да я съобщи.

Екипът на BI трябва да оцени въздействието на промяната, преди да бъде внедрен. Например, подгответе диаграма, показваща показателя със старото и новото определение на показателя, за да зададете очакванията за това как числата могат да се променят.

Отнасяйте се към тази промяна на дефиницията като към продуктова версия: съобщете предварително промяната на дефиницията, кажете на хората какво да очакват и документирайте промяната в речника на данните, например с дневника на промените в долната част на документа.

Не позволявайте на различните системи да излязат от синхронизиране; следователно защо автогенерирането на документация е ценно.

Създаването на речник с данни след процеса по-горе не е малко усилие. Това вероятно ще отнеме няколко месеца, тъй като това изисква разговори и координация между много членове на персонала. Това е голямо усилие в екипа, ръководено и координирано от BI екипа, но изисква широко купуване, сътрудничество и усилия и усилване на подсилването отгоре надолу.

Не предлагам да вземете процеса на парче. Например, не създавайте напълно изпечен речник за маркетингови данни с очакването да се справите с финансирането на речника на по-късна дата. Това прави по-трудно да се стигне до тези (стъпка 4) дискусии за привеждане в съответствие между екипите и именно там се случва истинското изплащане. Също така, последователният характер улеснява загубата на пара. Имате нужда от едновременни дискусии между екипи с обща дата за отписване, за да постигнете целта.