3.3 数据指标设计原则
如何评价一个数据指标的好坏呢?一个好的数据指标应该包含以下 4 个因素。
3.3.1 可信的数据源
每个指标都需要用数据来建立,如果数据不易于收集,则会导致无法准确计算数据指标,或者数据源的可信度不高,从而直接降低人们对数据指标的信赖度。比如某个省会城市的气象站点如果只有一个,那么它所预报的整个城市的天气状况就会不准,人们对气象数据指标的信赖度也会降低。因此,所要设计的数据指标必须要建立在有易于收集且具有高可信度的数据源的基础之上。 要确保有可信赖的数据源,可以从数据的种类、数据收集的区域密度、脏数据的数量等方面考虑,即数据的种类越多,数据收集的区域密度越大,脏数据越少,数据源就越加可信。
3.3.2 计算逻辑透明、清晰
很多用户在没有了解数据指标的计算逻辑时,是不会采信数据指标所反映的事情真相的,因此用户需要知道并且充分理解指标的生成方法。例如在很多行业中,某些公认的指标值有很多种计算方法,每一种方法都有一定的适用范围,都是根据业内专家多年的经验得来的。
当用户需要我们根据数据计算此类指标值时,他们更相信业内公认的计算方法,而不愿意采纳一些新方法,因为客户往往更熟知这些公认的计算方法,基本了解其计算逻辑,因此,一个好的数据指标计算逻辑需要透明清晰。
要想让用户认可指标的计算方法,最好采纳业内的一些权威计算指标方法。另外,如果对指标计算有所创新,也需要告知用户计算逻辑以及验证结果,与用户进行沟通后,再选取一种合适的计算方法。如果计算方法过于复杂,不便于与用户解释,则需要告知该方法的来源权威性。
3.3.3 考虑适用场景范围
任何一个数据指标都不是在所有场景中通用的,因此需要考虑数据指标所适用的范围和场景等综合因素,不能将指标固化,需要适时地修改指标。比如用恩格尔系数来评定一个家庭的富裕程度,恩格尔系数是在 19 世纪由德国统计学家恩格尔根据统计资料对消费结构的变化得出的一条规律 :一个家庭的收入越少,家庭收入中(或总支出中)用来购买食物的支出所占的比例就越大,随着家庭收入的增加,家庭收入中(或总支出中)用来购买食物的支出比例则会下降。恩格尔系数是用来衡量一个家庭富裕程度的指数。而美国人是一个不爱吃的民族,在食物方面的支出在美国一般家庭收入中(或总支出中)所占的比例不到 10%,这是很低的。而中国是一个爱吃的民族,特别是广东地区的居民更是出了名地爱吃。如果是比较某个相近地区的家庭的富裕程度,那么用恩格尔系数是可以的。但如果是比较不同地域和文化背景差异很大的两个家庭的富裕程度,那么用恩格尔系数显然就不太合适了。例如在同等收入水平的家庭中,中国家庭的恩格尔系数一般会比美国家庭高,所以此时应该考虑更多的因素,设计一个综合评价指标。
要考虑数据指标的应用场景范围,首先需要明确数据指标的计算逻辑和适用范围,还需要了解数据指标所应用的业务领域与场景。综合评价后找出重要的影响因素,并根据原有计算逻辑进行修正,这样才会得到一个比较合适的数据指标。
3.3.4 有易理解的指导意见
如果人们通过一个数据指标就能够获得明确的指导意见,也就说, 用户在仅仅依靠常识看了这个数据指标名称后就知道该怎么去行动,那么这样的指标就是一个好的指标。 比如有一些天气预报 APP 里有穿衣指数,其实当用户第一次看到这个指数时,有的用户就会一头雾水 :穿衣指数高代表什么,穿衣指数低代表什么?需要解释一下用户才能知道。但是如果将穿衣指数改成穿衣厚度指数,那么用户一看就知道了:这个指数越高,代表要穿的衣服越厚,也就是要多穿衣服,这样用户就比较明了。
要想设计出易于理解的数据指标,首先需要为数据指标起一个好的名称。要尊重生活常,不要另辟蹊径起一些让用户莫名其妙的名称,将设计好的数据指标名称给 10 个用户看,其中有 7 个以上的用户能够大致说出数据指标的含义,并且能判断这个数据指标的指向优劣性,就说明这是一个易于理解的数据指标。