基于大数据的用户画像

什么是用户画像?
简而言之,用户画像是根据用户社会属性、生活习惯和行为等信息而抽象出的一个标签化的用户模型。构建用户画像的核心工作即是给用户贴“标签”,而标签是通过对用户信息分析而来的高度精炼的特征标识。用户画像作为“大数据”的核心组成部分,在众多互联网公司中一直有其独特的地位。
举例来说,如果你经常购买一些玩偶玩具,那么电商网站即可根据玩具购买的情况替你打上标签“有孩子”,甚至还可以判断出你孩子大概的年龄,贴上“有5-10岁的孩子”这样更为具体的标签,而这些所有给你贴的标签统在一次,就成了你的用户画像,因此,也可以说用户画像就是判断一个人是什么样的人。

用户画像的作用
精准营销,分析产品潜在用户,针对特定群体利用短信邮件等方式进行营销;
用户统计,比如中国大学购买书籍人数 TOP10,全国分城市奶爸指数;
数据挖掘,构建智能推荐系统;
进行效果评估,完善产品运营,提升服务质量,其实这也就相当于市场调研、用户调研,迅速下定位服务群体,提供高水平的服务

数据收集
数据收集大致分为网络行为数据、服务内行为数据、用户内容偏好数据、用户交易数据这四类。

  • 网络行为数据:活跃人数、页面浏览量、访问时长、激活率、外部触点、社交数据等
  • 服务内行为数据:浏览路径、页面停留时间、访问深度、唯一页面浏览次数等
  • 用户内容便好数据:浏览/收藏内容、评论内容、互动内容、生活形态偏好、品牌偏好等
  • 用户交易数据(交易类服务):贡献率、客单价、连带率、回头率、流失率等

用户画像的系统架构:

2-9-880x450

美团架构

523

携程架构

上图是美团的和携程的系统架构,不知道是几年前的了。但是从两个架构里可以看出共同的部分:采集、计算、存储/查询和监控。采集的数据分为非实时和实时两种。数据的准确性是衡量用户画像价值的关键指标。

所以,我们现在要考虑的问题是:

我们为什么要给教师做画像?

我们怎么给教师做画像?

我们怎么评估我们给教师做的画像?

数据库和数据仓库的区别

整理自知乎问答,非原创:数据库 与 数据仓库的本质区别是什么?

举个最常见的例子,拿电商行业来说好了。

基本每家电商公司都会经历,从只需要业务数据库到要数据仓库的阶段。

* 电商早期启动非常容易,入行门槛低。找个外包团队,做了一个可以下单的网页前端 + 几台服务器 + 一个MySQL,就能开门迎客了。这好比手工作坊时期。

* 第二阶段,流量来了,客户和订单都多起来了,普通查询已经有压力了,这个时候就需要升级架构变成多台服务器和多个业务数据库(量大+分库分表),这个阶段的业务数字和指标还可以勉强从业务数据库里查询。初步进入工业化。

* 第三个阶段,一般需要 3-5 年左右的时间,随着业务指数级的增长,数据量的会陡增,公司角色也开始多了起来,开始有了 CEO、CMO、CIO,大家需要面临的问题越来越复杂,越来越深入。高管们关心的问题,从最初非常粗放的:“昨天的收入是多少”、“上个月的 PV、UV 是多少”,逐渐演化到非常精细化和具体的用户的集群分析,特定用户在某种使用场景中,例如“20~30岁女性用户在过去五年的第一季度化妆品类商品的购买行为与公司进行的促销活动方案之间的关系”。

具体分析二者的不同:
* 数据库 OLTP(Online Transaction Processing) ;数据仓库 OLAP(Online Analytical Processing)
* 业务数据库中的数据结构是为了完成交易而设计的,数据仓库是为了查询和分析的便利设计的。
* 数据库通常追求交易的速度,交易完整性,数据的一致性,等等,在数据库模型上主要遵从范式模型(1NF,2NF,3NF,等等),从而尽可能减少数据冗余,保证引用完整性;而数据仓库强调数据分析的效率,复杂查询的速度,数据之间的相关性分析,所以在数据库模型上,数据仓库喜欢使用多维模型,从而提高数据分析的效率。
* 业务数据库面向的是业务人员,而数据仓库面向的是分析人员
* 数据库一般存储在线交易数据,数据实时在变;数据仓库存储的一般是历史数据,固定间隔形成快照