平台简介
公共部分
数字品牌资产管理平台是什么?
数字品牌资产管理平台为了实现某一商业分析目的(品牌舆情、活动效果等),通过爬虫技术,对目标网站特定内容进行数据抓取,再利用语义分析、数字计算等技术,以及基于互联网声量的关键词进行舆情指数分析,竞争品牌分析,舆情预警分析,活动效果分析等等,用大数据量化品牌影响力,清晰地描绘品牌在互联网上的表现,帮助企业实时监控品牌建设的问题和成效。同时,它也能够衡量企业是否掌握了在数字时代构建品牌的能力。
工作原理
数字品牌资产管理平台根据业务需求,按照一定的数据采集规则,到指定网站采集数据;然后对数据进行提取、转换、加载、保存、分析等处理,最后通过可视化技术将数据、图表等内容在网上平台实时展示。
系统面向用户人群
数字品牌资产管理平台主要是面向与品牌、媒介、渠道、电商等业务相关人员或部门。业务数据分析人员可以方便地对企业数据进行检索,释放IT人员的生产力,加快数据获取。数据开发人员通过品牌及活动的快速监测配置,可以快速查看各项指标趋势、了解人群画像以及进行联想分析。
覆盖数据源
数字品牌资产管理平台覆盖数据源有微博、微信、新闻、论坛、贴吧、问答、视频、博客、短视频等媒体,共1124个站点。其中包括:
微博阵地:新浪微博;
微信阵地:微信;
新闻阵地:搜狐新闻、环球网、新浪新闻、网易新闻、腾讯新闻等668个站点;
论坛阵地:天涯社区、腾讯云-社区、一加社区、豆瓣娱乐等292个站点;
贴吧阵地:中国贴吧、百度贴吧、新浪股吧、英雄联盟吧等80个站点;
问答阵地:果壳问答、百度问答、搜狗问答、知乎等54个站点;
视频阵地:腾讯视频、爱奇艺、搜狐视频、哔哩哔哩、优酷等16个站点。
博客阵地:新浪博客、CSDN博客、博客中国、博客园等15个站点。
短视频阵地:抖音、快手;
电商笔记阵地:小红书;
品牌监测
使用场景
品牌监测应用主要对品牌及竞品进行实时社媒数据监控,对品牌社媒动态、内容、受众人群多维度分析,快速地掌握不同品牌在社媒中的营销表现,动态跟踪品牌表现,挖掘品牌舆情热点。
主要功能
实时监控竞争品牌互联网数据,分析竞争品牌活动效果,做到舆情预警;
预估传播和品牌项目线上活动效果产出,通过提供过往历史数据标准值及数学模型协助制定策略。
主要操作
查看不同类别下的各种品牌的总览分析、单品牌剖析、品牌对标、品牌事件分析等相关指标趋势、分布查看;
可以按照天、周、月等时间间隔以可视化图示的方式查看各品牌的相关指标数据;
添加新品牌或修改品牌关键词后,可以选择相应时间段在系统中查看到相关的指标数据。
Top10事件使用指引
Top10事件图表展示逻辑:
1:根据筛选条件,取声量库(即原贴库)中聚类声量top100的事件指纹;
2:根据筛选条件,取互动量增量库中top100的事件指纹;
3:根据Top10事件图表中的声量、互动量字段,点击选择按声量或者按互动量降序,即可按需展示声量or互动量Top10事件(注:内容分析页展示Top50事件)
注:DBA系统的互动量为7天增量展示,互动量增量从发帖日的第二天开始计算,所以需要找峰值事件时,筛选时间需要根据声量或互动量峰值点日期分别增加或递减3-7天,结合系统的互动量7天增量展示的看数逻辑看事件效果。
声量峰值事件定位:
步骤一: 找到品牌声量峰值点,如下图,芒果TV在2020年10月5日出现声量峰值点
步骤二:另起页面打开内容分析页,选择品牌芒果TV,起始时间选择2020年10月5日,结束时间建议增加3-7天,如下图时间选择2020年10月5日-10月10日,根据声量降序,找到10月5日开始且声量较高的事件:
步骤三:点击事件,全局联动图表可以看到该品牌事件在2020年10月5日的微博声量为18265,而该品牌在10月5日的总声量为21229,则可以判定该事件即为芒果TV在2020年10月5日的峰值点事件。
互动量峰值事件定位:
步骤一:找到互动量峰值点,如下图,芒果TV在2020年10月20日出现互动量峰值点
步骤二:另起页面打开内容分析页面,选择品牌芒果TV,结束时间选择2020年10月20日,开始时间建议减少3-7天,如下图时间选择为2020年10月15日-10月20日,点击按互动量排序事件,查找互动量较高&结束时间在10月20日的事件:
步骤三:点击事件,全局联动图表可以看到相关事件在10月20日互动量值高低判断该事件是否为引发互动量峰值的相关事件。如下截图中多个事件在10月20日有高互动量,共同带来了当天的互动量峰值。
核心技术
文本情感判别
用户通过发表内容表达自身情感时,主要包括正面、负面、中性三种倾向。当前系统基于自然语言处理及机器学习技术,深入挖掘用户不同情感的隐含特征,并经过大量的情感标注数据,迭代优化情感判别模型。
1.自然语言处理专家系统
机器学习模型擅长处理隐含的特征,而实际情感判断中用户文本会包含极其明显的情感倾向特征。在情感判断中,会首先判断文本是否包含明 显倾向特征。如果包含明显特征,将直接进行判断。其中明显特征包含:粗鲁的词汇,极致赞扬,特殊表情,和特殊符号。
2.机器学习判断系统
机器学习系统对用户情感隐含特征进行训练和判断。利用积累的通用情感标注文本和领域专用的新增用户标注数据,和使用N-Gram的自然语言模型,作为文本特征。在综合比较机器学习的算法后,采用随机森林对特征进行训练,随机森林拥有训练快速,结果鲁棒性强的优良特征,在机器学习领域有广泛的使用。
论坛水帖判别
满足下列条件任意一个判断为水帖
序号 | 规则 | 数据样例 |
---|---|---|
1 | 同一标点符号或者字母重复出现超过5次,其他汉字字符不超过10个 | !!!!!!点赞 ; 。。。。。。支持 |
2 | 同一汉字重复超过5次, 字符数小于25个 | 哈哈哈哈哈哈,支持 ; 呃呃呃呃呃呃,顶一下 |
3 | 文本为下列短句:内容自动屏蔽,该楼层已被删除, 该回复已删除 | 内容自动屏蔽;该楼层已被删除; 该回复已删除 |
4 | 回复只发表情 | 😁 ;😝 ; 👌 |
微博水帖判别
如何判别水军(僵尸)
僵尸账号通常有几个特点:微博数量、粉丝数量、关注数量很少;微博的互动几乎没有;发微博频率固定;微博来源中显示的终端设备单一;微博 内容中广告的比例很高;微博中@用户的情况很多;关注用户中蓝V较多等
一、僵尸号或者水军的基本特点:(以下各个维度占不同的权重)
1. 帮人增加粉丝数;
2. 发小广告;
3. 专业抽奖;
4. 帮人刷评论、转发
5. 长时间不发微博
6. 粉丝质量低
二、僵尸用户如何识别:
要解决僵尸账号的问题,这些特征只能作为进一步参考的依据,更多的工作则需要通过计算机自动算法、存储方式、自动分类等手段来实现。具体 来说,为了计算出每个新浪微博账号的真实粉丝,需要解决三个问题:
1. 完整性账号抓取:
从某个账号出发,获得他的关注人列表,再从这些关注人出发获取更多的关注人列表,循环可以得到完整的新浪用户列表。为了得到尽可能完 整的用户列表,不断重复以上过程,通过对高质量节点(粉丝较多、微博较多、认证账号等)的遍历提升用户质量。
2. 基于机器学习的僵尸分类算法:
综合使用规则过滤和机器学习分类的算法,僵尸过滤算法的准确度能达到80%,算法规则库包括微博粉丝数、关注数、微博数、收藏数、互粉 数、域名、微博、blog地址等维度创建,匹配僵尸账号的状态,可快速识别绝大部分的僵尸用户。更高级的,通过机器学习来解决,比如抓 取一个用户的更多数据(个人资料、微博内容等)来进行全方位、多维度的分析。首先通过人工标注大量僵尸账号,抽取几十个维度的特征来 识别僵尸用户,最后通过机器学习(SVW分类模型)训练出一个分类模型,完成对僵尸和非僵尸用户的识别。
3. 算法的维度:
(1) 基本信息:昵称、头像、互粉数、关注数、粉丝数、关注/粉丝比例、微博数、收藏数、微号、博客地址等。(2) 高级信息:微博内容(广告、抽奖、垃圾信息)、微博来源、发送频率、转发数、评论数、评论的评论数、赞数等、转发/互动对象。(3) 互粉好友的上述指标
三、举例说明
1. 专业抽奖,发小广告,发的微博几乎都是参与转发抽奖的,例如该用户: http://weibo.com/u/3037593342
2. 帮人刷评论、转发,例如该用户: http://weibo.com/u/5020189380 , http://weibo.com/u/5029543861 几乎所有的微博都是转发李易峰、霍建华。
3. 长时间不发微博,或者发微博的频率极低,例如该用户: http://weibo.com/u/2881233161 ,最近一条微博是一年前发的,活跃率极低。
4. 粉丝质量低,即该用户的粉丝大部分也符合僵尸粉或水军的特点。 例如用户: http://weibo.com/u/2430388365
5. 微博昵称以“用户”、“手机用户”开头,例如该用户: http://weibo.com/u/3037593342
6. 没有头像,用的是默认头像,例如: http://weibo.com/u/1925438765
7. 关注数比粉丝数多很多,例如: http://weibo.com/u/3214371824