马蜂窝数据造假引质疑,互联网数据造假套路何时休?
一篇自媒体文章除了引发了公众对旅游社区平台蜜蜂窝点评内容剽窃的马蜂指责,也捅开了互联网行业数据作假的窝数网数“马蜂窝”。
在对“是据造假引据造假套刷赞服务vx支付否存在内容剽窃或数据作假”的指责讳莫如深数天后,马蜂窝联合创始人兼CEO陈罡承认,质疑其“在餐饮等点评数据方面存在部份问题,互联但远没有外界所叙述的时休这么夸大”。但是马蜂,业内人士强调,窝数网数互联网领域的据造假引据造假套数据作假远比想像的更严重,但是质疑作假套路也呈现“道初一尺魔高一丈”的趋势。
从最早的互联电商刷单、刷好评,时休到以后的马蜂陌陌公众号买粉、刷阅读量,窝数网数再到网路直播平台买流量、据造假引据造假套App机器人用户充数据,各种数据作假的手段不断翻新,而真实数据成为无法得知的“高度绝密”。
莫非没有机制可以辨识、约束那些“套路”吗?事实上,一些平台企业和投资机构已经尝试通过反爬虫、第三方数据调查等技术手段防治和应对数据作假,并且疗效并不好。另外,部份投资机构出于种种考虑,默认一些互联网企业的数据作假行为,甚至与之勾结。刷赞服务vx支付技术困局也急剧成为愈加复杂的人性疑团。
进步最快的是作假的方法
在“马蜂窝风波”中,倍受指责的一个数据作假“套路”是,不少用户在其他平台的旅行功略、点评内容,被搬运到马蜂窝上。实际上,这种做法并不新鲜。
去年7月,生活社区小红书通过官方微博谴责大众点评大量剽窃其用户的内容。具体做法是批量构建虚假帐号,剽窃及搬运用户在小红书发布的原创内容。据小红书恐怕,剽窃的数目在百万条量级。
一些用户专门为小红书平台创作的内容被“copy”后,仍然留着先前内容的影子。小红书用户“詹猪仔Coco”曾于6月6日发视频庆贺小红书成立记念日,“copy”后,文案竟弄成了“祝点评生日快乐”,但视频中用户说的依然是“小红书”,但是6月6日也不是大众点评的“生日”。
当时,大众点评方面对此回应称,这是由于新上线试营运的推荐栏目在未经授权的情况下对相关内容进行了违法转载,已第一时间完成所有内容排查与全部清除下线,并通过技术手段确保该类问题不再出现。
段民(化名)从2002年开始从事数据挖掘工作,是国外最早一批大数据行业应用的开拓者。他告诉中国青年报·中青在线记者,这类搬运其他平台内容为己所用的行为,属于常见的“伪创作”造假套路刷粉官方网站,即通过网路爬虫软件,将其他平台的数据和内容复制过来,稍加更改后弄成自己的内容。与其他作假手法相比,这类做法更隐蔽,须要专业人士持续跟踪、分析、比对能够发觉。
段民表示,除“伪创作”以外,互联网内容平台常见的数据作假“套路”还包括谎报数据、“僵尸用户”、虚假行为等。前两种“套路”因用户了解有限,平台与用户之间存在一定门槛,常常无法获知;而通过机器人假冒真实用户,访问网站或App因而降低流量或点击量的虚假行为,是离普通用户近来的一种作假“套路”。
微博、微信等平台的“刷量”“买粉”,是其中的典型代表。2016年9月底,因陌陌官方的后台调整行为,屏蔽了公众号刷量工具的操作,许多自媒体大V的真实用户和阅读数目凸显下来。此前一周平均阅读量上万的公众号,在当日最少的阅读量只有200;此前阅读量在10万以上的公众号,当日的阅读量只有2万左右。
据悉,一些音视频节目的播放量也出现作假。此前,在国外首起因视频网站“刷量”而引起的不正当竞争案件中,被告北京飞益信息科技有限公司针对爱奇艺、优酷地瓜、腾讯视频等主流视频网站上的视频内容“刷量”,对某个视频节目“刷量”1万次,仅收费15元。
广州市浦东区人民法庭公布的信息显示,飞益公司多名职工通过多个域名、不断更换访问IP地址等方法,连续访问爱奇艺网站视频,在短时间内迅速增强视频访问量,仅2017年2月1日至6月1日,飞益公司在爱奇艺网站制造了不多于9.5亿余次的虚假访问,根据该公司每万次15元的刷量收费标准,共非法获利上百亿元。
技术的发展让作假成本更低
与“刷量”“买粉”“伪创作”等内容平台的作假手法相比,夸大用户和产品交易数据,则是互联网平台上更直接,也更难被发觉的数据作假形式。
2015年,有业内技术人员在著名社区“知乎”上爆料,通过反向编译蜻蜒FM安卓版本软件,他发觉蜻蜒FM软件中隐藏有名为“普罗米修斯”和“宙斯”的强行自启代码。后者可以在用户不知情的情况下,在手机后台启动无窗口透明界面;前者则可以自主触发广告商的广告,并回传给第三方数据公司,进而完成“用户自主点击广告”的操作。
由于普通用户很难发觉这些技术技巧,并且可以增强日活跃用户数(DAU)等数据指标,所以该爆料甫一出现,便立刻引起关注。对此,蜻蜒FM曾回应称,相关代码是用于新功能上线时进行AB对照测试、统计相关用户指标。
不过,这类说法无法解释该平台的日活用户数目和广告点击量为什么忽然降低。此前,蜻蜒FM在宣布用户数目达到1.5亿的两个月以后,就宣布用户数突破2亿,许多业内人士怀疑该数据的真实性。
除这类由专业人士爆料的案例之外,也有一些平台可能因一些“长相奇怪”的数据而导致指责。同样在2015年,互联网农业公司一亩田因出现“9小时前李老总采购了1073741.8235吨大蒜”“6小时前刘老总采购了999.999吨山桃”等数额奇特的交易信息而身陷数据作假疑团中。
彼时,一亩田展示了其过去一年的交易后台数据,并称一亩田网站确实还有一些产品和数据不够健全,仍处于数据测试阶段。
中国首席数据官联盟专家成员鲍忠铁表示,许多面向用户端的互联网企业都希望述说一个快速下降的“独角兽”的故事,而市场份额、客户数目、日活用户等数据就成了彰显企业市值快速增强的重要指标。
鲍忠铁在联通互联网界工作多年,他对一些App声称的用户数目嗤之以鼻。据他的观察,好多App的下载量和用户量都可以通过技术手段作假:
由于安卓系统的开放性,破解系统权限后,一台平板笔记本设备上甚至可以装十多个同样的App,配合不需实名制的虚拟营运商电话卡,可以产生十多个看似真实、独立,实则批量化虚假的用户。并且,因为虚拟营运商的手机号可以包年使用,这样的作假手法成本得以进一步减少。
当数据作假弄成一场合谋
数据作假的“套路”如此大行其道,甚至早已产生特定的产业链条,为什么会出现这么局面?
前海梧桐合伙人王蔚剖析,互联网企业比较常见的是在营运数据上作假,包括用户数据、产品数据、财务数据等,由于这类数据可以帮助企业获得激烈竞争中的优势地位,提高业务合作报价。
据悉,初期互联网企业的投融资市值通常采用流量法或市销率法,夸大的营运数据通常会对应更高的市值。王蔚表示,在营运数据作假以外,还有不少互联网企业在融资经历、融资金额等方面也会作假。“我们都习惯了,官宣融资额减去510有可能更接近真实数据。”
王蔚觉得刷粉官方网站,除互联网企业自身竞争需求和融资需求驱动外,投资人作为另一重要的参与方,在数据作假问题上也不是没有责任的。因为财务投资者须要在投资互联网公司时“低买高卖”,有时侯为了推高企业市值便于实现股权退出,也会成为数据作假的协同者。
值得注意的是,投资机构在企业数据作假中饰演的角色十分微妙。在成为个别企业的投资者之前,也会通过一些技术手段发觉或破解刷量、刷粉等数据作假的手法。
远瞻资本合伙人秦岗表示,因为许多公司数据“注水”,大多数投资机构不再将企业自己公布的数据作为衡量一个创业公司或产品的主要指标,可能会聘请第三方数据机构来举办尽职调查,以验证各项数据指标的真实性。
不过,秦岗也强调,这类做法通常出现在投资项目比较成熟的中晚期,或投资金额较大的情况下。对于初期创业项目,或投资金额不够大的项目,好多投资机构常常没有相应的预算。
鲍忠铁表示,对于网站、App的真实营运数据,网路营运商一清二楚。“App哪些时间打开,哪些时间关掉,装在什么设备上,通过营运商的DPI数据是可以解析下来的。”但令人遗憾的是,这类真实数据常常得不到注重,一些VC投资机构、第三方数据公司也不会充分借助那些数据。“没人做这个事情,由于对他人只有害、没有利。”
鲍忠铁也注意到,有些第三方检测软件或第三方数据咨询公司有时也会充当数据作假的“帮凶”。一些在业内颇具名气的第三方数据咨询公司所公布的特定App的下载量、月活用户等数据,也常常被指责。
比如,国外著名数据研究机构艾瑞咨询曾发布的数据产品,就被明日头条、“大月经”等平台指责可能弄虚造假。2017年年末,艾瑞咨询联合美柚App发布的《2017年中国女人生活形态研究报告》显示,美柚的月度总有效使用时长抢占所有月经管理类App的95%,这也意味着,“大月经”等其他月经管理App的阅读有效使用时长加上去还不到5%,这被“大月经”指责为“收钱说假话”。
“造假是‘多赢’的”,这早已成为数据产业链病态发展的一个奇怪推论。上海学院网路与大数据法制战略研究院主任齐爱民剖析,企业营运数据和融资数据“好看”了,既便捷部份投资机构退出,也能让“刷量”的水军店家从中谋利;内容方可以通过大量刷取点击量,炮制市场火热的假象,因而吸引真实用户的眼神;平台方也须要通过这些表象来营造优质平台的形象,因而进一步吸引广告投放。
鲍忠铁觉得,刷单等数据作假行为的根本缘由,还是“toVC”的创业模式猖獗,无论创业团队还是投资机构,都希望快速将企业市值做大,针对这类造假行为,相应的监督还缺少执行力。
王蔚表示,数据作假属于不正当受益的商业手段,最终仍须要社会买单,但很难用道德约束或行业自律的方式去整治,毕竟还是“底线管理”原则愈发适用:从立法上划分清楚“数据作假”和“商业欺诈”违法犯罪行为之间的联系,抬高“数据作假”的受益成本。(记者王林张均斌)