发布时间:2019-9-22 分类: 电商动态
要查看大数据,最好查看大数据背后的技术,业务和社交方面。从发展成熟的角度来看,技术维度走得最远,业务维度发展但不全面和成熟,社会维度发展最差。因此,尽管我已经讨论了大数据很长一段时间,但除了产生大数据本身的领域(如搜索)之外,其他领域还没有从大数据中获得明显的好处。大多数时候人们仍然认为这里必须有金子,但他们需要更多的耐心。本文试图挖掘大数据本身的特征,并对未来趋势做出一些预测。
大数据上的深度和广度
如果大数据与海量数据相匹配,那么这是一个非常模糊的概念,相当于成为信息的同义词。显然,很难回答什么信息可以做的问题。
此时,为了提前思考,通常需要先进行分类。如果时间空间是最基本的视角,首先要区分的是大数据的深度和广度。从时间的角度来看,大数据是一个完整的历史。从空间角度来看,大数据是全球活动的痕迹。前者可以看作是一种深度,后者可以看作是一种广度,不同的场景对深度和广度有不同的侧重。
对于一些垂直行业,如医疗保健,大数据的深度更为重要。毕竟可以在数据上找到历史记录,人们可以更好地了解和优化相应的行业。
对于社会而言,在许多情况下,广度更为重要。在某个场景中我们只有一个刻度和半爪,但是当这个信息足够且范围足够宽时,可以描述相对及时和完整的图像。经常被引用的谷歌预测传染病的例子依赖于这种广度。
这决定了大数据的应用趋势。在深度重要的地方,公司等组织需要成为主体。困难在于如何跨越数据所有权的界限。对于医院而言,将所有治疗病例数字化和共享是有益的,但如果只有一家医院这样做,则可能对医院的隐私更不利。
在广度很重要的领域,尽管公司可以从搜索这些领域中受益,但真正受益于大数据的机构实际上是政府。数据越广泛,它描述的身体就越大,如果它是整个社会,它显然应该是社会的主要负责人。这是一个常识性问题。就像在看医生时为别人吃药一样。在某些情况下,CCTV将在春节期间播放百度的流程图。这个问题也可以从侧面解释这个问题——这种移动地图有助于可以制作地图的公司,远离政府。帮助大。
简而言之,数据的要求在深度和广度上都有所不同。前者需要更详细和更高质量的数据源,而后者需要更少,但两者在应用时都将面临支付和返回。不相等。大数据倾向于描述整体,有能力收集或处理大数据的个人通常是个人,而个人的回报并不容易反映在整体改进中。
因此,大数据开发的瓶颈不是技术,而是建立它背后的分销关系。这种关系不合理,数据将保持在岛级,每个组织都有自己的东西,并将其命名为“大数据”。为了理顺这种关系,我们必须回到一个非常经典的问题,即可以建立“公共土地”。
数据公地的设想
大数据有点像普通的土地。经济学中最着名的一个论点是公地的悲剧。《美国经济史》一个非常容易理解的例子中的常见悲剧是什么:
……这些经济推理命题有助于解释集体所有权和产出(一半或固定份额)的共享如何导致“搭便车”问题。为了说明这一点,考虑10名分享土地所有权并共同生产100蒲式耳玉米的工人,每人平均消费10蒲式耳玉米。假设一个工人开始懒惰并将他的劳动力减半,导致产量减少5蒲式耳。由于输出共享系统的安排,懒人的消费与其他工人的消费相同,现在是9.5蒲式耳。虽然他的努力下降了50%,但他的消费仅下降了5%。一个懒惰的人是一个在别人身上工作的自由骑手……
这背后有一个非常深刻的人类问题。即使我们可以共同努力创造更多财富,个人也可以从中分享更多财富,但群体中明显的个人倾向是减少工作但分享更多。事实上,这与囚犯的困境有关。
在现实世界中,没有办法彻底解决这个问题。它只能依赖于每个人基本认可的特定分配顺序。例如,以前的血统现在是一个自然的选择,但现在基于比特的数字财富有可能解决这个问题。
基于位的数据与真实数据之间的最大区别在于,数据不是“当你接受它时,我没有任何东西”,并且硬件的价格正在快速下降。开源使数据访问工具基本免费。这些是叠加的,以使数据变得普通。
这里有趣的问题是,如果每个人都更关心我得到的东西是否变大,那么数据公共土地形成的可能性就更大,因为如果有数据公共土地,那么每个人(企业)必须有更多的收益,但如果你更关心我是否比你更重要,那么数据公共土地的建设会有很多障碍,因为公共土地实际上是让相关人员站在竞争的起点。
大数据的问题是数据使用中的技术问题,但它实际上是数据源中的社会经济问题,后者更难,因此大数据应用的开发不依赖于技术的发展,但取决于社会经济的变化速度。在一个有限的领域,如搜索,电子商务,云计算,技术已经得到充分发展,现在谁支付谁的利益的问题是将小数据转化为大数据的过程中最重要的问题。
大数据的路往那里走?
数据的内在发展是数据的价值越全面,这也是一种网络效应。这种内在动机导致在宏观视图中数据所有权的发展只有两个趋势:
一个是像移动方面一样,每个人都有自己的私人数据源,然后你开始生死竞争,最后一个幸存下来,这也可以实现数据统一的最终目标;
另一种是开始联合竞争并建立上述数据公共土地。
如上所述,行业数据和整个社会的数据性质差异很大,因此应分别讨论。
对于行业数据,除非有非常特殊的人,否则竞争者之间的坦诚合作是不可能的。最简单的方法是引入第三方。例如,每个运营商都掌握着几乎所有网民的行为数据,但很难将数据整合在一起,为运营商公开诚实地合作创造一定的价值。此时,如果涉及第三方,则可以制定福利分配计划。
如果能够实现这一点,唯一的关键点是相应的业务模型是否可以超过数据处理的成本。必须强调的一点是,大数据的价值密度非常稀少。很多东西都很有价值,但不一定值得做。视频网站无法赚钱的关键原因是带宽和存储成本相对较高。商业模式不适合大数据,而且情况可能比视频网站更糟糕。采矿成本也低于采矿收入,采矿业也很有价值。
上述问题在行业数据中可能不会太大。一般来说,行业数据的价值密度会更大,而且由于它相对垂直,总量是有限的。因此,大数据产业的应用相对容易发展。
但对于社交数据,在许多情况下这是一个问题。我们都知道样本的全面性比数据量更有价值,但如果它是确保样本全面性的唯一方法,那就意味着让所有数据做一件事就必须有意义。
社交数据有两个应用方向。一个是公司可以处理谷歌,另一个是社交数据。很难属于公司的活动数据,如智能城市相关人员。后者需要上面提到的数据共同点来支持。
从数据的角度来看,现在有两种形式的数据存储:一种是像谷歌这样的公司在整个社会的一个横截面上拥有所有数据,这应该是一个特例,数据仅限于公共信息;它是与人类行为有关的各种数据,例如与电子商务相关的购物,与社交网络和IM中的人相关的,与O2O企业相关的离线服务,与铁路相关的12306等。谷歌拥有所有数据,但它没有人类行为,因此谷歌相当于拥有整个社会的横截面数据,而所有其他公司只拥有垂直领域的数据。
如果依靠企业做这种数据统一的尝试,前者将有20亿投资做O2O级,因为这将完成数据,后者会有一个想要社交的电子商务,社交我想做电子商务这样的事情。类似的故事可能发生在终端上。所有这些行为的最终目标是让公司完成所有这些,但这是不可能的。这不仅仅是一个经济原因。并且数据无法打开,那么您只能对碎片数据执行自以为是的大数据。
因此,这是关于是否可以建立数据公共土地的问题。如果你想建立一个数据公共土地,至少你必须解决谁将要做的问题。开源给予的启示非常重要:
首先,这不是一个盈利组织;
其次,这必须得到许多公司的支持。
由于数据与隐私相关,因此与开源相比,必须有更清晰的数据使用规则定义。
小结
在有一种解决所有数据和使用权的实用方法之前,大数据的应用应该是部分的。由于其深层应用涉及社会许多部分的协调,因此这个过程可能非常漫长。有趣的是,大数据的出现直接推动了机器智能的发展,机器智能可以比大数据本身更快地影响影响。
作者订阅号:zuomoshi(琢磨事)