如果您的邮件客户端截断了本文,您可以点击此处阅读在线版本。另请阅读以下脚注: 1
介绍
数据是新的护城河
越来越多的人达成共识:数据不是新的石油或新的黄金;它是更好的东西。数据是新的护城河。
我们正处于软件领域一场引人注目的争夺战之中。法学硕士(LLM)正在改变软件开发的方式,开辟出科技领域(尤其是服务业)此前从未涉足的广阔新市场,也让许多老牌企业显得苍老。这是企业抢占市场份额的千载难逢的机会,而许多初创公司正是如此。
乘着人工智能浪潮的初创公司正报告着前所未有的增长率。Bolt 在两个月内增长至 2000 万美元的年经常性收入 (ARR);Cursor 在 21 个月内从 100 万美元增长至 1 亿美元;OpenAI 的收入已达数十亿美元(别忘了,GPT-3 发布还不到五年)。高速增长的故事比比皆是。
有些护城河是众所周知且备受推崇的:网络效应、用户锁定和转换成本、品牌和定位、流程能力、独特IP、规模经济。其他一些护城河则鲜为人知或值得怀疑。2
但随着人工智能的出现,一种新的护城河应运而生:数据护城河。这并非巧合。
人工智能公司与数据护城河有着特殊的共鸣,因为数据和人工智能是同一枚硬币的两面。法学硕士需要大量数据进行训练、微调、学习和推理。而法学硕士能够以前所未有的技术方式释放数据的价值。这堪称商业模式的天作之合。3
所有旧有的护城河仍然有效——例如品牌效应或网络效应。你可以(也应该)构建它们。但它们与人工智能正交且独立,而数据护城河则不然。数据护城河强化了人工智能的优势,而人工智能的优势又强化了数据护城河。
数据护城河到底是什么?
大家都在讨论如何构建数据护城河。护城河已成定局。4
不幸的是,这类讨论的大部分内容都不太恰当。关于数据护城河及其运作方式,存在大量不完整、不一致或过时的想法。
这方面的典型错误包括:误以为数据是护城河,但事实并非如此;过度依赖薄弱的数据护城河;将其他护城河(例如规模)与数据护城河混淆;误解哪些数据属性促成了其“护城河性”;未能区分软件护城河和数据护城河;以及没有意识到数据护城河何时失效。内裤侏儒依然不败。5
本文旨在为讨论带来一些结构性、严谨性和当前的最佳实践。我将定义几种不同的数据护城河类别,解释它们何时以及如何(以及是否!)发挥作用,并探讨一些最大化其效力的策略。
会有案例研究!会有疯狂的猜测!会有违反直觉的结论!会有巧妙的措辞,我希望这些措辞能迅速传播!当然,也会有尖刻的旁白! 6继续阅读。
控制和循环
让我们从一些分类法开始。
我认为数据护城河有两类,也恰好是两类。我称之为数据控制和数据循环;每种类型的数据优势都可以归入其中一类或两类。
数据控制。如果你对一项关键资产拥有唯一的控制权,你就拥有了护城河。在数据世界中,这种控制有多种形式:唯一性、聚合、移动、使用、记录、行动、催化等等。我们将在本文的第一部分探讨数据控制。
数据循环。许多著名的商业护城河依赖于正反馈循环7,这些循环能够加速某些核心业务动态——例如,市场引力、用户网络效应、协议采用。许多数据护城河都表现出相同的模式。我们将在本文的第二部分探讨数据循环。
第一部分:数据控制
控制数据实际上意味着控制数据的价值;当没有其他人可以访问该价值时,护城河就出现了。
实现这一点有几种方法:你可以控制(唯一)数据的生产和所有权;你可以控制数据的内部或外部流动;或者你可以通过技术或其他手段控制数据的使用。创造价值;传输价值;提取价值:每一种方法都可以构建数据护城河。
这里的一个前提条件是,被控制的数据必须是有意义的。否则,“控制”就毫无意义:你不可能从一条无路可走的道路上收取通行费来赚钱。
独特且专有的数据
好的,所以你生产、捕获或拥有独特的数据。这些数据可能与产品使用情况、客户行为、行业动态或其他方面有关。你有护城河吗?可能没有。
独特的数据对于建立数据护城河来说既不是必要条件,也不是充分条件。之所以说它没有必要,是因为正如我们将看到的,还有其他(通常更好的)方法:控制数据的移动或使用,以及构建数据环路。而由于上文提到的“意义性”标准,它也不是充分条件。这个标准包含什么?
数据必须为您或您的客户提供实质性的价值。价值的微小差异意味着,即使没有这些数据,您也可能被在其他方面表现更佳的公司超越;而巨大的差异则意味着您无法被超越。
数据必须具有真正的竞争性。你使用它应该阻止其他人使用它,或者至少阻止其他人从中获得相同的价值。
数据必须没有功能替代品。无论竞争对手使用什么数据,无论是否相似,都不应能够实现类似的结果。
大多数数据集甚至连其中一个条件都满足不了,更不用说全部三个了。但如果三个条件都满足——如果你拥有独一无二、高价值、不可替代、只有你自己才能使用的数据——那么你可能就拥有了护城河。8
从历史上看,有几种方法可以获取此类数据:
作为核心业务的副产品。(这有时被称为尾气数据,类似于内燃机的尾气)。一个很好的例子是股票市场数据,纽约证券交易所和纳斯达克将其作为其核心交易所业务的副产品来获取。但这并非数据护城河。更大的核心业务可能会带来更多(或更好)的尾气数据,但反之则不然:纽约证券交易所的数据销售并没有为其交易所业务带来任何“额外”的防御能力。9
通过流程的力量。许多成熟的数据公司都遵循这一模板。想想Factset的财务报表数据,穆迪的评级数据,或者尼尔森的媒体消费数据:它们都依赖于数十年处理特定数据集并内化所有细微差别的专业知识。这就是护城河;无论你称之为数据护城河还是流程护城河,都只是语义问题。
通过大量投入时间和资源。这种模式的一些例子包括搜索引擎抓取网络数据、物流和配送公司绘制道路地图,以及自动驾驶出租车记录驾驶员与环境的互动。在每种情况下,公司获取的数据都会成为其技术的基础,进而成为其商业模式的基础,而其他公司无法轻易复制。这些都是真正的数据护城河。但是……
蛮力已死......
蛮力背后的商业理论是“我的资本支出就是你的进入壁垒”。企业投入时间和资源,抢在竞争对手之前获取数据,并利用这些数据获得市场主导地位。
不幸的是,这种方法现在不太管用了:
法学硕士让数据获取变得更容易。这不仅仅是简单一点,而是数量级的简单。你不需要数百名数据管理员工作数千小时,只需告诉人工智能代理去帮你获取数据即可。那些花费数年时间构建复杂的人工数据管道的公司现在必须与那些能够以 1% 的成本复制 99% 工作成果的新兴公司竞争。合成数据是另一种绕过暴力破解方法的途径。10
数据采集的资本成本低廉。融资市场已经完全消化了“惨痛教训”和“数据有效性的不合理性”。因此,用于强力数据采集的资金比以往任何时候都更加便宜。强力数据采集最终是对市场时机和资本成本的押注;一旦这些因素发生变化,这种策略就会化为泡影。11
知识传播,能力提升。谷歌在21世纪初构建的全球规模基础设施,使其能够快速抓取并索引整个互联网,这为其提供了重要的护城河(尽管PageRank功不可没)。如今,有数十家公司可以做到同样的事情,而且成本更低。知识传播,工具不断改进,超大规模企业将任何可计算的东西服务化,摩尔定律势不可挡地向前发展。昔日的优势如今已是商品。
使用“数据”的广义定义,可以更清楚地体现这种效果。吉卜力工作室耗费数十年时间,精心打造出一种其他动画工作室无法复制的华丽视觉风格:这就是用蛮力创造独特内容的精髓所在。
上个月,ChatGPT 为任何人打开了创作自己的吉卜力艺术作品的大门。
这对于创造力、知识产权、民主化和艺术家经济意味着什么超出了本文的讨论范围,但其潜在的主题——法学硕士学位让单纯的“努力”不再成为一种护城河——是明确的。
...蛮力万岁!
那么,暴力破解数据获取的护城河已经成为过去了吗?并非如此。在某些情况下,暴力破解仍然有用:
LLM 的上游——例如,为 LLM 训练标记数据( Scale 、 Mercor及其同类产品)、合成数据管道、专有评估等。
在法学硕士目前处于劣势的领域——例如“现实世界”的数据采集——音频、视频、物理、生物。(顺便说一句,这种情况不会持续太久)(这也是为什么这里会发生土地争夺战的原因)。
碎片化数据
控制数据的第二种有效方法是成为清算所;统一分散的数据资产或数据价值的中央存储库。
这是数据企业众所周知的模式;事实上,这很可能是它们的默认模式。想想彭博社、 LexisNexis和CoStar :它们分别是金融、法律和房地产数据的清算所。
清算所/统一化是真正的数据护城河,融合了独特性、处理能力和强力计算等要素。而且它不仅适用于专业数据业务!最近一个有趣的现象是,非数据业务也出现了类似的模式。
其理念是聚合/统一碎片化数据,然后通过软件产品将其货币化。以下是一些示例:
Rippling 、 Gusto和Remote.com汇总了数十个国家/地区的工资、承包商、福利、税收等方面的监管数据。这使得他们能够提供“统一的全球工资单”服务。
Stripe和Adyen对“全球支付处理”做了同样的事情,再次纳入了税收、身份验证、KYC 和 AML、数据隐私、报告、争议解决等方面的当地规则和法规,更不用说当地客户的习惯和偏好。
Numeral和Quandri都是早期初创公司,分别专注于各州的销售税和个人保险业务。这些系统高度分散,相互影响,因此数据统一极具价值。
在每种情况下,收集的数据对于业务提供至关重要,而其他人则难以收集:即数据护城河。
信息产生行动
放眼望去,我们在这里要统一什么?数据,没错,但要统一哪些数据?为什么?
本质上,这些数据是行动的基础。规则和条例必须遵守,而且它们大多是确定性的:它们直接导致行动。航班信息对于订票行为既是必要条件,也是充分条件;销售信息对于开展外展活动同样如此。信息催生行动。12
数据统一确实很难,但这也让它成为了一道很好的护城河。而数据统一加上顶层的操作层通常需要领域专业化,这使得它更加难攻。
销售丰富化展现了前沿技术如何随时间推移而变化。从D&B到Clearbit ,再到ZoomInfo ,再到Apollo ,再到Clay,这些发展历程分别讲述了如何通过整合碎片化数据、使其可通过 API 访问、利用网络效应、添加工作流以及在 AI 操作中进行分层来获取价值的故事。
控制数据移动
这是一个模糊的类别。部分原因在于界限:数据移动在哪里结束,数据使用又在哪里开始?部分原因在于重叠:拥有此类控制权的公司通常通过数据和非数据策略的组合来实现。让我们来看一些例子!
Visa或许拥有整个商业领域中最著名的网络效应13。一个耐人寻味(或许也颇具挑衅性)的说法是,他们的网络效应很大程度上基于对数据移动的控制。
想想看:当我用信用卡购物时,资金实际上并没有流动。流动的是数据:客户姓名及验证信息、交易详情、信用额度、未结余额、商户和银行ID、付款计划。资金流动要晚得多,而且也不是一对一的。
Visa 网络统筹协调所有这些——涵盖消费者、商户、支付网关、支付处理商、收单银行、发卡银行等等。节点和边缘构成了网络效应;而对这些节点和边缘的知识(和控制)构成了数据护城河。
任何中间商业务都容易受到去中介化的影响。以Visa为例,商家可以直接与银行沟通,查询客户的信用评分。但银行却没有这样做! Visa控制着这种互动。Visa控制着网络上几乎所有的数据流动。抽象出(巨大的)网络复杂性,正是吸引参与者加入并防止他们背叛的关键;从本质上讲,数据控制是网络效应的基础。
Amadeus和Sabre就像旅游业的专属签证,控制着航空公司、酒店、租车公司、旅行社和聚合器以及旅行者之间的数据流(库存、预订和身份)。Change Healthcare就像医疗行业的专属签证,控制着患者、医疗服务提供者、保险公司和政府支付项目之间的数据流(和支付)。
建立在控制外部数据流动基础上的企业利润丰厚,但数量稀少。更常见的是为客户内部管理数据流的企业。他们有护城河吗?
通常情况下并非如此。管理数据移动与控制数据移动是两码事。99% 的软件工具都在做数据移动,而大多数这类工具显然没有护城河。
例外情况是高度监管行业的数据流。例如,在医疗保健领域,患者数据高度敏感,您不能随意访问或移动它。因此,像Epic这样的公司专门管理内部数据访问(这也是一种记录系统效应;见下文),以及像Datavant这样的公司,专门在组织之间传输数据,同时保持安全性和隐私合规性(通过数据标准效应;再次见下文)。要摆脱这些束缚并不容易:好处有限,坏处却很大,所以大多数客户会坚持下去,而不是改变。14
数据使用情况
最后一种数据控制是最强大的:控制数据的使用。这是一个很大的子类别,涵盖记录和行动系统、催化剂数据以及外生数据护城河。
记录系统
记录系统(“SoR”)是最古老、最知名、最有效的数据护城河之一。
在任何大型组织中,信息都是分散的。它们散布在 Excel 文件和数据库、电子邮件和 Slack 频道、PDF 和演示文稿、用户手册和政策手册、合同和文件中。
拥有一个整合所有这些分散信息的平台,具有相当的防御性。这样的平台被称为“记录系统”,其目标是使其成为组织的“单一事实来源”。数据被传输到记录系统 (SoR);查询被发送到记录系统 (SoR);答案来自记录系统 (SoR)。如果信息在记录系统 (SoR) 中,你可以假设它是真实的;如果不是,则不能。15
SoR 的典型例子是Salesforce ,它整合了企业需要了解的有关客户和销售渠道的所有信息:日期、联系信息、互动历史、渠道阶段、预期价值、从机会到成交的进度、营销活动、客户服务和案例管理等等(非常非常多)。整个销售部门都依赖于 Salesforce;没有它,他们就无法运转。
Salesforce 在其他领域也有类似的情况。事实上,这对于 SoR 来说很常见。将组织的所有数据统一到一个 SoR 中既不切实际又低效;相反,每个功能都有单独的SoR。Salesforce专注于销售功能; Oracle负责财务管理, Workday负责人力资源, Quickbooks负责会计, Ariba负责供应链等等。每个 SoR 都充当其特定功能的唯一真实来源。16 17 18
回顾一下这些 SoR 公司的创立年份,将会很有启发:
SAP:1972年
甲骨文:1977年
史诗:1979
Quickbooks:1983年
阿里巴:1996年
Zoho:1996年
Salesforce:1999年
这真是令人震惊。这些都是寿命极长的企业——尤其是考虑到软件行业变化的速度;它们一定拥有令人难以置信的护城河。
SoR 为何如此具有粘性?
可以这么说,Salesforce 并不是一款广受欢迎的产品。没有人会对他们的 Salesforce 实例充满热情。但他们又离不开它;Salesforce 的用户黏性极强。
为什么会这样?因为 Salesforce控制着数据的使用。如果你需要关于潜在客户和客户的“准确”数据,你必须从 Salesforce 19获取。没有 Salesforce,你什么都做不了:你不能给潜在客户发邮件,不能更新他们的状态,不能了解他们的需求,不能签订合同,不能在合同结束后提供支持,不能为你的销售渠道建模,不能开展营销活动,等等。Salesforce 垄断了你的内部销售数据。
更重要的是,这种特权地位意味着大多数 Salesforce 实例都拥有多年的“工作流程壁垒”。这些壁垒既是程序性的:销售、市场营销和客户成功人员必须遵循的规则;也是技术性的:Salesforce 拥有整个应用商店的第三方工具来读取、写入、修改、可视化、呈现和分析其数据。
Salesforce 本身并不出色,但一想到要拆除一个实例、导出所有数据、将其加载到其他地方、复制所有应用功能、迁移所有用户,最终恢复到完整的生产流程,需要耗费大量精力,几乎所有迁移者都会望而却步。大多数大规模的 SoR 也是如此,所以它们才会如此“护城河” 。20
不再粘稠?
然后是法学硕士(LLM)。事实证明,从 SoR 导出数据正是 AI 代理擅长的那种繁琐任务。
近年来,我最喜欢的市场策略之一是,那些想要颠覆 SoR 模式的公司主动提出自己完成所有迁移工作:我们负责导出数据,导入新系统,添加新的应用挂钩,等等。关键在于,这并非“风险”,而只是“成本”,供应商很乐意承担这笔成本,以换取多年的生命周期价值 (LTV)。
讽刺的是,如果成本下降幅度不大,对 GTM 来说可能反而更好。SoR 迁移的难度导致客户流失率较低,而生命周期价值较高,这证明了供应商进行迁移工作的投资是合理的——但如果迁移成本下降太多,其他人也可能对你采取同样的措施;客户流失率会回升,这意味着生命周期价值下降,很快你就会陷入一场逐底竞争。数据粘度是你的朋友,直到它不再是朋友为止。
行动系统
记录系统垄断了内部数据。这种控制力使其既有价值,又具有防御性。但如果它们能发挥更大的作用呢?
毕竟,数据的价值完全在于其用途。您肯定不希望您的 SoR 成为数据“死亡”的地方21 ;您希望根据数据采取行动。
这种想法引出了下一个甚至更强大的数据护城河类型:行动系统(“SoA”)。
行动系统不仅仅是被动地存储数据,它们还能在数据之上实现操作。行动系统 (SoA) 与行动系统 (SoR) 的关键区别在于这些操作的具体性:操作层与数据层以及用户功能的紧密结合程度。
代理系统
显然,下一步就是系统自己采取行动。等等……我听到的音乐是谁的?
记录系统存储数据;行动系统使人类能够根据数据采取行动;代理系统本身则根据数据采取行动。
让我们继续上面的例子。在软件 SoR/代码库之上,人类的主要操作是什么?当然是编程!
哪种方法会胜出?这是一个价值百亿美元的问题。我喜欢这个关于颠覆者论点的总结:
相反的观点是,SoR 所有者将阻止这些应用程序,自行构建它们,并快速跟进任何面向用户的改进;他们在数据和分发方面的领先优势足以赢得市场。23
外生控制
下一组数据护城河是一个包罗万象的类别,我称之为“外生控制” 。在这种模式下,你控制数据的使用,不是通过数据本身的任何属性,甚至也不是通过管理数据的软件,而是通过外部的“胡萝卜加大棒”政策。以下是一些例子:
知识产权:无论数据是独一无二的、碎片化的、位于 SoR 中、受流程控制,还是以上皆非,都无关紧要:只要您拥有对其使用的独家知识产权,您就拥有了控制权。以标准普尔 500 指数为例:其底层数据是公开的,指数本身也极易复制,但标普全球每年通过授权获得约 10 亿美元的收益——授权对象包括资产管理公司(用于基准测试和 ETF)、交易所(用于指数挂钩衍生品)和银行(用于结构化产品) 。24
合同垄断:通过一份有利的合同垄断主要数据源。这在有效市场中是不可能的,但数据市场效率低下;数据集的定价往往(严重)错误。不幸的是,这种护城河是暂时的:如果数据最终证明具有价值,合同几乎肯定会在续约时重新谈判。这里最好的策略是利用你的合同护城河来争取时间,建立其他的防御性来源; IQVIA在药房数据方面正是这样做的,而Neustar在电信数据方面却未能做到这一点。
监管与合规护城河:如果政府强制要求人们使用特定数据集,那么对于拥有、控制或实施该数据的公司来说,这就构成了一条护城河。能源之星(ENERGY STAR)项目就是一个很好的案例:像ICFI 、 Leidos 、 DNV和Guidehouse这样的公司通过向政府和私营部门客户提供这些认证,每年赚取巨额收入。其他项目也存在类似的模式,例如 CAFE、空气和水质量、FDA 标签……
你会注意到,外生控制通常与政府行动相关。而政府行动具有很强的惯性:启动困难,一旦启动就更难停止。国家支持的数据护城河! 25
催化剂数据
值得一提的是,一种独特的数据是催化剂数据:其价值来自于启用或激活其他数据的使用。这一类别之所以有趣,是因为它是一种“间接控制”——你无需直接控制启用的数据,它可能并非你独有或专有,但你确实控制着从中提取价值的能力——这意味着你可以获得不成比例的经济效益。
这里有几个例子;在每种情况下,“激活”都是“实质上增加价值”的同义词。
谷歌:用户意图数据激活搜索结果数据
亚马逊:购买历史数据激活产品列表数据
Acxiom :客户资料数据激活基本营销列表
任何社交媒体公司:浏览历史记录可激活新内容
CUSIP、DUNS、LiveRamp、Datavant:唯一标识符激活孤立的情报
FICO、尼尔森、评级机构、IQVIA:共识基准激活非锚定绩效数据
在每个例子中,第二个数据集本身都具有一定的基准价值,但第一个数据集的加入使其价值大大提升。事实上,你可以说,上述公司之所以能够在各自的行业中占据主导地位,正是因为它们率先找到了如何释放“可用”数据集价值的方法。26
催化剂数据的一个有趣之处在于,从实证研究来看,它似乎会导致赢家通吃,或者至少是赢家通吃大部分的市场。这在一定程度上是幸存者偏差:毕竟,你从未听说过哪些催化剂数据集没有带来巨大的成果。
但它也反映了两种模式。首先,催化剂数据一旦发挥作用,往往会产生非常好的效果——它能为(尚未开发但通常利润丰厚的)数据资产带来巨大的价值。其次,催化剂数据通常与各种数据环路同步运作:行业标准、共识基准、用户网络效应等等。我们将在本文后面更详细地探讨这一点。
数据控制总结
下面是一个方便的图表,总结了我们迄今为止所学到的知识:
插曲
这篇文章我们已经读了一半了。如果你还没有订阅我的新闻邮件,现在是时候订阅了。
我偶尔会撰写一些深入原创的文章,探讨我拥有丰富专业知识的领域:数据、投资和初创企业。点击此处了解更多。
第二部分:数据循环
数据护城河的第二个主要类别是数据循环:一个将数据和商业价值联系起来的正反馈过程,形成良性循环。数据改善业务,业务又改善数据(就“改善”一词的某些价值而言),飞轮旋转得足够快,以至于没有竞争对手能够赶上。
对许多人来说,这是最熟悉的数据护城河27形式,也是最容易被误解的形式。有些数据环路可以构成坚固而确定的护城河。另一些则比较薄弱,规模有限,或存在隐藏的漏洞。还有一些虽然有效,但它们根本不是数据护城河;它们依赖于规模或网络效应,你可以将数据部分移除而不会造成任何损失。
数据循环主要分为三大类:数量循环、学习循环和使用/价值循环。让我们深入探讨一下这三大类。
数量循环
数量循环是数据循环中最简单的一个:数据吸引数据。这可以通过多种不同的机制实现:
用户生成内容(UGC)循环
这就是驱动Facebook、Youtube、Instagram、TikTok、X甚至LinkedIn 的循环。所有这些平台都免费托管用户生成的内容:照片、视频、帖子、简历。这些内容吸引其他用户,而这些用户又会发布更多内容。内容越多,用户就越多;而且,内容越多,推荐效果越好,从而用户数量也随之增加。所有这些用户的存在(以及他们的注意力!)吸引了广告商,而广告商则为所有这些内容提供补贴。
当然,内容只是数据的另一种说法。这是一个完美的数据量循环,一旦成熟,既有利可图,又难以被取代。
同样引人入胜的是,一些公司利用这种循环,在达到一定规模后却走向衰落。想想 MySpace、Tumblr、Quora、Vine、Digg,或许还有 Stack Overflow 28 。它们(所谓的)数据护城河怎么了?
原因多种多样——失败是由多种因素决定的!——灾难性的并购(新闻集团收购 MySpace,雅虎收购 Tumblr),未能有效盈利(Quora 的付费墙),自作自受(Tumblr 的 NSFW 禁令),产品失误和技术债务(其中大部分),以及与顶级掠食者 Facebook的竞争(所有原因)。29 30
但从根本上讲,这些只是导火索。UGC数据循环的问题在于,它建立得快,逆转得也快。每个人都会去灯光最亮的地方;反之,每个人都会逃离鬼城。失误如果不迅速扭转,就会被判处死刑;惯性是个反复无常的朋友。所以,这条护城河具有欺骗性:它比表面上看起来更容易受到攻击。
搜索引擎优化 (SEO) 循环
一旦规模扩大,经典的 UGC 循环往往会导致内容“围墙花园”,用户永远不会离开,甚至不想离开。但还有另一个非常相似的循环,用户不断被重新获取,而 SEO 正是这种重新获取的引擎。
这就是SEO数据循环。用户创建内容,或者平台本身以程序化的方式生成内容;其他用户在寻找特定内容时,会通过谷歌或其他搜索引擎找到平台。31
“寻找特定内容”这句话很重要。与UGC循环不同,SEO循环以任务为导向,而不是以Feed为导向。内容必须有用,并且能够真正回答用户的搜索查询。
有哪些有用的内容?范围很广:
Reddit和Quora回答具体问题
Expedia 、 Booking 、 Kayak等提供旅行信息和活动
Yelp和TripAdvisor提供服务评论
Zillow房价
Glassdoor和LinkedIn涵盖了职业生活的各个方面
这些公司以不同的方式盈利。广泛的横向平台倾向于通过广告盈利,而垂直平台则主要通过联盟营销或潜在客户开发。还有一些平台通过订阅或服务盈利。潜在客户开发尤其有利可图——例如保险、金融产品、法律服务、医疗保健、教育、旅游、房屋维护——以至于出现了一个服务目录的小型产业,其存在的唯一目的就是汇总提供商数据、获取谷歌流量并收取介绍费。
在每种情况下,增加更多数据都会提升这些网站的搜索权益,带来更多流量,进而(直接或间接地)获得更多数据。飞轮解锁,护城河建立。
这条护城河有多坚固?在谷歌时代——大致是2005年到2020年——这条护城河相当坚固。许多价值数十亿美元的企业正是通过这条护城河建立并守护起来的。
但这个时代可能即将结束,连同这条护城河。一个原因是过度饱和:市面上有太多人工智能垃圾,谷歌搜索根本没那么有用32 33。另一个原因是非中介化:法学硕士已经在纯信息查询中取代搜索,而代理可能很快会在导航和交易查询中做同样的事情。这将绕过构建 SEO 循环的整个搜索-学习-选择-购买渠道。34 SEO 循环的最后一个阻力是内容迁移到付费墙和登录后面。人们正在锁定他们的数据资产;告别完全开放的网络。
Stack Overflow提供了一个警示故事。Gergely Orosz根据Theodore Smith的数据制作了这张流行编程网站上每月发布的问题图表,说明了一切:
最初,搜索流量推动了产品的急剧增长。之后,尽管产品变化不大,但近十年的稳定期一直持续。竞争对手肯定应该在这段时间里出现吧?但事实并非如此,这恰恰证明了这条护城河的力量。
SaaS数据引力
恒星通过吸积形成。在弥漫的宇宙尘埃云中,局部聚集的物质会吸引更多物质,形成引力螺旋,最终温度和压力足以引发核聚变。
从经验上看,软件也表现出类似的模式:扩散被集中取代。其工作原理如下。
很多软件最初都是通过“楔子”来销售的——将目标客户的范围缩小、成本降低、风险降低。第二步是“落地并扩张”,获得更多用户、应用和收入;这通常意味着“走向多产品化”。
但是,哪些软件工具能够发展壮大,哪些又会失败呢?恒星形成的类比给出了答案:赢家是那些已经实现局部聚集的软件工具。
有时,它是“工作流程”的本地集中——客户喜欢将多个工具组合成一个工具来提高生产力,但他们讨厌切换流程,因此,拥有最频繁或最重要的工作流程的平台往往会吞噬其他平台。
控制最重要或最有价值数据的工具往往会吞噬那些数据边缘化、效率较低或集成度较差的工具。
Toast是一个很好的案例。Toast 最初是为餐厅提供销售点 (POS) 系统。拥有前台订单数据使其占据了先机,得以将业务拓展至厨房展示单、在线和移动订餐、面向消费者的应用程序、配送集成、礼品卡、支付等领域,并最终进军餐厅融资、薪资、人力资源等领域。所有其他功能都有竞争对手的应用程序拥有自己的数据,但 Toast 的 POS 数据既重要又核心;它的强大引力使其能够吞并其余业务。35
数据引力护城河与记录系统护城河类似,但又不尽相同。这两种护城河都受益于工作流锁定、数据粘度和使用控制。它们的区别在于动态性。
SoR 本身并没有增长的内在要求或预期:即使在静态时,它们也具有极强的粘性。但对于数据引力环来说,增长至关重要:数据覆盖范围、产品用例、受众群体以及表面积的增长。36
垂直 SaaS 中的数据引力是最好的数据护城河之一,尤其是因为它可以融入许多其他(非数据)护城河:工作流、信任、收入控制和网络效应。
给予-获得(G2G)循环
这是数据业务的常见模式。在G2G循环中,企业的客户只有在(有时只有)他们也为企业贡献数据的情况下才能获得数据。企业拥有的数据越多,对客户的吸引力就越大——因此,他们注册并贡献数据的可能性也就越大!因此,当初始临界质量达到一定水平时,正反馈就会开始发挥作用。
纯粹的“付出-收获”循环是指贡献的数据与接收的数据相同;价值由聚合行为创造。Waze 就是一个很好的例子:用户贡献(个人)并接收(聚合)交通数据。事实上,地理聚合似乎是 G2G 模型的一个共同主题——想想 OpenStreetMap、Weather Underground 和 GasBuddy。
具有双向评论系统的市场(例如Airbnb - 房东评论客人,客人评论房东)也是有付出才有收获,但这里的价值不在于聚合,而在于消除评论中的选择偏差,从而建立信任。
一旦达到临界质量,付出即收获的过程就变得相当艰巨。难的是如何到达那里:这是一个典型的“冷启动”问题,其中的挑战和解决方案与市场企业从0到1的阶段非常相似。37
匿名化
聚合并非清算所和“给予即获取”模式的唯一优势。匿名化也至关重要。这是出于竞争原因——企业总是会有一些特定的业务细节不愿与竞争对手分享,但有时很难在不泄露这些细节的情况下“提供”数据。因此,你需要一个能够处理这些细微差别的中立方。此外,这还出于监管原因——隐私法规定了企业可以和不可以共享哪些信息,而添加匿名层可以使流程更加轻松、安全且合规。这本身并非真正的护城河,但它使实际的护城河(清算所或数量环路)更具韧性。
学习循环
学习循环是数据循环的下一个主要分支。企业利用(“从中学习”)数据来提升运营效率;而运营效率的提升则有助于他们获得更多、更优质的数据。我在《人工智能时代的数据》一书中曾探讨过这个飞轮;以下是它的一个简化版本:
这个循环确实有效,而且规模化之后效果格外好。但它并非护城河。
事实上,“数据学习循环”与“独特数据”并列“并非真正护城河”类别的榜首。我已经讨论过独特数据;但为什么学习如此不具备护城河的性质呢? 38
这是一个极限问题。商业效率不会随着数据输入无限增长;相反,学习的价值在达到一定水平后会趋于稳定。与此同时,成本则呈现出相反的模式:长尾效应和边缘案例效应在规模化后开始显现,使得“推动趋势”的数据收集成本更高。获取成本上升,边际数据价值下降;换句话说,优势会随着规模化而减弱,而不是加速增长。这并非护城河。
有两个半例外。
第一个阶段是我所说的商业模式解锁:当你的学习循环达到一个神奇的阈值时,它就能实现一种没有这种学习就不可能实现的商业模式。阈值效应在这里很重要:你需要客户价值函数的不连续性才能让这条护城河发挥作用。
Amazon Prime是商业模式解锁的一个很好的例子。一旦亚马逊获得了足够的数据(“学习”),了解客户行为、购买模式、订单频率、仓库位置、库存管理、配送调度、路线优化等,它就能提供“免费”的两日送达服务。这开启了多个良性循环(时间方面——订单频率和拥挤的路线——以及空间方面——仓库和司机密度),摧毁了所有其他水平市场。这些数据不仅推动了亚马逊运营的迭代、渐进和量化改进(经典的、非护城河式的学习循环);它还催生了一项竞争对手根本无法比拟的全新服务。这真是一条不可思议的护城河。
第二个例外是数据业务。这并不是说(增加的)成本和(减少的)价值效应不适用于数据业务;只是数据赋予了他们一系列其他杠杆(独特的数据产品、更简单的GTM、价格歧视、生态系统策略)来抵消这些影响。我在《数据业务的经济学》一书中写到了这些杠杆。
人工智能是半个例外。在人工智能中,结果似乎会随着数据输入无限扩展,从而消除了这一特定限制。另一方面,这里并没有真正的循环;一切都发生在预训练阶段。测试时推理方面的最新进展(尤其是跨用户/跨会话学习的诱人前景)可能会改变这种情况,但我们还没有完全做到这一点。39
二次学习循环
此外,还存在“非核心”或“次要”数据学习循环,它们比核心学习循环更弱,护城河也更弱。为了完整起见,我在这里将它们列出来:
数据质量循环:有一定的价值,但质量并不是护城河。
产品推荐循环:特征值和电子商务是一个很酷的组合,但也不是护城河。
产品优化循环:哈哈,不。A/B 测试连个浅沟都算不上。40
我听说这些都被称为防御性的物质来源。不。
如果所有这些数据学习循环都如此薄弱,为什么它们能如此牢牢地抓住大众的想象力呢?我怀疑这主要是出于政治原因。“我们之所以成功,是因为我们利用数据和技术提供了更好的服务”比“我们之所以成功,是因为我们对注意力、商业和设备收取垄断性费用”更有说服力。
旁白:巴顿和冯·安的循环
我想重点介绍两位数据环创业者: Rich Barton和Luis von Ahn 。他们各自创立了多家十角兽企业或类似企业,并采用了清晰而独特的方法:
Rich Barton 的策略:找到一个拥有高价值、碎片化且不透明知识的行业;将这些隐藏的知识公开化;控制搜索流量;掌握该行业的“客户需求”;重复。他曾在旅游( Expedia )、就业( Glassdoor )和购房( Zillow )等行业做到过这一点。Kevin Kwok 就此写过一篇精彩的文章。
路易斯·冯·安的剧本:找到一个标签问题,让用户从标签行为中获得效用——也就是双边学习循环。在Duolingo中,用户学习一门语言,同时也翻译未翻译的书籍。在Recaptcha中,用户验证身份,同时也标记模糊图像。( Mercor ,并非冯·安的公司,似乎也在沿着类似的思路开展工作。)
还有哪些可复制的数据护城河策略?在《数据商业经济学》一书中,我假设我们将看到大量利基市场、垂直细分领域的 B2B 数据企业涌现。一年后, Travis May创立了 Shaper Capital,旨在孵化这类企业——“解决各行各业的数据碎片化问题”,就像他之前在独角兽公司LiveRamp (身份识别)和Datavant (健康)所做的那样。我将非常关注 Travis May 的策略。
引导程序和 Switch
尽管学习循环本身可能不是一种可持续的护城河,但它们仍然很有价值,因为我称之为引导和切换的极其有效的模式的第一阶段。
在这种模式下,你首先会构建一个数据学习循环,以改进产品并扩大客户群;但随着规模的扩大,你会构建其他网络效应和防御能力,从而成为你的长期护城河。这种模式在内容企业( Facebook、Netflix、Youtube )和平台( Doordash、Uber、Airbnb )中最为常见。
每当推荐或匹配在平台的增值中扮演重要角色时(如上例所示),学习就变得极具价值,并推动快速增长。但这些企业的长期护城河来自网络密度、用户信任、规模经济和注意力聚合,而不是学习。
使用/价值循环
下一个数据循环,也可能是我最喜欢的,是使用/价值循环:特定数据资产的使用范围越广,它对用户的价值就越高。拥有或控制这些数据资产的人就能创造财富。
这个循环有几种不同的风格:
数据交换标准
您提供一个行业范围的“主键”,用于链接不同公司持有的记录。Factset 的CUSIP标识符就是一个很好的例子:它允许资本市场参与者清晰明确地就他们交易的证券达成一致。
在金融化的世界里,债务和股权类别、上市地点和证券类型多种多样,这一点至关重要:没有CUSIP,企业根本无法在资本市场运作。使用它的人越多,它就越有价值/更普遍/更有利可图/更重要。这对行业来说是一种负担,采用它的回报也会越来越高!
(与 CUSIP 类似的产品有DUNS 、 VIN和ISBN ;此类别似乎对首字母缩略词情有独钟。)
商业评估标准
你提供了一个全行业的“基准”,每个人都用它来评估或定价交易。标普500指数就是一个很好的例子:每个投资经理(以及投资经理团队中的每个有限合伙人)都会将自己的业绩与该指数进行比较,而且它还被用来为衍生品、结构性产品、ETF等等进行定价。同样,它被使用的越多,就越占主导地位。又是一种税收!
(类似产品:尼尔森收视率基准、企业和主权风险评级、 FICO分数。)
直通环路
我之前谈到了为什么大多数数据学习
文章声明:以上内容(如有图片或视频亦包括在内)除非注明,否则均为谈天说币原创文章,转载或复制请以超链接形式并注明出处。