從大數(shù)據(jù)到好猜想:關(guān)于大模型時代消費者的理解
范凌的泛談 | 2025-08-05 23:40
【數(shù)據(jù)猿導(dǎo)讀】 一位品牌客戶說:“我們想通過分析社交媒體數(shù)據(jù),進(jìn)行新品研發(fā)、競品對比、銷售賣點提取。能不能爬取各個平臺的全量數(shù)據(jù)來分析?小紅書、抖音、微博、B站...越全越好。”

00. 一個常見的商業(yè)需求
一位品牌客戶說:“我們想通過分析社交媒體數(shù)據(jù),進(jìn)行新品研發(fā)、競品對比、銷售賣點提取。能不能爬取各個平臺的全量數(shù)據(jù)來分析?小紅書、抖音、微博、B站...越全越好。”
確實,社交媒體是個數(shù)據(jù)寶藏。每天有數(shù)億用戶在上面分享他們的真實想法、使用體驗、購買決策。如果能把這些“全量數(shù)據(jù)”都抓取下來,進(jìn)行分析和歸因,似乎就能洞察一切。
但是,我想追問幾個問題:
-
爬取全量數(shù)據(jù)合法合規(guī)嗎?(大部分平臺明確禁止)
-
爬取全量數(shù)據(jù)要多少成本?(一個平臺就要數(shù)百萬)
-
爬取數(shù)據(jù)更新頻次是多少?(實時?每天?每周?)
-
如何清洗這些數(shù)據(jù)?(虛假內(nèi)容、水軍、廣告...)
-
最關(guān)鍵的:如何從噪音中提取信號,產(chǎn)生真正的商業(yè)洞察?(熱門≠真實,聲量≠影響力)
這個需求隱藏著一個追問:
我們追求正確的目標(biāo)的方法足夠正確嗎?
更讓人深思的是,就在這次會議的同一周,我了解到一個僅有40人的新消費品牌,沒有爬取任何“全量數(shù)據(jù)”,只是深度訪談了30個用戶,卻準(zhǔn)確預(yù)測了一個細(xì)分市場的爆發(fā),半年內(nèi)做到了細(xì)分類目第一,區(qū)別在哪里?
01. 橙汁理論
用一個思想實驗來解釋這個悖論。想象兩個實驗室都在研究橙汁:
實驗室A
配備了最先進(jìn)的光譜儀和色譜儀。他們精確分析出:水分85.97%,蔗糖4.23%,果糖3.82%,葡萄糖1.95%,檸檬酸0.92%,維生素C 47.3mg/100ml...數(shù)據(jù)精確到小數(shù)點后兩位。
實驗室B
只有一個目標(biāo):調(diào)配出讓你的味蕾產(chǎn)生“這就是鮮榨橙汁”反應(yīng)的飲料。他們不斷嘗試,不斷調(diào)整,直到10個品鑒師中有9個說:“這就是橙汁的味道。”
實驗室A得到“真實”(Real)——橙汁的客觀組成;
實驗室B得到“真相”(True)——橙汁的主觀體驗。
如果你是品牌方,想推出一款橙汁飲料,你會選擇哪個實驗室的方案?
“真實”告訴你邊界——什么是安全的、合法的、可行的。
“真相”告訴你方向——什么是用戶真正想要的、會為之買單的、能創(chuàng)造價值的。
在商業(yè)世界,我們經(jīng)常容易找到了“真實”,但不一定能找到“真相”。
我們知道用戶的每一個點擊(真實),卻不知道點擊背后的渴望(真相);
我們測量了每一個轉(zhuǎn)化率(真實),卻不理解轉(zhuǎn)化背后的動機(jī)(真相);
我們統(tǒng)計了每一個關(guān)鍵詞(真實),卻不明白詞語背后的情感(真相)。
02. 大數(shù)據(jù)的局限
回到開頭那個美妝品牌的故事。他們的數(shù)據(jù)分析無懈可擊:
“天然成分”提及量增長892%;
“敏感肌友好”互動率提升34%;
競品平均價格區(qū)間35-45美元;
目標(biāo)人群Instagram活躍時間晚8-10點。
基于這些“洞察”,他們推出了主打天然成分、敏感肌適用、定價39.99美元的產(chǎn)品線,并把營銷預(yù)算的70%投在了Instagram晚間時段。
但他們沒有理解的是:
當(dāng)25歲的Emma在說“我想要天然護(hù)膚品”時,她真正表達(dá)的是“我想要一個不那么復(fù)雜的生活”。她剛從大學(xué)畢業(yè),面對職場壓力,懷念校園時代的簡單。“天然”對她來說,不是成分表上的植物提取物,而是一種“回歸簡單”的生活態(tài)度;
當(dāng)28歲的Jessica提到“敏感肌”時,她其實在說“我受夠了不斷試錯”。她的梳妝臺上有17瓶半用完的護(hù)膚品,每一瓶都代表著一次失望。“敏感肌友好”對她來說,不是低刺激配方,而是“這次不會再讓我失望”的承諾。
那個成功的新品牌做對了什么?
他們只深度訪談了30個用戶,每次2小時。創(chuàng)始人親自參與每一場訪談,不是問“你喜歡什么成分”,而是問“早上照鏡子時,你在想什么?”最后,他們的產(chǎn)品文案不是“98%天然成分”,而是“讓護(hù)膚回歸到只需要三步的簡單”。不是“敏感肌專用”,而是“我們測試了1000次,所以你不用再試錯”。
銷量差異的背后,是理解深度的差異,
是用“好數(shù)據(jù)”來實現(xiàn)對“大數(shù)據(jù)”的祛魅。
03. 歸納主義的困境
為什么真實的數(shù)據(jù)不一定代表真相?答案藏在一位英國量子物理學(xué)家的書里。大衛(wèi)·多伊奇在《無窮的開始》中講了一個發(fā)人深省的故事:
火雞每天早上9點被喂食。它們中的科學(xué)家收集了數(shù)據(jù):
第1天:9點,食物出現(xiàn) ?
第2天:9點,食物出現(xiàn) ?
第3天:9點,食物出現(xiàn) ? ...
第364天:9點,食物出現(xiàn) ?
基于364個數(shù)據(jù)點,火雞的科學(xué)家得出結(jié)論:“每天9點必然有食物”。
它甚至可以計算出置信度:99.7%。
第365天是感恩節(jié)。
這就是歸納主義的致命缺陷:無論你有多少數(shù)據(jù),都無法保證下一次會發(fā)生什么。
多伊奇指出,歸納主義錯誤有三個層次:
第一、邏輯層面:從特殊到一般的推理本身就是謬誤
想象你是Netflix的數(shù)據(jù)科學(xué)家:
-
觀察:用戶A看完《紙牌屋》后看了《絕命毒師》
-
觀察:用戶B看完《紙牌屋》后看了《絕命毒師》
-
觀察:用戶C、D、E...都是如此
-
結(jié)論:看完《紙牌屋》的人會看《絕命毒師》
但這個結(jié)論是怎么得出的?多伊奇提醒我們:在邏輯上,你永遠(yuǎn)無法從“所有觀察到的天鵝都是白的,推出所有天鵝都是白的”。因為你的觀察永遠(yuǎn)是有限的。
第二、實踐層面:相關(guān)性不等于因果性
即使相關(guān)性是真的,也不意味著你理解了原因:
-
數(shù)據(jù)顯示:冰淇淋銷量與溺水事故高度相關(guān)
-
歸納推理:冰淇淋導(dǎo)致溺水?
-
真實原因:夏天(你沒測量的變量)
在商業(yè)中,這種錯誤每天都在發(fā)生:
-
?使用深色界面的App用戶留存率更高 → 所以都改成深色模式?
-
?購買有機(jī)食品的人更長壽 → 所以賣有機(jī)食品能讓人長壽?
-
?周二的轉(zhuǎn)化率最高 → 所以把所有營銷預(yù)算投到周二?
第三、認(rèn)識論層面:知識不是從數(shù)據(jù)中“提取”出來的
這是多伊奇最深刻的洞察。他問了一個問題:如果知識來自歸納,那么第一個知識是從哪里來的?
答案揭示了一個驚人的真相:知識是被創(chuàng)造的,不是被發(fā)現(xiàn)的。
04. 科學(xué)進(jìn)步來自于猜想
多伊奇提出了一個革命性觀點:科學(xué)理論并不是“推演”而來的,它們就是一些猜想——大膽的推測。正如他所說:“發(fā)現(xiàn)一種新的解釋,本質(zhì)上是一種創(chuàng)造性的行為。要把天空中的光點解釋成白熱的、直徑數(shù)百萬千米的球體,必須先對這類球體有一個概念...這樣的想法不會自發(fā)產(chǎn)生,也無法根據(jù)任何事物機(jī)械推演而得:它們必須是猜出來的——隨后可以接受批評和檢驗。”
多伊奇用科學(xué)史上最偉大的發(fā)現(xiàn)來證明他的觀點:
愛因斯坦的相對論:不是因為他有更多實驗數(shù)據(jù),而是他猜想:“如果光速是恒定的會怎樣?”這個猜想違反直覺,但解釋了所有已知現(xiàn)象,還預(yù)測了新現(xiàn)象。
達(dá)爾文的進(jìn)化論:不是因為他觀察了更多物種,而是他猜想:“如果生命通過自然選擇演化會怎樣?”這個猜想統(tǒng)一了生物學(xué)的所有觀察。
魏格納的板塊構(gòu)造理論:不是因為地質(zhì)學(xué)家收集了更多巖石樣本,而是魏格納猜想:“如果大陸在漂移會怎樣?”這個當(dāng)時被嘲笑的猜想,最終解釋了地震、火山、山脈的形成。
多伊奇認(rèn)為:
科學(xué)進(jìn)步的模式不是“觀察→歸納→理論”,
而是“問題→猜想→批判→更好的猜想”。
但是,不是所有猜想都有價值。多伊奇定義了“好猜想”的標(biāo)準(zhǔn),我把它翻譯成商業(yè)語言:
1. 難以篡改(Hard to Vary):
多伊奇用了一個精妙的例子,為什么科學(xué)理論比神話更好?古希臘神話解釋冬天:冥后珀耳塞福涅被劫持到冥界,大地女神得墨忒爾傷心,植物停止生長。 科學(xué)解釋冬天:地球軸傾斜23.5度,導(dǎo)致不同季節(jié)接收太陽輻射量不同。
區(qū)別在哪?神話可以隨意修改(為什么是傷心不是憤怒?),但你不能隨意把23.5度改成30度——這個數(shù)字是被物理規(guī)律鎖定的。
商業(yè)中的應(yīng)用:
-
?壞猜想:“用戶不買是因為價格太高”——這個解釋太容易改了,價格低了還可以說“質(zhì)量感知不足”;
-
?好猜想:“千禧一代拒絕抗衰老產(chǎn)品是因為購買行為與自我認(rèn)知沖突”——這個解釋很難隨意修改,它指向特定的心理機(jī)制。
2. 可以檢驗(Testable):
好的猜想必須冒著被證偽的風(fēng)險。如果一個理論怎么都是對的,那它什么都沒說。
商業(yè)中的應(yīng)用:
-
?壞猜想:“用戶想要更好的體驗”——怎么驗證?什么叫"更好"?
-
?好猜想:“職場女性購買護(hù)膚品是在購買‘掌控感’”——可以設(shè)計實驗驗證:強(qiáng)調(diào)“掌控”vs強(qiáng)調(diào)“呵護(hù)”的文案轉(zhuǎn)化率
3. 解釋深度(Explanatory Depth):
多伊奇特別強(qiáng)調(diào)好的解釋不僅要說明“是什么”,更要解釋“為什么”。而且這個解釋應(yīng)該能統(tǒng)一看似無關(guān)的現(xiàn)象。
商業(yè)中的應(yīng)用:
-
?壞猜想:“用戶喜歡簡約設(shè)計”——只解釋了表象
-
?好猜想:“信息過載讓用戶將‘簡約’等同于‘可信賴’”——解釋了現(xiàn)象背后的心理機(jī)制,還能預(yù)測其他行為(比如為什么用戶也偏好精簡的產(chǎn)品線)
05. 大數(shù)據(jù)比好猜想易操作
如果好猜想這么重要,為什么大多數(shù)公司還是采用大數(shù)據(jù)的歸納主義呢?
首先,猜想需要勇氣,數(shù)據(jù)提供安全感:跟老板說“基于數(shù)據(jù)顯示...”永遠(yuǎn)比說“我的理論是...”更安全。即使失敗了,你也可以說“數(shù)據(jù)當(dāng)時確實是這樣”。
其次,猜想需要跨界的思維模型,理解“身份認(rèn)知沖突”需要心理學(xué)知識,理解“社會資本信號”需要社會學(xué)知識。但看懂“點擊率提升23%”只需要會看數(shù)據(jù)報表。
另外,猜想很難規(guī)?;?,數(shù)據(jù)可以自動化,一個優(yōu)秀的用戶研究員一年可能產(chǎn)生10個好猜想。一套數(shù)據(jù)系統(tǒng)一天可以產(chǎn)生10000個圖表。
在KPI驅(qū)動的組織里,你選哪個?最后,猜想的價值很難即時證明,“用戶購買奢侈品是在購買‘理想自我’”——這個洞察可能需要整個營銷戰(zhàn)役才能驗證。但最深層的原因是:我們沒有工具來增強(qiáng)猜想能力,所以我們用數(shù)據(jù)簡單歸納取代了猜想。
06. 大模型帶來的商業(yè)啟蒙
啟蒙運(yùn)動的核心是人類開始相信通過理性思考和科學(xué)方法,我們可以理解世界的運(yùn)作規(guī)律,而不僅僅依賴權(quán)威和傳統(tǒng)。在商業(yè)世界中,我們也可以從依賴數(shù)據(jù)權(quán)威轉(zhuǎn)向理性地理解用戶行為的深層機(jī)制。大語言模型,有機(jī)會讓“規(guī)?;牟孪?rdquo;成為可能,Atypica.AI就是我們的一個嘗試。
還記得橙汁的比喻嗎?傳統(tǒng)的社媒聆聽(Social Listening)就像采用“大數(shù)據(jù)”的方法分析橙汁的化學(xué)成分;而Atypica.AI采用了“大模型”的方法——它像是將橙汁提煉成濃縮粉,然后用語言模型作為“水”,重新還原成橙汁。
這杯“合成橙汁”雖然不是天然的(真實),但它努力模擬橙汁的完整體驗——不僅包括口感、色澤、營養(yǎng)特征(真相),更重要的是模擬了人們品嘗橙汁時的認(rèn)知過程和情感反應(yīng)。Atypica.AI通過構(gòu)建“真實人格智能體”(Real Person Agents),這些智能體保持一致的認(rèn)知模式、情感反應(yīng)和決策框架,能夠在85%的準(zhǔn)確率上模擬真實人類的行為決策。
為什么這種方法能夠產(chǎn)生好的猜想?當(dāng)Atypica.AI基于社媒數(shù)據(jù)或訪談?wù)Z料構(gòu)建消費者智能體時,它實際上是在回答一個核心問題:“什么樣的心理機(jī)制和認(rèn)知框架能夠產(chǎn)生這樣的表達(dá)和行為?”這不是歸納統(tǒng)計,而是解釋性理論的構(gòu)建過程——一種對人類決策機(jī)制的科學(xué)猜想。
傳統(tǒng)方法研究用戶就像研究橙汁的化學(xué)成分,即使掌握了所有標(biāo)簽,也難以完全重構(gòu)用戶的復(fù)雜性。而大模型方法通過“語言模型”來理解商業(yè)中的主觀因素,自動構(gòu)建人格畫像、進(jìn)行訪談、分析模式,揭示人類選擇背后的情感和認(rèn)知因素。這個過程的原理和效果可以參見《為什么AI可以模擬真實消費者》一文。
讓我們看看下面的案例:
案例一:一家食品公司想推出針對年輕白領(lǐng)的圣誕禮盒。
社媒數(shù)據(jù)顯示:
“精美包裝”提及率68%
“實用價值”關(guān)注度52%
“創(chuàng)意設(shè)計”互動率增長35%
Atypica.AI的發(fā)現(xiàn):
有一群“創(chuàng)意禮物探索者”人格的消費者,他們不是在買禮物,而是在尋找“表達(dá)自己品味的載體”;
41%的用戶抱怨包裝過于復(fù)雜——不是因為難拆,而是“感覺像在炫技而不是送禮”;
關(guān)鍵洞察發(fā)現(xiàn),迷你組合裝受歡迎,不是因為“嘗試多樣”,而是“降低送禮失敗的風(fēng)險”。
案例二:護(hù)膚品不是護(hù)膚品
某國際護(hù)膚品牌想了解為什么在中國市場表現(xiàn)不如預(yù)期。
社媒數(shù)據(jù)顯示:
價格偏高(提及3421次)
效果一般(提及2156次)
不適合亞洲膚質(zhì)(提及1832次)
Atypica.AI的發(fā)現(xiàn):
中國消費者購買高端護(hù)膚品時,不是在購買產(chǎn)品,而是在購買一種“掌控感”;
“效果一般”的背后,是“看不到每天的微小進(jìn)步”的焦慮;
真正的競爭對手不是其他護(hù)膚品牌,而是醫(yī)美項目——“立竿見影”vs“日積月累”
基于這個洞察,品牌推出了“肌膚日記”APP,用AI技術(shù)追蹤每天的細(xì)微變化,銷量增長230%。
大模型之所以有機(jī)會解決歸納主義問題并形成好猜想,關(guān)鍵在于它有可能改變了認(rèn)知的基本方式。Atypica.AI不是在歸納數(shù)據(jù)模式,而是在科學(xué)的構(gòu)建用戶認(rèn)知的猜想。當(dāng)大模型基于“訪談”或“社媒數(shù)據(jù)”等語料構(gòu)建“消費者智能體”時,它實際上是在回答:“什么樣的機(jī)制能夠產(chǎn)生這樣的表達(dá)和行為?”這是解釋性理論的構(gòu)建過程,而非歸納推理。但是與科學(xué)探索不同,在原來的商業(yè)環(huán)境中往往需要在短時間內(nèi)得到結(jié)論,因此很難大規(guī)模進(jìn)行快速的創(chuàng)造性猜想。大模型建構(gòu)的消費者智能體恰好解決了這個問題:
-
多元思維模型:大模型可以同時調(diào)用多個思維模型框架(心理學(xué)、社會學(xué)、行為經(jīng)濟(jì)學(xué)等),生成關(guān)于用戶心理機(jī)制的多元假設(shè),這相當(dāng)于擁有了一個跨學(xué)科的“猜想生成器”。
-
認(rèn)知一致性建模:大模型形成的消費者人設(shè)不是標(biāo)簽的簡單重組,而是通過智能體構(gòu)建一套具有內(nèi)在一致性的,并模擬人的認(rèn)知系統(tǒng)。
-
透明的驗證過程:多伊奇強(qiáng)調(diào)好解釋必須可檢驗。消費者智能體的獨特價值在于其思維過程是“透明”的——我們可以觀察它如何從價值觀推導(dǎo)出具體行為,驗證我們的心理機(jī)制理論是否成立。
07. 一個新的開始
這正是多伊奇所說的“無窮的開始”:
每一個好的解釋都開啟了新的問題,
每一個新的問題都需要更好的解釋。
知識的增長沒有終點,理解的深度沒有極限。在大模型時代,我們第一次有機(jī)會規(guī)?;图铀龠@個過程:
一邊有處理大數(shù)據(jù)的計算能力(檢驗我們的猜想);
一邊有理解個體心智的洞察能力(創(chuàng)造更好的猜想)。
本文是一篇還不夠嚴(yán)謹(jǐn)?shù)碾S想,
Atypica.AI是一個還不成熟的開始……
來源:范凌的泛談