
眾所周知,算法、算力與數(shù)據(jù)是人工智能(AI)發(fā)展的“三駕馬車”,吳恩達等學(xué)者也常說:以數(shù)據(jù)為中心的AI,或數(shù)據(jù)驅(qū)動的AI。
由此可見,近年來激增的數(shù)據(jù)量是 AI 騰飛的源動力之一,數(shù)據(jù)在 AI 中扮演重要角色。
那么,人們口中常說的“大數(shù)據(jù)”,規(guī)模究竟有多大呢?出于好奇心,一位意大利物理研究者 Luca Clissa 調(diào)查了 2021 年幾個知名大數(shù)據(jù)源(谷歌搜索、Facebook、Netflix、亞馬遜等等)的規(guī)模大小,并將它們與大型強子對撞機(LHC)的電子設(shè)備所檢測到的數(shù)據(jù)做了對比。
地址:https://arxiv.org/pdf/2202.07659.pdf
毫無疑問,LHC 的數(shù)據(jù)量是驚人的,高達 40k EB。但商業(yè)公司的數(shù)據(jù)量也不容小覷,比如,亞馬遜S3存儲的數(shù)據(jù)量也達到了大約 500 EB,大致相當(dāng)于谷歌搜索(62 PB)的 7530 倍。
此外,流數(shù)據(jù)在大數(shù)據(jù)市場中也占有一席之地。Netflix 和電子通信等服務(wù)產(chǎn)生的流量比單純的數(shù)據(jù)生產(chǎn)者要多一到兩個數(shù)量級。
1、LHC 的數(shù)據(jù)量
根據(jù) Luca Clissa 的調(diào)查,2021年各大知名數(shù)據(jù)源的體量大約如下:
圖注:2021年的大數(shù)據(jù)規(guī)模
右上角(灰色部分)是歐洲核子研究組織(CERN)大型強子對撞機(LHC)實驗的電子設(shè)備所檢測到的數(shù)據(jù),規(guī)模最大。
在上一次運行(2018 年)中,LHC 在四個主要實驗(ATLAS、ALICE、CMS 和 LHCb)中的每一個實驗里,每秒產(chǎn)生大約 24 億次粒子碰撞,每次碰撞可以提供約 100 MB 數(shù)據(jù),因此預(yù)計年產(chǎn)原始數(shù)據(jù)量約為 40k EB(=10億千兆字節(jié))。
但根據(jù)目前的技術(shù)和預(yù)算,存儲 40k EB 數(shù)據(jù)是不可能的。而且,實際上只有一小部分?jǐn)?shù)據(jù)有意義,因此沒有必要記錄所有數(shù)據(jù)。記錄的數(shù)據(jù)量也降低到了每天大約 1 PB,2018 年的最后一次真實數(shù)據(jù)只采集了 160 PB,模擬數(shù)據(jù) 240 PB。
此外,收集的數(shù)據(jù)通過 WLCG (全球LHC計算網(wǎng)絡(luò))不斷傳輸,2018 年產(chǎn)生了 1.9k PB 的年流量。
不過,歐洲核子研究組織(CERN)正在努力加強 LHC 的能力,進行 HL-LHC 升級。這個過程預(yù)計生成的數(shù)據(jù)量將增加 5 倍以上,到 2026 年,每年估計產(chǎn)生 800 PB的新數(shù)據(jù)。
2、大廠數(shù)據(jù)量對比
大公司的數(shù)據(jù)量很難追蹤,且數(shù)據(jù)通常不會公開。對此,Luca Clissa 采用了費米估算法(Fermi estimation),將數(shù)據(jù)生產(chǎn)過程分解為其原子組成部分,并做出合理的猜測。
比如,針對特定數(shù)據(jù)源,檢索在給定時間窗口內(nèi)產(chǎn)生的內(nèi)容量。然后通過對這些內(nèi)容的單位大小的合理猜測來推斷數(shù)據(jù)總量,例如平均郵件或圖片大小,1 小時視頻的平均數(shù)據(jù)流量等等。
他對谷歌搜索、YouTube、Facebook等等數(shù)據(jù)源進行了估算,結(jié)論如下:
谷歌搜索:最近的一項分析估計,Google 搜索引擎包含 30 到 500 億個網(wǎng)頁。根據(jù) Web Almanac 所提供的信息,假設(shè)谷歌的年度平均頁面大小約為 2.15 MB,截至 2021 年,Google 搜索引擎的數(shù)據(jù)總規(guī)模應(yīng)約為62 PB。
YouTube:根據(jù) Backlinko 的數(shù)據(jù),2021 年用戶每天在 YouTube 上上傳的視頻時長為 72 萬小時。假設(shè)平均大小為 1 GB(標(biāo)準(zhǔn)清晰度),2021年 YouTube 的數(shù)據(jù)大小約為263 PB。
Facebook 與 Instagram:Domo 的 Data Never Sleeps 9.0 報告估計,2021 年 Facebook 與 Instagram 每分鐘上傳的圖片數(shù)量分別為 240k 和 65k。假設(shè)平均大小為 2 MB,則總共大約為252 PB 和 68 PB。
DropBox:雖然 Dropbox 本身不產(chǎn)生數(shù)據(jù),但它提供了云存儲解決方案來托管用戶的內(nèi)容。2020年,公司宣布新增用戶 1 億,其中付費訂閱用戶達到 117 萬。通過推測免費和付費訂閱的占用率分別為 75%(2 GB)和 25%(2 TB),Dropbox 用戶在 2020 年所需的存儲量約為733 PB。
電子郵件:根據(jù) Statista 的數(shù)據(jù),從 2020 年 10 月到 2021 年 9 月,用戶大約傳送了近 131,000 億次電子通信(包含 71,000 億封電子郵件和 60,000 億封垃圾郵件)。假設(shè)標(biāo)準(zhǔn)郵件和垃圾郵件的平均大小分別為 75 KB 和 5 KB ,我們可以估計電子郵件的總流量約為5.7k PB。
Netflix:Domo 估計,2021 年 Netflix 用戶每天消耗 1.4 億小時的流媒體播放,假設(shè)每小時 1 GB(標(biāo)準(zhǔn)定義),總計大約51.1k PB。
亞馬遜:亞馬遜網(wǎng)絡(luò)服務(wù) (AWS) 的首席布道師 Jeff Barr稱,截至 2021 年,亞馬遜 S3 (Simple Storage Service)中存儲了超過 100 萬億個對象。假設(shè)平均每桶的對象大小為 5 MB ,那么存儲在 S3 中的文件的總大小則約等于500 EB。
總的來說,科學(xué)數(shù)據(jù)可以在數(shù)量上與商業(yè)數(shù)據(jù)源相媲美。
參考鏈接:
1.https://towardsdatascience.com/how-big-are-big-data-in-2021-6dc09aff5ced
2.https://firstsiteguide.com/google-search-stats/
3.https://backlinko.com/
4.https://mms.businesswire.com/media/20210929005835/en/911394/5/data-never-sleeps-9.0-1200px.jpg?download=1
5.https://backlinko.com/dropbox-users
6.https://www.statista.com/
7.https://aws.amazon.com/cn/blogs/aws/amazon-s3s-15th-birthday-it-is-still-day-1-after-5475-days-100-trillion-objects/
8.https://atlas.cern/
關(guān)鍵詞: 大數(shù)據(jù)究竟有多大谷歌搜索的規(guī)模62PB
網(wǎng)站首頁 |網(wǎng)站簡介 | 關(guān)于我們 | 廣告業(yè)務(wù) | 投稿信箱
Copyright © 2000-2020 m.yjkq2010.com All Rights Reserved.
中國網(wǎng)絡(luò)消費網(wǎng) 版權(quán)所有 未經(jīng)書面授權(quán) 不得復(fù)制或建立鏡像
聯(lián)系郵箱:920 891 263@qq.com
欧美色综合网_狠狠色狠色综合曰曰_麻豆精品一区二区av白丝在线_久久精品综合一区 成人动漫精品一区二区| 欧美日韩国产综合久久| 日韩午夜精品视频| 亚洲网友自拍偷拍| av一区二区三区黑人| 久久嫩草精品久久久久| 日韩精品欧美精品| 欧美日韩亚洲综合| 一区二区三国产精华液| 91性感美女视频| 国产精品进线69影院| 国产伦精一区二区三区| 2021国产精品久久精品| 裸体健美xxxx欧美裸体表演| 欧美日韩在线免费视频| 亚洲精品福利视频网站| 成人午夜电影小说| 国产午夜一区二区三区| 国产精品一二三在| 国产精品视频观看| 大尺度一区二区| 中文字幕在线观看不卡视频| 丁香激情综合国产| 亚洲欧洲av色图| 91免费视频网| 夜色激情一区二区| 欧美日韩一级二级| 毛片一区二区三区| 久久久美女艺术照精彩视频福利播放| 精品一区二区影视| 久久嫩草精品久久久久| 成人高清av在线| 豆国产96在线|亚洲| 国产精品视频一二三| 91视频免费看| 亚洲www啪成人一区二区麻豆| 色视频成人在线观看免| 亚洲综合网站在线观看| 欧美一区二区在线观看| 黄色日韩网站视频| 中文字幕不卡在线观看| 91麻豆国产在线观看| 午夜精品久久久久久久| 日韩精品专区在线影院重磅| 国产99久久久国产精品潘金网站| 国产精品女主播av| 欧美三级电影网| 国产呦萝稀缺另类资源| 亚洲色图都市小说| 91超碰这里只有精品国产| 国产一区二区美女诱惑| 亚洲欧美偷拍另类a∨色屁股| 欧美日韩久久久| 国产一区二区三区综合| 亚洲美女电影在线| 欧美电视剧在线看免费| 色94色欧美sute亚洲13| 久久不见久久见中文字幕免费| 亚洲国产精品成人综合色在线婷婷| 欧美在线短视频| 国产精品69毛片高清亚洲| 亚洲最新视频在线观看| 久久新电视剧免费观看| 欧美日韩亚洲国产综合| 国产成人在线视频网站| 亚洲成人黄色小说| 国产精品卡一卡二| 日韩视频永久免费| 色94色欧美sute亚洲线路二| 国内精品伊人久久久久影院对白| 一区二区在线免费观看| 久久久久久久久久久久久女国产乱| 91国模大尺度私拍在线视频| 国产精品一区二区在线看| 亚洲一区二区三区美女| 国产精品福利一区| 精品国产123| 欧美日韩卡一卡二| 色香色香欲天天天影视综合网| 国内外成人在线视频| 亚洲国产成人av网| 亚洲欧美视频一区| 国产欧美日韩另类视频免费观看| 91精品国产综合久久久久久久| 91色porny在线视频| 91成人免费网站| 亚洲三级在线看| 色94色欧美sute亚洲13| 亚洲精品日产精品乱码不卡| 91在线精品秘密一区二区| 中文字幕在线视频一区| 国v精品久久久网| 亚洲视频一区二区免费在线观看| av在线一区二区| 最新中文字幕一区二区三区| 色综合婷婷久久| 亚洲欧美在线视频观看| www.日韩在线| 99re热视频这里只精品| 国产一区999| 亚洲精品在线免费播放| 国产美女久久久久| 欧美高清在线精品一区| 91精品1区2区| 久久爱另类一区二区小说| 欧美国产一区二区| 欧美伊人精品成人久久综合97| 午夜久久久影院| 久久久久久久久久美女| 欧美人xxxx| 成人一级黄色片| 免费视频一区二区| 日日夜夜免费精品| 精品播放一区二区| 欧美剧情片在线观看| 卡一卡二国产精品| 亚洲第一主播视频| 中文字幕欧美一区| 国产一区视频网站| 国产精品视频一二三| 欧美一区二区三区在线看| 国产高清视频一区| 日本不卡一区二区| 亚洲精品久久嫩草网站秘色| 欧美另类变人与禽xxxxx| 国产成人在线视频免费播放| 97精品视频在线观看自产线路二| 久久综合狠狠综合| 午夜欧美在线一二页| 日韩欧美卡一卡二| 欧美精品一区二区三区久久久| 精品国产一区二区三区不卡| 中文字幕成人在线观看| 亚洲精品国产无天堂网2021| 乱中年女人伦av一区二区| 日韩福利电影在线观看| 精品少妇一区二区三区日产乱码| 国产精品九色蝌蚪自拍| 国产在线精品一区在线观看麻豆| 欧美性感一类影片在线播放| 捆绑变态av一区二区三区| 美女视频黄免费的久久| 成人一区二区三区视频| 在线国产电影不卡| 精品国产乱码久久久久久老虎| 久久精品一二三| 亚洲一区二区三区四区在线 | 欧美一级高清片在线观看| 欧美精品一区二区三区蜜桃| 亚洲精品免费在线播放| 久久99精品国产.久久久久| 99精品热视频| 日韩免费视频一区二区| 亚洲色图另类专区| 激情伊人五月天久久综合| 欧美成人猛片aaaaaaa| 精品国产凹凸成av人导航| 国产欧美一区视频| 一级中文字幕一区二区| 日韩激情av在线| 欧美一区二区福利在线| 青青草成人在线观看| 国产精品影视在线观看| 色88888久久久久久影院野外| 亚洲欧美日韩中文播放| 亚洲一二三区视频在线观看| 欧美日韩国产精品成人| 欧美精品久久99| 一本久久精品一区二区| 欧美久久久久久久久久 | 一区二区免费在线| 韩国v欧美v亚洲v日本v| 9191成人精品久久| 亚洲天堂久久久久久久| 肉色丝袜一区二区| 欧美精品1区2区3区| 亚洲精品国产精品乱码不99| 久久66热re国产| 精品少妇一区二区三区视频免付费| 久久综合色婷婷| 奇米影视一区二区三区| 欧美卡1卡2卡| 亚洲国产综合在线| 欧美乱妇一区二区三区不卡视频| 亚洲欧美综合色| wwwwxxxxx欧美| 天天免费综合色| 欧美高清视频在线高清观看mv色露露十八 | 国产一二精品视频| 色婷婷综合中文久久一本| 中文久久乱码一区二区| 丁香啪啪综合成人亚洲小说| 国产精品久久久久久久久免费丝袜| 亚洲影院久久精品| 欧美日韩一本到| 色噜噜偷拍精品综合在线| 在线观看视频91| 欧美日韩国产精选| 精品在线你懂的| 欧美三级在线看|