+ 我要发布
我发布的 我的标签 发现
浏览器扩展
斑点象@Edge

YouTube 的规模有多庞大

YouTube有多大? 几年前,当我开始写关于“分母问题”的文章时,我对这个问题产生了兴趣。大量的社交媒体研究集中在平台上发现不受欢迎的行为——错误/虚假信息、仇恨言论。这并不难做到:搜索“白人种族灭绝”或“伊维菌素”并计算结果。事实上,许多引人注目的研究就是这样做的——想想 Avaaz 2020 年 8 月关于 COVID 错误信息的报告。它报告说,一年内有 38 亿次观看 COVID 错误信息,这是一个非常大的数字。但它是一个没有分母的分子——Facebook 每天为其 30 亿用户中的每个人产生数十或数百次观看——38 亿次观看实际上是一个非常小的数字,与分母相关。 一些社交媒体平台使计算分母成为可能。多年来,Reddit 允许 Pushshift 收集所有 Reddit 帖子,这意味着我们可以计算出 Reddit 的一小部分专注于模因股票或加密货币,而不是关于心理健康或棋盘游戏的对话。我们的 Redditmap.social 平台——主要由 Virginia Partridge 和 Jasmine Mangat 构建——基于将平台视为一个整体并了解每个社区与整体相比的大小的想法。唉,Reddit 今年夏天切断了对 Pushshift 的公开访问,因此 Redditmap.social 只能使用今年早些时候生成的数据。 Twitter 也是一个很好的研究分母的平台,因为它创建了一个研究 API,可以对所有推文进行统计抽样,并让研究人员访问每 10 条或第 100 条推文。如果你每天找到 2500 条关于伊维菌素的推文,并通过 decahose 看到 100m 条推文(这给了研究人员 1/10 的推文量),你可以计算出一个准确的分母 (100m x 10) (所有这些数字都是完全编造的。Twitter 已经切断了对这些优秀学术 API 的访问,现在收取巨额费用以减少访问量,这意味着大多数研究人员不再可能进行基于分母的工作。 有趣的是,尽管 Reddit 和 Twitter 的使用远不如 YouTube,几乎所有互联网用户都在使用 YouTube。皮尤报告称,93% 的青少年使用 YouTube——就使用率而言,最接近的服务是 Tiktok(63%)和 Snapchat(60%)。虽然 YouTube 有一个很好的、有据可查的 API,但没有很好的方法来获得一个随机的、有代表性的 YouTube 样本。取而代之的是,YouTube上的大多数研究要么研究一组视频(一组选定用户频道上的所有视频),要么研究通过推荐发现的视频(从“永远不会放弃你”开始,客观上是互联网的中心,并收集推荐的视频)。您可以使用任何一种方法进行出色的研究,但您不会获得所有 YouTube 视频的样本,也无法计算 YouTube 的大小。 我把这个问题告诉了Jason Baumgartner,他是PushShift的创造者,也是数据收集的黑暗艺术王子。Jason 的技能之一是对未记录的 API 有深入的了解,即在官方手段之外收集数据的方法。大多数平台都有一个或多个未记录的 API,程序员广泛使用这些 API 来构建该平台的内部工具。就 YouTube 而言,该 API 被称为“Inner Tube”,它的存在在程序员社区中是一个公开的秘密。使用InnerTube,Jason建议我们做一些既聪明又愚蠢的事情:猜测随机的URL,看看那里是否有视频。 其工作原理如下: YouTube 网址如下所示: https://www.youtube.com/ watch?v=vXPJVwwEmiM “watch?v=”后面的那位是一个 11 位的字符串。前十位数字可以是 a-z、A-Z、0-9 和 _-。最后一个数字是特殊的,只能是 16 个值之一。事实证明,有 2^64 个可能的 YouTube 地址,这是一个巨大的数字:18.4 万亿个。YouTube视频有很多,但不是那么多。让我们猜一猜,YouTube 上有 10 亿个视频——如果你随机选择 URL,大约每 184 亿次尝试你只会得到一个有效的地址。 我们将这种方法称为“醉酒拨号”,因为它基本上就像从一瓶波旁威士忌中抽出一小撮,然后在电话上捣碎数字一样复杂,希望找到一个可以与之交谈的人。Jason 发现了一些秘籍,使该方法的效率提高了大约 32,000 倍,这意味着我们的“电话”连接频率更高。Kevin Zheng 编写了一大堆脚本来做拨号,在几个月的时间里,我们收集了 10,000 多个真正随机的 YouTube 视频。 一旦你有了这些视频,你可以做很多事情。Ryan McGrady是我们在《定量描述杂志》(Journal of Quantitative Description)上发表的论文的主要作者,他领导了观看一千个这些视频并手工编码的过程,这是一项庞大而迷人的任务。凯文将他的检索脚本与各种语言检测系统连接在一起,我们现在对 YouTube 上代表的语言有一个合理的估计——即使远非完美。我们正在开始一些实验,以了解 YouTube 推荐的视频与“普通”YouTube 视频有何不同——YouTube 喜欢推荐观看次数至少为 1 万次的视频,而 YouTube 视频的观看次数中位数为 39 次。 将来我会详细地写一些关于我们可以从真正的随机 YouTube 视频样本中学到什么的文章。我一直在思考“日常网络”的概念,从用户生成媒体的长尾的下半部分学习,这样我们就可以了解大多数创作者使用这些工具做什么,而不仅仅是最成功的影响者。但我将自己限制在这篇博文开头的问题上:YouTube 有多大? 再次考虑醉酒拨号。假设您只拨打 413 区号中的号码:413-000-0000 到 413-999-9999。这是 10,000,000 个可能的数字。如果每 100 个电话中就有一个接通,您可以估计有 100,000 人拥有 413 区号中的号码。在我们的案例中,我们醉酒的拨号盘同时尝试了大约 32k 个号码,我们每 50,000 次左右就会被“击中”。我们目前对 YouTube 规模的估计是 133.25 亿个视频——我们现在每隔几周就会在 tubestats.org 更新一次这个数字。 一旦你收集了这些随机视频,其他统计数据就很容易计算出来了。我们可以查看我们的随机视频的年龄,并计算 YouTube 的增长速度:我们估计仅在 2023 年就有超过 40 亿个视频发布到 YouTube。我们可以计算每个视频的平均观看次数和中位数,并显示“长尾”有多长——观看次数为 10,000 次或以上的视频大约占我们数据集的 4%,尽管它们代表了 YouTube 平台观看次数的最大份额。 也许我们对这组随机视频所做的最重要的事情是展示一种比醉酒拨号更好的研究 YouTube 的方法。我们知道我们的方法都是随机的,因为它遍历了整个可能的地址空间。通过将我们的结果与生成 YouTube 视频列表的其他方法进行比较,如果它们产生类似的结果,我们可以宣布它们“合理随机”。幸运的是,有一种方法可以——它是由Jia 周等人在2011年发现的,它比我们幼稚的方法要有效得多。(您生成一个五个字符的字符串,其中一个字符是破折号——YouTube 将自动完成这些 URL,并吐出匹配的视频(如果存在)。Kevin 现在使用“破折号方法”对 YouTube 进行民意调查,并使用结果来维护我们在 Tubestats 的仪表板。 我们从这个数据集中得出了更多的研究,既有关于我们发现的内容,也有关于如何处理这些数据的一些复杂的伦理问题。(我们发现的大多数视频只有几十个人看过。如果我们发布这些网址,我们就有可能将“公开”的视频暴露在公众的监督之下,但其作者可以合理地预期这些视频是晦涩难懂的。因此,我们的论文不包括发现的视频列表。Ryan 很好地介绍了我们手工编码的主要内容。他和我都在写关于随机视频的奇怪世界的更长的文章——我们可以从深入研究长尾中学到什么? 也许最重要的是,我们计划尽可能长时间地维护 Tubestats。YouTube 可能会反对此资源的存在或我们用于创建它的方法。Counterpoint:我认为,对于所有大型用户生成的媒体平台,都应该定期发布这样的高级数据。这些平台是我们数字公共领域中最重要的部分,我们需要更多关于它们的内容、谁创建这些内容以及它覆盖谁的信息。 非常感谢《定量描述杂志》发表了如此庞大而笨拙的论文——它有 85 页!感谢并祝贺所有作者:Ryan McGrady、Kevin Zheng、Rebecca Curran、Jason Baumgartner 和我自己。感谢所有资助我们工作的人:奈特基金会一直在支持我们在社交媒体上研究极端言论的广泛工作,我们实验室的其他工作得到了福特基金会和麦克阿瑟基金会的支持。 最后——我得了新冠病毒,所以如果这篇文章不如平时连贯,那是意料之中的。随意使用评论告诉我什么没有意义,当我的大脑不那么模糊时,我会尝试清除它。
你可能想看的