十几年前,视频共享网站YouTube推出后,媒体格局发生了翻天覆地的变化。网站上发布的内容的数量和种类令人震惊。该网站的受欢迎程度使其成为表演者,企业和评论员就每个可能想到的主题的启动板。就像现代数字生态系统中的许多平台一样,YouTube近年来已成为有关在线骚扰,错误信息以及技术对儿童的影响等问题的持续辩论的热点。
在人们日益关注的焦点中,为了继续使这一受欢迎的信息源的内容变得神秘,皮尤研究中心(Pew Research Center)使用其自己的自定义映射技术,整理了一个自2000年起已存在的受欢迎的YouTube频道(至少有25万名订阅者)的列表。在2018年下半年,然后对这些频道在2019年第一周制作的视频进行了大规模分析。中心使用与我们对YouTube进行研究的过程类似的过程,识别出总共43,770个这些高订阅者频道推荐算法。该数据收集对平台内容的性质产生了多种见解:
YouTube生态系统产生了大量内容。在2019年的前7天中,仅这些受欢迎的频道就发布了将近25万个视频,总共48,486小时的内容。以此为背景,一个人每天观看视频八个小时(不休息或休息几天)将需要16年以上的时间才能观看平台上最受欢迎的频道发布的所有内容。 。这些频道在这段时间内发布的平均视频时长约为12分钟,在网站的第一周内获得了58,358次观看。
在平台上的前七天,这些视频总共被查看了142亿次。1个
YouTube是一种全球现象,其最受欢迎的频道以英语以外的其他语言发布了大量内容。中心结合了手工标记和机器学习功能,根据视频是否包含英语以外的其他语言或文字对视频进行了分类。分析结果说明了YouTube平台的全球性。这些频道中有超过一半(56%)在2019年第一周发布了视频,而大多数活跃频道(72%)则发布了至少一个部分或完全使用英语以外的语言的视频。总体而言,此分析中包含的近25万部视频中,只有17%完全是英语。
一小部分活跃的创作者制作了这些热门频道发布的大部分内容。与许多在线平台(例如Twitter)一样,在研究期间,发布的大部分内容所占的渠道比例相对较小。中心地图中确定的热门频道中只有10%制作了这些频道在2019年第一周发布的所有视频中的70%。同样,在此期间观看次数最多的热门频道视频中有10%负责这些频道发布的新内容的所有观看次数中,有79%来自该频道。
在2018年下半年,高订户频道总数急剧增加。中心的映射过程确定了9,689个频道,该频道在2018年7月(该中心上次对YouTube数据进行分析)至2018年12月之间超过了250,000个订户门槛。为该分析更新数据的时间。在此期间,流行频道总数增加了32%。同样,截至2018年7月,已经确定的现有热门频道的订户数量平均同期增长了27%。
除了进行更广泛的数据收集外,皮尤研究中心还对这些热门频道在2019年第一周发布的英语视频进行了单独的内容分析(总共37,079个视频满足了此描述)。该中心使用人工编码人员来确定每个视频的主要类别或主题(例如视频游戏,消费者技术或时事和政治),还检查了视频标题和说明中使用的关键字,以识别被广泛使用和关联的单词与其他视频相比,观看次数更高。此分析的一些主要发现包括:
针对儿童的视频非常受欢迎,与那些针对13岁以下儿童的视频一样,无论目标受众是什么。在研究期间,这些受欢迎的频道发布的英语视频中只有一小部分明确地面向儿童(根据人类编码者的共识)。但是相对于普通观众视频,那些往往更长,收到更多观看次数并且来自订阅者人数较多的频道的视频。从更广泛的角度来看,包含一个或多个13岁以下儿童的视频(无论该视频是否专门针对儿童),其观看次数平均是其他类型视频的三倍。还有一小部分直接针对年轻观众的视频此外,根据观看次数来衡量,年龄在13岁以下的孩子比本分析中发现的任何其他类型的内容都受欢迎。
应该注意的是,YouTube明确声明该平台不适用于13岁以下的儿童。YouTube为YouTube儿童平台提供了增强的家长控制和精选的视频播放列表,但此报告中的分析重点是整个YouTube。
这些受欢迎的频道发布的与时事或政治相关的英语视频倾向于以国际(而非美国)为重点。与时事或政治明确相关的视频相对较为普遍,占研究期间上传的所有英语视频的16%。但是,这些视频大部分都是国际关注的,没有提及与美国有关的事件,问题或意见。虽然发布一个或多个美国时事或政治视频的频道特别活跃-本周平均发布了总共63个视频,但美国时事或政治视频仅占整个热门频道发布的所有视频的4% 。
涉及视频游戏的内容是YouTube上热门频道的固定装置。同时,在研究期间,热门频道发布的英语视频中约有18%与视频游戏或游戏有关。以研究期间的7天内的总观看次数来衡量,视频游戏的内容是最受欢迎的内容类型之一,而且这些视频也往往比其他类型的视频更长。
某些视频标题关键字与增加的观看次数相关联。 对英语视频标题的分析发现,相对于其他视频,在学习期间,某些关键字的观看次数要高得多。其中一些指向该平台面向娱乐的方向。例如,提及“ Fortnite”,“恶作剧”或“最差”等单词的视频在中位数的观看次数是未提及这些单词的视频的五倍多。其他性质上更具实质性。例如,在视频标题中使用“特朗普”一词与有关美国时事或政治的视频中位数观看次数的显着增加相关。确实,在研究期间,这些受欢迎的频道发布的有关美国时事或政治的视频中,约有36%的标题中提到了“总统”或“特朗普”一词。
视频与其他社交媒体渠道的交叉推广不仅广泛存在,而且与观看次数的增加有关。这些视频中有十分之七在描述中提到了其他著名的社交媒体平台,例如Instagram或Twitter(在链接中或在文本本身中),与未链接到其他平台的视频相比,它们获得了更多的观看次数。
以上调查结果基于对中心至少有25万订阅者的YouTube频道及其在2019年1月1日至7日这一周发布的视频的分析,其依据是该中心先前对YouTube推荐算法的研究。我们使用多种递归和随机方法遍历了YouTube API提供的数百万条视频推荐,并确定了尽可能多的独特频道。截至2019年1月,共发现1,525,690个频道,其中43,770个拥有至少250,000个订阅者。为了本研究的目的,这些被定义为“流行渠道”。研究人员使用此受欢迎的频道列表,收集了2019年第一周在这些频道上发布的每个视频,并在发布后的七天内跟踪了每个视频。
1.受欢迎的YouTube频道制作了大量的内容,其中大部分以英语以外的语言显示
YouTube庞大且不断变化。为了制定一个可管理且有意义的研究项目,Pew研究中心将数据收集的范围限制为仅网站上最受欢迎的渠道。在2019年的第一周,仅这些受欢迎的频道就制作了243,254个视频,内容总时长48,486小时。尽管这段时间内发布的视频时长差异很大,但平均视频时长为12分钟:大约3%的视频时长超过60分钟。
这些发现还暗示了全球人们在平台上观看视频的时长。一周后,这些受欢迎的频道制作的视频在全球范围内的观看次数总计达到142亿次。当然,这些观看次数分布在大量视频中-每个视频在第一周的平均观看次数为58358,尽管50%的观看次数少于3860。相反,这些视频中的一小部分获得了广泛的参与:在本周流行频道发布的新内容中,观看次数最多的10%的视频占所有观看次数的79%。
通常,视频在平台上的第一天就获得了最多的参与度,而在发布后的一周内,参与度逐渐降低。总的来说,这些视频在发布的第一周在平台上获得的总观看次数的三分之二(64%)是在发布之日得出的——79%的喜欢,73%的不喜欢和80%的喜欢注释。
在2019年第一周发布视频的大多数频道都是用英语以外的其他语言发布的,少数频道制作了大多数视频
YouTube上超过一半的热门频道在2019年的第一周内在该平台上发布了至少一个视频,其中大多数发布了包含除英语之外的其他语言片段的内容。2截至2018年12月,该中心确定了43,770个受欢迎的频道,其中56%在新年的第一周发布了视频。在这部分活跃的渠道中,有28%的视频仅以英语发布。同时,67%的视频仅以英语以外的语言发布,5%的视频以多种语言(包括英语)发布。
“活跃”频道(那些在2019年第一周发布了至少一个视频的频道)在2019年第一周内制作的内容数量差异很大。这些活跃的热门频道中有十分之三(31%)发布了仅5个视频发布了一个视频,但少于10个视频。只有14%的视频在发布期间发布了10个或更多视频,但这部分渠道负责发布流行频道上传的所有视频的75%本周内。
以英语和另一种语言发布的频道特别有可能成为这个活跃群体的一部分。只有7%的纯英语频道发布了10个或更多视频,但在仅以其他语言发布的频道中,这一比例增加到16%,而在以英语和其他语言发布的视频中,这一比例增加到36%。
在某种程度上,可以预期以英语和其他语言发布的频道之间的活跃程度很高,因为根据定义,这些频道必须发布至少两个视频(一个以英语发布,另一个以另一种语言发布)才能属于这个小组。同时,以英语和其他语言发布的频道发布的非英语视频要比专门以其他语言发布的频道发布的视频(其他语言的视频数量为15,而平均为11)要多,并且发布的英语视频数量也更多(平均11个)比仅以英语发布的频道(平均4个)要多。
在所有三个组(仅以英语发布的频道,仅以英语以外的其他语言发布的频道以及以英语和其他语言混合发布的频道)中,一周内发布视频数量最多的10个独立频道占主导地位那些提供新闻和体育内容的人。在每个这些基团的10个最活跃的信道的列表,请参见附录A。
来自流行的YouTube频道的英语视频不到五分之一,但这些视频的观看次数比其他语言的视频多
由于非英语和多语言渠道的发布水平很高,所有流行渠道发布的大多数单个视频都使用英语以外的其他语言。该分析发现,一周内上传到网站的视频中,有五分之四以上包含的内容不是英语,而当周流行频道发布的所有视频中,有17%是英语。但是,尽管英语视频不如其他语言的视频那么普遍,但英语视频却更受欢迎,第一周的观看次数中位数为13,316次(平均99,043次),而第二周的平均观看次数仅为3,028次(平均50,310次)其他语言的视频。
换句话说,英语视频仅占当周流行频道发布的视频的17%,但在发布后的第一周内,流行视频所收看的所有观看次数的28%。英文视频也获得了更多的喜欢(298中位vs. 42),不喜欢(16中位vs. 5)和评论(47中位vs. 6),并且比包含其他语言内容的视频(7分钟vs. 4)
2.儿童的内容,以儿童为特色的内容和视频游戏是最受欢迎的视频类型
除了检查这些流行频道发布的视频数量和使用的语言外,该分析还试图更深入地了解这些频道制作的视频的实际内容。但是,从YouTube视频本身附带的类别和描述中可以收集到多少信息是有限制的。YouTube数据API提供了视频和频道的主题标签,但是这些主题通常过于笼统(“电视节目”)或过于具体(“拉丁美洲音乐”),无法广泛分析视频内容。这些主题标签也没有经过准确性验证,并且在某些情况下不可用:此分析中包含的8%视频和3%频道未分配任何主题标签。
为了解决这些局限性,并更全面地将YouTube热门频道所产生的英语内容分类,皮尤研究中心委托亚马逊的Mechanical Turk众包平台上的人类编码员观看这些视频并将其分类为主题区域。在考虑到发生编码时已删除或删除的视频以及被我们的自动语言检测软件误分类为英语的视频后,此分析中总共包括了37,079个视频。3
指示人类编码人员将视频分为11大类。下表中突出显示了这些类别以及每种类别可能包含的特定内容类型的示例:
除了将视频编码到这些常规主题类别中之外,中心还对视频进行了编码,并采用了其他三个指标:
- 根据视频中是否提及与美国有关的问题,对具有政治或时事内容的视频进行了进一步细分。
- 指示编码人员识别似乎是针对13岁以下儿童观众的内容(无论主题如何)。在识别以儿童为主要观众的视频时,要求编码人员识别他们认为清晰明确的视频,专门针对儿童。可能会吸引儿童以及青少年或成人的视频被有意排除在此类别之外。
- 还要求编码人员确定视频中似乎有13岁以下儿童参与的内容,而不论该视频是直接面向儿童还是年轻人使用的。
每个视频由三个不同的人编码,以确保在视频内容上有足够的共识。然后使用各种阈值来协调编码人员的响应,这些阈值旨在最大程度地与中心研究人员达成一致。4
总体而言,本周流行频道上传的视频中,有三分之一是与一般娱乐和其他主题相关的杂项视频,例如视频博客(视频博客),名人新闻,电影,流行文化,恶作剧和宠物视频。在更具体的内容类别中,视频游戏(占编码视频的18%)是最常见的。与国际时事或政治有关的视频(占编码视频的12%),以及与体育或健身(9%)和音乐/舞蹈(9%)有关的视频,也是本周较常见的话题。就整体观看次数而言,有关视频游戏,车辆(占编码视频的1%),食品(占2%)以及玩具或游戏(占3%)的视频平均属于观看次数最多的类别。要获取一周中每个类别中观看次数最多的单个视频的列表,请参阅附录B。
与许多其他类型的内容相比,儿童视频往往更长一些并且获得了更多观看次数;这些视频中有很大一部分是针对玩具或游戏的
总计,在2019年第一周,受欢迎的YouTube频道发布的所有英语视频中,仅有4%似乎是针对13岁以下的儿童的。但是,尽管在总数中所占的比例相对较小,但儿童视频倾向于相对于面向一般(青少年或成人)受众的内容而言,播放时间更长,观看次数更多,并且来自订阅者人数较多的频道。看似适合儿童观看的视频平均观看了153,227次观看(中位数为17,540次),而其他视频则平均观看了99,713次观看(中值14,187次)。发布儿童视频的频道也有更多的订阅者:在本周未发布针对儿童的视频的频道中,平均订阅者为190万(中位数872,188),而订阅人数为120万(中位数586,588)。而所有儿童视频的一半都至少持续了11分钟,
如上所述,在此分析中,儿童的内容可能属于其他任何主题类别,并且与玩具或游戏(不包括视频游戏)有关的儿童内容非常普遍,并且倾向于获得许多观看次数。儿童视频中约有28%与玩具或游戏有关,这些视频平均获得147,923次观看(中值30,929),而针对普通观众的玩具或游戏视频则获得109,585次观看(中值22,871)。
制作有关玩具或游戏的视频(尤其是那些针对儿童的视频)的频道的订阅人数也超过了平均水平。在本周内至少制作了一部针对儿童的玩具或游戏的视频的频道平均有210万订阅者(中位数为110万),而未制作任何视频的频道则为120万(中位数586126)符合此描述。
在研究期间,以13岁以下儿童为特色的视频比其他类型的内容更受欢迎
除了针对年轻人的特定视频子集外,包括一个或多个孩子在内的更广泛的视频集也从其他类型的内容中脱颖而出。中心的分析估计,总体而言,2019年第一周流行频道发布的视频中只有2%的孩子年龄似乎在13岁以下。然而,这小部分视频的平均数量是三倍观看次数与其他类型的视频一样:包含幼儿视频的观看次数平均为297,574(中位数56,527),而没有观看视频的平均观看次数为97,081(中位数13,794)。此外,制作至少一个带有儿童视频的频道的平均订阅人数为180万,而没有视频的频道则为120万(中位数913,769对592,057)。
值得注意的是,大多数以儿童为主题的视频并非仅面向年轻观众。这项分析估计,只有21%的具有儿童特征的视频是针对年轻儿童的,而不是其他观众。同样,只有少部分儿童视频(占已发布视频的13%)包含一个似乎年龄在13岁以下儿童的视频,但是在这两个类别的交集中,视频的份额很小,即既针对儿童又针对13岁以下的儿童的受众群体-是该分析中最受欢迎的视频类别之一,其观看次数(416,985与96,416)的平均观看次数是不包含此功能的普通观众视频的四倍一个孩子(70,909比中位数13,748)。
包含儿童的大多数视频(79%)是面向普通观众而不是专门针对儿童的。尽管这些视频不如专门针对年轻观众的针对儿童的视频受欢迎,但与不带儿童的儿童或普通观众内容相比,它们的观看次数也要多得多。
供儿童观看的五个观看次数最多的个人视频,其中不包含儿童,主要是动画片,歌曲或童谣。正如该中心对YouTube推荐引擎推荐的视频所做的研究一样,其中一些视频的标题中包含看似随机的字符串,这些字符串可能旨在吸引推荐引擎或用户在寻找儿童时所使用的搜索字词内容(例如,“超级英雄宝贝使姜饼屋超级英雄宝贝扮演孩子的DOH卡通”)。
同时,五个视频是面向普通观众的,其特色是在研究期间一周内获得最多观看次数的儿童的视频由育儿和家庭视频博客发布,其中包括婴儿名字透露或新的婴儿介绍视频。五个观看次数最多的视频既面向儿童,又面向儿童,往往使儿童独自或与成年人一起打扮,唱歌或从事虚构活动。
有关视频游戏的视频,是这段期间YouTube上的热门频道发布的最常见,观看次数最多和最长的视频
在过去的一周中,视频游戏是YouTube热门频道上经常被关注的话题,其中包括本研究中平台上最常见的(非杂项)话题。这些视频中的许多视频都是由使用Twitch和Discord等社交游戏平台的人在与在线朋友交谈时通过流媒体直播自己玩的视频游戏,例如Fortnite和Minecraft。其他视频包括即将到来的视频游戏的预告片,以及从捕获的视频游戏镜头中提取的“失败”和其他令人兴奋或有趣的时刻的汇编。
一周内,流行频道上传的视频中有近五分之二(18%)与视频游戏有关,这些视频的平均观看次数为122,195,而其他类型的视频为97,343。视频游戏视频的中位数(更能代表该类别中上传的典型视频)所获得的观看次数是所有其他类别的视频中位数总和的近三倍(34,347与11,176)。游戏视频通常比其他主题的视频要长得多,平均时间为24分钟(中值13分钟),而非游戏视频则为11分钟(中值5分钟)。
与时事或政治有关的英语视频倾向于以国际为关注焦点,其观看次数少于其他主题的视频
中心最近的一项研究发现,在2013年(20%)和2018年(38%)之间,在那儿获得新闻的YouTube用户所占比例几乎翻了一番。这项新的分析发现,与时事或政治相关的视频是这些热门频道发布的最常见的类别之一。此类视频-包括重点关注一系列广泛话题的视频,例如政府,世界事件,社会问题,政治和地方新闻-占一周内上传的所有英语视频的16%。5但是,这些热门频道发布的英语视频中,只有4%包含与美国相关的内容时事或政治。换句话说,YouTube热门频道发布的与时事或政治相关的英语视频中,有四分之三(76%)没有提及与美国相关的事件,问题或观点(在国内或国际背景下) )。
在2019年的第一周内发布与时事或政治相关的视频的频道往往比其他频道上传更多的内容。发布了一个或多个与美国时事或政治相关的视频的频道在一周内平均上传了63部视频(中位数为36部),而具有国际关注度的可比较的频道平均上传了43部视频(中位数为15部)。相反,在一周内未发布与时事或政治相关的任何内容的频道平均仅上传了四个新视频(中位数2个)。
尽管流行频道在2019年的第一周发布了大量与时事或政治相关的英语视频,但这些视频平均仅获得该时间其他类型视频观看次数的五分之一。但是,这在很大程度上是由于英语内容的收视人数极低,而这些内容主要关注国际事件:这些频道发布的时事新闻或以美国为重点的政治视频获得的观看次数是其国际同行的几倍(平均53,559)美国为重点,而国际为11,253;中位数分别为10,478和823)。与时事或政治相关的视频,随着时间的流逝,似乎也比其他类型的视频吸引了更少的兴趣,并且在发布的第一天就获得了更少的额外观看次数,
3.视频标题和说明中的某些关键字与更多观看次数相关联
上载了许多YouTube视频,并带有引人注目的标题,还带有详细说明,其中包含有关视频内容,视频创建者的信息,以及对相关材料(如新闻报道或其他社交媒体帐户)的外部引用。除了在第2章中详细描述的人类编码内容分析之外,Pew研究中心还对这些文本片段进行了探索性分析,以进一步了解2019 年第一周流行频道发布的视频内容.6
为了专注于代表广泛和一般主题的单词,而不是特定于特定频道的名称或术语,研究人员收集了至少10个不同频道发布的至少100个不同视频的标题中提到的单词(353个单词达到了此阈值) 。7通过比较这组词中的单词,研究人员通过将标题中提到某个特定单词的视频的观看次数中位数与未提及该词的视频的观看次数中位数进行比较,从而确定了与更高观看次数相关联的术语。8该分析表明,视频中标题中提及“ Fortnite”和“ ASMR”(自主感觉子午线反应-YouTube上的一种流行类型)之类的特定关键字的视频往往比未提及这些关键字的视频获得更多观看次数。在中心的编码过程中确定的视频主题子集中也出现了类似的模式。
视频在标题中提及某些关键字时获得了更多观看次数
检查与更多观看次数最密切相关的20个术语会发现多种模式(有关这20个关键字的完整列表,请参见附录C [link])。其中一些关键字似乎与本周表现良好的特定主题相关,包括视频游戏(“ Fortnite”,“ PUBG”,“ FIFA”,“ Roblox”),玩具和儿童内容(“史莱姆”,“彩虹” ”,体育(“ NFL”,“ NBA”)和食品(“饮食”)。其他关键字似乎代表了流行的视频类型(“ ASMR”,“片刻”,“恶作剧”,“ hack”,“神秘”),并试图吸引潜在观众的注意力(“最差”,“最终”,“疯”)。
“ Fortnite”一词(指流行的在线视频游戏)与所有被检查的单词中的观看次数增加最多有关,它也是迄今为止最受关注的20个单词中最常见的一个。一周内,热门频道上传的所有视频游戏相关视频中,标题中带有“ Fortnite”的视频占15%。
在主题类别中,某些标题关键字与更多的观看次数相关联
除了分析总体上与较高观看次数相关联的排名靠前的关键字之外,该分析还重点介绍了某些关键字如何与主题区域内的更大观看次数相关联。
在某些情况下,这些关键字似乎突出显示了特定的子主题,这些子主题的效果特别好,但在该主题之外没有更广泛的吸引力。例如,美容视频或时尚视频在整体上比其他视频主题明显更受欢迎,但与该主题中的其他视频相比,该主题中在标题中提到“化妆”一词的视频表现尤其出色。
在其他情况下,特定字词会出现在多个主题领域的视频的热门关键字中。例如,“孩子”一词与涉及玩具或游戏以及创造力,技能或学习的视频中的观看次数增加相关。
同样,“特朗普”一词作为针对美国政治或时事的视频的流行关键字出现。在与美国时事或政治有关的英语视频子集中,相对于未使用以下术语的此类视频,在353个热门关键字中,只有两个与较高的观看次数相关联。 。” 在这些流行频道于2019年第一周发布的1,405则与美国时事或政治相关的英语录像中,超过三分之一(36%)的标题中提到了这两个词中的一个,这些录像获得的访问量几乎是后者的两倍中位数的观看次数与同期未发布特朗普的可比较视频的观看次数相同。9
十分之七的视频与其他社交媒体平台交叉链接
YouTube制作人通常在其视频说明中不仅包含有关视频本身的信息,而且还链接到其他在线内容,包括其社交媒体帐户和个人网站。在2019年第一周,流行频道上传的所有英语视频中,有70%的人在描述中提到了另一个著名的社交媒体平台。10最常提及的社交平台是Twitter(占所有视频的58%),Facebook(占51%)和Instagram(占50%),其次是Snapchat(占9%)。社交游戏服务Twitch和Discord在所有视频的描述中也提到了8%和6%,在所有与视频游戏相关的视频中分别提到了34%和21%。
提及其他社交媒体平台似乎与总体上更高的观看次数相关联:做到这一点的视频平均获得111,912次观看(中位数19,962次),而未提及外部社交媒体平台的视频则获得78,757次(中值6,295位)。
本报告中的分析基于对2019年第一周在YouTube频道上发布的,至少拥有25万订阅者的视频的检查。由于YouTube上没有所有视频或频道(任何大小)的详尽列表或官方批准的清单,因此Pew研究中心制定了自己的自定义列表,其中包含至少250,000个订阅者的43,770个频道。
我们如何映射渠道
皮尤研究中心的这项分析是基于先前的研究YouTube。通过几种递归和随机方法,我们遍历了YouTube API提供的数百万条视频推荐,搜索了以前无法识别的频道。截至2018年7月,已发现915,122个频道,其中30,481个具有至少250,000个订阅者,在本研究中,这些订阅者被定义为“受欢迎的频道”。在2018年7月至2018年12月之间,我们继续寻找新的频道,到2018年12月25日,总共确定了1,525,690个频道,根据本研究的标准,其中43,770个被认为很受欢迎。在确定的13289个新的流行频道中,以前没有发现过3600个,而在7月已经确定了9689个,但尚未超过250,000个订阅者。换一种说法,在此期间,通过额外的地图制作工作,受欢迎的频道列表增加了12%,而通过增加频道订阅率自然增加了32%。再加上六个月的地图绘制,覆盖率仅增加了12%,这表明该中心已经成功地在YouTube上找到了绝大多数受欢迎的频道。11
从2019年1月1日开始,我们开始扫描43,770个受欢迎的频道,以识别每个频道在前一天发布的所有视频。由于发布视频和确定视频的时间有所不同,因此在首次发布后的0到48小时内会观察到每个视频;平均视频在上传后22小时被观察到。确定视频后,我们将其跟踪一周,每天在原始发行的同一小时捕获其参与度统计信息。
收集的视频数据包括:
- 影片编号
- 标题和说明
- 查看次数
- 评论数
- 十大评论
- 喜欢和不喜欢的次数
- YouTube类别和主题
- 持续时间
- 发布日期/时间(UTC)
- 频道编号
- 频道订户数
过滤到英文视频
视频收集过程完成后,我们检查了英语的视频子集并对其进行了分类。YouTube API可以提供有关与任何给定频道和/或视频相关的语言和国家/地区的信息,但是通常会丢失此信息。在2019年第一周上载视频的24,632个频道中,有73%拥有其原籍国的可用信息,而8%则具有该频道的主要语言的信息。在本周流行频道发布的243,254个视频中,有61%的人了解其默认音轨的语言信息,只有26%的人具有其默认语言的信息。(YouTube的API文档并未明确说明这些值之间的区别,但其中一个可以自行报告,而另一个可以由YouTube自动检测到。
首先,中心对视频样本进行了编码,用于(a)视频标题是否为英语,以及(b)音频是否为英语,有英语字幕或完全没有口语。两名不同的中心编码人员观看了102个视频,并获得0.94的Krippendorf的alpha值,这表明双方达成了共识。然后,一个编码人员对3900个视频的样本进行了分类,然后使用这个较大的样本来训练语言分类模型。
我们对XGBoost分类器进行了培训,使其可以在整个视频数据库中运行,以使用以下参数对每个人的语言进行分类:
- 最大深度为7
- 250个估计量
- 最小儿童体重为0.5
- 平衡的班级权重(不用于评分)
- 评估指标:二进制分类错误
进行预测时,分类器基于每个视频的标题,描述,频道属性和其他元数据使用了多种功能。
语言检测功能
中心使用langdetect Python包来预测与每个视频相关的不同文本属性的语言,每个视频表示为每种可能语言的概率列表。这些概率是根据以下文本属性计算的:
- 频道标题
- 频道说明
- 影片标题
- 影片说明
- 频道和视频的标题和说明全部合并为一个文档
- 视频前10条评论的串联文字
国家和语言代码
根据YouTube API返回的元数据,为视频分配了二进制虚拟变量,这些变量代表以下国家和语言代码:
- 与视频频道关联的国家/地区代码
- 与视频频道关联的语言代码
- 视频的“语言”代码
- 视频的“ audioLanguage”代码
添加了其他功能,以表示该频道在2019年第一周制作的所有视频中带有每种语言代码的视频的总体比例。每种视频的语言均以可用的视频“ audioLanguage”代码表示;否则,将使用“语言”代码。这是基于这样的假设:有关给定频道产生的其他视频的信息可能有助于通过缺少语言信息来预测来自该频道的视频的语言(例如,如果某个频道产生了100个视频,其中90个被标记为在亚美尼亚语中,其中10个缺少语言信息,这10个视频很可能也是亚美尼亚人。)
英文单词特征
我们还根据是否可以在已知英语单词列表中找到与每个视频相关的文本中出现的单词来计算其他语言功能。使用了六种不同的文本表示形式:
- 频道标题
- 频道说明
- 影片标题
- 影片说明
- 频道和视频的标题和说明全部合并为一个文档
- 视频的前10条评论的串联文本12
对于每种文本表示形式,将文本在空白处分开(即,单词被识别为由类似空白的空格和制表符包围的字符集),并计算出以下三个特征:
- 在WordNet的英语词典中找到的单词比例
- 在NLTK的语料库中找到的词的比例
- 在WordNet或NLTK中找到的单词比例
文字功能
其他特征以TF-IDF(项频率,文档反频率)矩阵的形式提取。每个视频均由其标题和描述以及其频道的标题和描述串联而成。
使用以下参数提取两个矩阵,一个矩阵由单字组和双字母组组成,另一个代表1-6个字符的ngram。
- 最小文件频率为5
- 最大文件比例为50%
- L2归一化
- 最多75,000个功能
出版时间
最后,研究人员增加了一个附加功能,即代表视频发布时间(UTC)的整数,假设英语视频在一天中的某些时间段内由于地理位置的差异而更有可能发布。英文和非英文YouTube发布者。
该分类器在10%的保留集上达到98%的准确度,0.96的精度和0.92的查全率,并使用10倍交叉验证平均获得97%的准确度,0.91的精度和0.93的查全率。为了在精度和召回率之间达到更好的平衡,使用40%的预测概率阈值确定视频是否为英语,而不是默认的50%。
密码本
为了评估热门频道上传的视频的内容,我们开发了一个密码本,以按视频的主要主题和其他属性对其进行分类。完整的密码本可在附录D [LINK]中找到。首先要求编码人员指出他们是否可以观看视频。然后,为了从监督分类模型中滤除任何误报,要求编码人员指出视频中是否包含任何突出的外语音频或文本。如果视频是全英语的,则编码人员然后记录该视频的主要主题,无论它是否似乎专门针对儿童,是否似乎都针对13岁以下的儿童,以及新闻内容,视频提到了美国时事。克里彭多夫的alpha值。所有密码本项目均超过最低协议阈值0.7。
然后,中心在Amazon Mechanical Turk上对相同的250个视频进行了试点测试,其中要求三名单独的Mechanical Turk工作人员对每个视频进行编码。然后使用最大化与内部编码人员一致的阈值,将他们的回答协调为每个项目的单个值。13家内部编码人员解决了他们的分歧,以产生一个与Mechanical Turk进行比较的基准。
每个项目的协议阈值各不相同,具体取决于任务的难度。例如,识别带有另一种语言内容的视频需要密切关注,因为自动分类遗漏的视频通常很长,而且似乎是英语。编码人员必须仔细搜索非英语内容,而且与Mechanical Turk工作者相比,内部编码人员更可能注意到此内容。因此,如果视频被标记为包含另一种语言的内容(如果只有三名土耳其工人中的一位)将其标记为机械土耳其人的结果,则该结果与内部结果最为吻合。相比之下,识别儿童的内容涉及许多主观判断,而内部研究人员只会标记清晰明了的视频。机械土耳其人的工人不太敏感,因此在这种情况下,仅当三位Mechanical Turk工作者都将视频标记为儿童内容时,内部判断才最接近。在所有项目中,此过程产生了很高的一致性。
在确定产生与内部编码人员非常接近的结果的阈值之后,我们选择了所有被归类为英语内容的视频,过滤掉了已删除的那些视频,并将其余的42558个视频发送给Mechanical Turk进行编码。14编码发生在2019年4月12日至14日之间。
数据处理
在收集到的全部243,254个视频中,我们打算捕获七个快照,其中包括每个视频的参与度统计信息(及其创作频道的参与度统计信息)。七个快照中的第一个快照是在每个视频首次被识别时拍摄的,另外六个快照是在接下来的六天内首次发布的时间内拍摄的。在此数据集中,我们还添加了代表每个视频发布时间的行,并将参与度统计信息设置为零。我们总共希望每个视频产生八行数据,总计1,946,032个时间戳。但是,由于偶发的API错误和视频被删除,因此未能成功捕获78,273个时间戳(4%)。在243,254个独特的视频中,有17%(41,883)在一周内丢失了单个时间戳记,而6%(13,
幸运的是,许多丢失的时间戳记发生在一周的第一天和最后一天之间,因此我们可以对丢失的值进行插值。在缺少时间戳前后有可用数据的情况下,使用线性逼近对连续变量的缺失值(例如时间和视图计数)进行插值。完成此过程后,所有视频中只有不到2%(4,262)丢失任何时间戳记,很可能是因为它们在一周内被删除了。使用相同的方法来填写缺少视频频道统计信息的354个时间戳,以及YouTube API错误返回了零值频道视频,观看次数和订阅者计数的13、22和26,351行。
关键字分析
为了专注于代表广泛且笼统的主题的单词,而不是特定于特定频道的名称或术语,中心审查了至少10个不同频道发行的至少100个不同视频的标题中提到的353个单词。在一组标准的318个停用词中,研究人员添加了一些其他要忽略的词-其中一些与链接有关(“ YouTube”,“ www”,“ http”,“ https”,“ com”),而另一些则模糊地代表了名称包括多个内容创建者和/或公众人物(“詹姆斯”,“凯利”,“约翰”)和“获取”一词,相对而言,这些信息不多。剩余的353个单词集在所有视频中以及视频的主题子集中进行了检查。
中心将标题中提到每个单词的视频的观看次数中位数与未提及单词的视频的观看次数中位数进行比较,然后确定与观看次数中位数呈正相关的视频。为了确认这些差异,中心使用视频标题中每个单词的存在与否作为自变量,对每个子集中的视频的已记录观看次数进行线性回归。这组独立变量中包含了每个子集中至少100个视频的标题中出现的所有单词(并由至少10个唯一频道发布)。所有报告的关键字观看次数差异在p <= 0.05时均显着。
中心还检查了视频描述中与外部社交媒体平台链接相关的单词。研究人员检查了视频的几个随机样本,并开发了与社交平台相关的关键字列表,这些关键字通常出现在视频的说明中。然后,此列表用于构建正则表达式,以匹配包含一个或多个关键字的任何描述:
facebook |(fbW)| twitter | tweet |(tww)| instagram |(igW)|(instaW)| snapchat |(snapW)| twitch | discord | tiktok |(tik tok)| pinterest | linkedin | tumblr |(google + )|(google +)|(g +)
然后,两名中心编码人员检查了200个随机视频描述的样本,并根据每个视频是否链接到以下社交媒体平台之一进行了编码:Facebook,Twitter,Instagram,Snapchat,Twitch,Discord,TikTok,Pinterest,LinkedIn, Tumblr和Google+。两位中心编码员之间(在Krippendorf的alpha值为0.85)以及正则表达式模式(在Krippendorf的alphas为0.76和0.92)之间达成了很高的一致性。
【原创文章】作者:李梦龙,如若转载,请注明出处:https://berollo.com
【版权提示】本网站梦龙的笔记(网站地址:www.berollo.com)及公众号梦龙的笔记(公众号地址:berollo)刊载的所有原创内容,包括文字、图片、音频、视频等所有内容,除签署正式付费转载协议伙伴外禁止任何形式的复制、转载、修改或者以其他方式使用本网站或本公众号的内容。