[摘要] 大数据是指存储在互联网上远远超出传统数据库的海量数据。 新闻媒体通过运用一定的计算方法对大数据进行分析,可以深化新闻叙事并对事实做出准确判断,预测未来并进行报道,满足用户定制化的信息需求,使数据可视化、交互化。 然而,记者在利用大数据进行新闻报道时仍面临一系列值得注意的问题。 我国新闻媒体尚处于利用大数据报道新闻的初步探索阶段,需要借鉴国际同行的经验。

【关键词】 大数据 数据新闻 新闻生产 深化新闻叙事 信息定制

如今,从日常开支记录到手机上堆积如山的电话号码,再到世界各地和中国的社会经济发展数据,一切都可以记录。 我们已经被海量数据包围。 于是“大数据”这个词开始流行起来。 大数据是指我们使用互联网的各种路径和形式时留下的海量信息和信息痕迹。 近两年来,人们在互联网上留下的信息以及使用各种社交媒体留下的信息痕迹,相当于人类有记录以来保留的信息总量。 仅百度一个搜索引擎每天就获得60亿条搜索数据。 大数据的数据量之大,远远超过传统数据库软件工具捕获、存储、管理和分析的数据量。 至此,我们就可以了解计算机中存储信息的各单元之间的关系了。

计算机的最小存储单位是字节,1K=1024Byte、1M=1024K、1G=1024M、1T=1024G、1P=1024T、1E=1024P、1Z=1024P。 2011年全球数据量已达到1.8Z,预计2015年将接近8Z。面对如此庞大的数据量,我们传统的数据组织和处理模式已经不能满足其需求。 此外,大数据还具有规模大、价值高、交叉复用等特点。 ①不同行业、不同领域的数据之间的商品交换和相互利用也变得非常频繁。 这意味着处理、分析、共享和挖掘数据的能力从未得到提高。

显然,大数据对于人类把握自身整体发展具有重要意义。 大数据对于社会各领域把握自身发展也具有重要意义。 那么大数据对于新闻报道又如何呢? 新闻虽然具有具体性,但一旦在新闻报道中加入大数据计算,大数据新闻就会诞生,对新闻生产方式的影响将是巨大的。 对不同领域、不同层面的大数据进行分析处理后,可以通过可视化和叙事手段创造出新的新闻报道方式。 ②这种报道方式主要包括四个环节:原始数据的收集、数据的分析与过滤、数据的可视化、具体新闻报道的形成。

大数据新闻并不是一夜之间出现的。 它的萌芽始于计算机辅助报告③。 20世纪50年代,美国媒体记者使用大型计算机分析政府提供的数据库中的信息,以发现和调查新闻事实。 ④ 记者从政府机构、企业等发布的有限数据中发现新闻话题或将这些数据作为支撑发现、扩大报道深度的重要信息。 在当今大数据的背景下,记者能够获取和利用的数据是当时天文数字的数倍。

大数据新闻不同于精准新闻和数字新闻。 准确新闻是美国学者、记者菲利普·迈耶在20世纪60年代提出的。 ⑤ 指新闻工作者在报道新闻时,采用调查、实验、内容分析等社会科学研究方法,收集信息、核实事实、报道新闻的行为。 这种新闻报道方式在 20 世纪 70 年代的美国媒体中开始流行。 20世纪80年代,中国媒体开始采用这种新闻报道方式。 它的特点是用精确、具体的数据分析新闻事件,避免主观和人为错误。 它侧重于微观具体调查、实验和内容分析。 数字新闻是指以数字、公式、信件等静态形式补充书面报道。 我们现在所说的大数据新闻,就是大数据挖掘和处理的结果。 这类新闻可以通过复杂的互动、动态的图片和视频来呈现。

一、大数据新闻的功能和优势

目前,积累了大数据新闻制作经验的国际媒体有《卫报》、《纽约时报》、《华盛顿邮报》,但也处于探索阶段。 通过研究国内外代表性媒体的大数据新闻实践,我们可以总结出大数据新闻的四大功能,即描述、判断、预测、信息定制。

1.新闻叙事

2012年1月5日,英国《卫报》发表了有关“阿拉伯之春”的大数据新闻报道。 ⑥报告以动态图表的形式,以时间线为主线,描述了从2010年12月突尼斯男子自焚到2011年12月这一年,在17个阿拉伯国家发生的一场政治运动。通过这个四维动态报告网友们可以从宏观到微观清楚地了解阿拉伯之春在不同国家的不同表现。 图表顶部有用于时间的推拉按钮。 网友可以推拉到自己想看的时间点,可以清晰地看到不同国家同一时间点发生的相关事件。 屏幕底部是每个国家/地区的标签。 网民还可以使用国家标签在垂直时间轴上追踪特定国家的政治演变。 不同的政治事件用不同的颜色标记:绿色代表大规模抗议,浅蓝色代表相关国际反应,黄色代表政治事件,红色代表政权更迭。 网友如果想了解某个事件的具体内容,可以点击不同颜色的标志,然后获取深度报道的链接。 这种新闻报道方式将涉及十多个国家、跨度长达一年的复杂“阿拉伯之春”以清晰、动态的方式呈现出来。 纯文字报道很难达到这样的传播效果。

大数据新闻还可以描述看不见的短期过程,例如谣言如何在社交网络上传播。 ⑦《卫报》跟踪分析了260万条推文,并用可视化动态图表描述了从谣言开始到谣言被驳斥结束的整个过程。 它还以时间为轴,用圆圈的大小和颜色的变化来描述整个过程。 绿色圆圈代表散布谣言的推文,红色圆圈代表纠正谣言的推文,灰色圆圈代表中立评价的推文,黄色圆圈代表对谣言持怀疑态度的推文。 圆圈的大小代表了该推文的影响程度,圆圈越大,影响程度越大。 如果你想了解具体内容,点击哪个圆圈,屏幕旁边就会立即显示该圆圈代表的推文的发布者、发布日期、转发次数等信息。 通过这个动态的演化过程,人们可以清楚地看到,社交网络并不是一般想象中的一个盲目传播虚假新闻的地方。 事实上,假新闻出现后不久,社交网络上就出现了各种辟谣的消息。

从这两个例子可以看出,大数据新闻的报道方式可以从宏观上更清晰、更全面地看待一个事件。 事件复杂的演变过程以及这个过程的各个方面都可以直观有趣地描述出来。 。

2.事实判断

2011年8月,一名穆斯林黑人男子在伦敦街头乘坐出租车时被警察拦下。 枪战爆发,该男子死在街上。 两天后,约 300 人聚集在伦敦市中心的一个警察局举行抗议活动,抗议活动演变成持续数天的骚乱,抗议者放火焚烧汽车、商店和公共汽车。 当晚,伦敦其他地区也发生了类似的袭击警察、抢劫和纵火事件。 有媒体评论指出,这与贫富差距有关。 英国首相卡梅伦在接受采访时声称,骚乱与贫富差距无关。

英国《卫报》记者利用大数据的分析结果,对这一事件进行了系列报道。 报告的主题之一是骚乱与贫困之间是否存在联系。 ⑧记者利用Google Fusion Chart在伦敦地图上标注了骚乱者的居住信息(黄点)、骚乱的实际地点(灰点)以及贫困地区分布(越红越穷)。 根据这张伦敦市中心地图,网友可以将地图放大,看到整个大伦敦地区,也可以聚焦特定街区,放大观察每个标记的骚乱点的人流从哪里来、到哪里去。 ,从而清楚地看到贫困与骚乱之间的某种联系。 这种关系的表达比简单的文字报告更清晰、更有说服力。

3.预测趋势

2013年国庆假期期间,大量游客滞留九寨沟,引发群体性事件。 如果新闻媒体或者旅游部门以前能够利用中国本土的大数据进行预测报道,这样的群体性事件是完全可以避免的。 因为媒体可以利用这个大数据,提前报道特定时间段内有多少人从哪些地方去九寨沟,包括有多少男性、女性、老人、儿童等。

这只是大数据如何预测社会和人们日常生活的方方面面的一个小例子。 通过挖掘大数据,媒体可以从技术上产生可视化和交互式图表来告知许多事情。 微观的,比如流行病的爆发、交通拥堵; 宏观的,比如经济指标的变化,某种社会危机的到来等等。百度开设了“百度预测”网页,推出的口号是“大数据,了解世界”。 ⑨ 预测产品包括高考、世界杯、电影票房等,他们后期计划推出的产品已经扩展到更广泛的领域,比如金融预测、房地产预测等。

4、信息定制

利用大数据的分析结果来满足网民个性化的信息需求,是外媒的最新尝试。 例如,五三十八数据博客于2014年5月23日推出了新的读者来信专栏“亲爱的莫娜”。 ⑩第一期开篇解释的目的是:“我创办这个专栏是为了帮助读者回答一些问题。”生活中重要或严肃的问题,比如我是否正常,我在世界上的哪个位置等等。目的不是回答问题或告诉读者他们应该做什么和不应该做什么。相反,我提供数据是为了解释并描述你的经历。”

在整个专栏中,读者提出的问题包括更严重的问题,例如:“美国有多少人从未喝过一滴酒?” “美国有多少男空姐?” 更私人的问题,例如:“我应该多久换一次袜子? “婚前同居会导致离婚吗”等等。 专栏作家利用美国各地的大数据,立即告知当事人分析结果,但避免给出指导性意见,只告知各种数据的分析结果,让网民根据分析结果处理自己面临的问题。 该专栏不同于传统的印刷媒体读者来信专栏。 它不会通过十二生肖、血型、出生日期来提供一些鸡汤式的答案,也不会冒充经验丰富的专家。 它只用数据说话。

这样的尝试在媒体上并不少见。 2011年,BBC广播公司与毕马威会计师事务所合作,根据2012年政府预算创建了预算计算器。 用户只需要输入一些日常信息,例如购买多少啤酒、使用多少汽油等,即可计算出新的预算。 明年你会缴纳多少税,你的生活会更好吗?

根据用户需求提供个性化大数据服务是未来的发展趋势。 这些报告有一个共同点。 媒体无不致力于聚焦用户的需求,利用大数据来解释宏观社会现象对用户的影响,或者解答用户困惑的问题。 媒体可以精准定位,根据用户的接待习惯、工作习惯、生活习惯,通过后台计算,向用户推送服务。

【1】【2】

2、科学利用大数据制造新闻

目前,大数据分析在新闻制作中的运用还处于探索阶段,媒体和记者在操作过程中必须考虑一系列可能出现的问题。 下面从三个方面进行论证。

1.数据的全面性和客观性

大数据并不意味着完整的数据或真实的数据。 记者不仅要确保从不同的信息来源获得足够的数据,还要检验这些数据的客观性。 与传统抽样统计相比,大数据的优势在于拥有足够的原始数据。 互联网时代,人际关系、社会活动、地理位置等所有信息都可以转化为数字,从而提供了数据综合获取的可能性。 大数据的来源有很多。 新闻报道、门户网站、搜索引擎、社交网站、政府和企业统计、物联网和传感器检测都是数据来源。 全面的数据获取是大数据分析应用于新闻报道的必要基础。

获得足够的数据后,需要对数据做出客观的判断。 大多数人习惯于假设数据是客观的,并且是现实世界无可置疑的数字表示。 事实上,正如《原始数据只是一种修辞》一书的作者 Lisa Gittleman 所说:“数据永远不可能是原始的,因为它不是自然的产物,而是人的倾向。 和价值观被构建。 我们最初设定的收集数据的方法已经决定了数据的呈现方式。 数据分析的结果看似公正客观,但实际上价值选择贯穿于从构建到解读的整个过程。 [11]摄影术刚发明时,人们普遍认为它能够承担真实再现客观世界的任务。 但后来人们发现,照片比文字更能巧妙地撒谎。 今天对大数据的期望与对摄影的期望类似。 数据并不完全客观,也不完全是客观存在的真实表征。 其定义和定义、统计方法、统计范围等,包含和传达了某些方面的价值判断,也决定了数据反映现实的程度。

数据并不完全客观。 如果用推特数据来分析社会事件或社会动态,记者要注意的是,推特用户主要是高收入的年轻人,并不能反映一定范围内所有人的全貌。 如果报告使用警察部门的犯罪记录数据库,还应该考虑到故意不记录案件以降低犯罪率。 因此,哥伦比亚大学计算新闻学课程教授乔纳森·斯特雷(Jonathan Stray)提出,记者在获取数据时必须多问几个问题:“这些数字从哪里来?” “这些数字是谁记录的?” 它是如何记录的?”“收集这些数据的目的是什么?”“我们如何知道数据是完整的?”“这些数据的人口统计数据是什么?”“使用定量方法来解决这个问题是正确的方法吗?”方法? ?” “数据中没有包含哪些内容?” “谁会受到这些数据结果的不利影响?” “这些数据是一致的,还是由不同的人编制的?” “需要做出哪些任意决定来生成这些数据? ?” “这些数据与其他来源的数据一致吗? 有人分析过这些数据吗?”… [14] 面对数据时,记者应该多问为什么和如何的问题,并获取元数据(关于数据的数据)。不仅要了解数据是什么,还要了解数据的过程。生成哪些数据。

2.科学分析数据

获得所有数据后,下一步就是建立计算模型,通过大数据分析还原客观趋势或现象。 对这类叙述性报道进行数据分析时,重点是建立准确的分析模型,谨慎得出结论。 数据不能自己说话,记者需要使用一系列算法来挖掘数据中的含义。 算法不等于判断。 从数据世界走向现实世界是一个充满风险的过程,一不小心就可能会做出错误的报告。

判断性报道要求记者利用大数据做出判断,解释不同事物之间的因果关系。 大数据通常只揭示两个变量之间的相关性,相关性并不等于因果关系。 变量A和变量B之间存在相关性,可能是A导致B,也可能是B导致A,可能还有其他因素C、D……同时导致A、B发生变化; 或者A和B之间的联系只是偶然等等。 利用大数据分析发现相关性后,要证明这种相关性之间的因果关系,还需要记者进一步调查和严密的逻辑推理。

美国新闻聚合网站buzzfeed的数据科学经理基·哈林(Ky Harlin)制作了一些图表来表达世界上令人难以置信的相关性,比如巧克力销量的上升和谋杀案件的上升以及有机食品之间的正相关性。 消费与自闭症患者数量之间存在正相关关系。 [16]这些看似无关的“相关性”不会引导读者得出因果关系的结论。 如果记者获得了报告中两组数据之间的相关性,而这种相关性恰好符合记者的预先判断,则很可能会产生误解。

现在媒体可以通过大数据的分析做出预测性的报道。 预测是否准确取决于数据是否服从正态分布。 然而,我们生活的世界是一个复杂的系统,“黑天鹅事件”时有发生。 黑天鹅事件是指偶然发生的重大、罕见事件,出人意料却改变了一切。 经济危机、革命、“9.11”事件等都是黑天鹅事件。 黑天鹅事件遵循幂律分布并且不可预测。 记者在使用大数据进行报道时,应该对自己使用的工具抱有一些怀疑,对现实世界多一些敬畏。

3.遵守新闻道德

如今,各方面的大数据庞大且易于获取,可以获取以前几乎无法获取的信息,例如特定人群的行为习惯、社交活动、健康状况等。 虽然掌握大量用户数据的主体不是传统媒体,但各方面掌握大数据的媒体和机构可以基于利益建立合作关系。 当特定报道主题涉及用户隐私时,媒体可能违反职业道德,利用这种关系获取数据。 媒体会为了解答用户的疑问而挖掘这部分涉及用户隐私的数据吗? 当媒体运用大数据分析报道新闻时,与新闻职业道德相关的各种是非判断将再次以新的形式挑战新闻记者的职业道德。

三、我国利用大数据新闻需要做三件事

目前,国内新闻大数据的运用还处于起步阶段。 2014年初央视与百度合作的“都说春运”、“都说春节”项目就是大数据新闻的有益尝试。 这两套报告利用了百度指数、百度地图定位等技术,报告了春节期间最受欢迎的路线、春节期间人们最喜欢的菜肴等。这种尝试现在只是偶尔的一次,并没有成为一种新的尝试。定期新闻节目。 三大门户网站都开设了利用大数据解读新闻的栏目:网易的数字阅读、搜狐的数字之路、新浪的画报世界。 他们主要在垂直时间或水平空间上比较数据,并以静态图表的形式呈现。 与国外媒体的大数据新闻实践还有较大差距。

考虑到这一点,现在需要做的三件事是:

1、打破传统思维,选择新的选题。 选题无法开拓思路,是目前大数据新闻难以引起人们关注的一个明显问题。 重点应该是:哪些报道是以前难以想象、不可能做的? 对此,一些外媒的做法为我们提供了很多借鉴。

2、新闻呈现告别静态图表,融合先进制作技术。 利用动态图表、交互图表,生动展现新闻事件全貌,提高用户参与度和界面友好性,是大数据新闻呈现的核心优势。 只要想一想,对于现在的年轻一代记者来说,做到这一点应该不难。

3、新闻专业人士与IT专业人士联合组成大数据新闻团队。 根据国际同行的经验,大数据新闻团队由新闻专业人士、产品开发人员、数据分析师组成。 后者完全融入媒体制作过程。 正如《芝加哥论坛报》的新闻应用团队所说,他们就像一群快乐的黑客潜入新闻编辑室,经常在与记者面对面的交谈中找出自己需要做什么。 [17]

(作者为:中国人民大学新闻与社会发展研究中心教授陈立丹,同校新闻学院研究生李亦奇、娜佳)

(本文为国家社科基金重大项目(批准号:13&ZD182)的研究成果。)

笔记:

作者 admin