| 失效链接处理 | 
| 阿里--领军行业大数据及AI实践  PDF 下载 
	本站整理下载: 
	相关截图:  
	主要内容: 
		摘要:随着自媒体的发展,传统媒体面临着巨大的压力和挑战,新华智云运用大 
		数据和人工智能技术,致力于为媒体行业赋能。通过媒体大数据开放平台,将媒体行 
		业全网数据汇总起来,借助平台数据处理能力和算法能力,将有价值数据内容和能力 
		开放给用户。本文主要从新华智云数芯平台,媒体行业数据特征,批流处理数据架 
		构,以及通用的媒体大数据平台能力等几个方面介绍了如何基于 MaxCompute 做媒 
		体大数据开放平台建设。 
		本次的分享主要围绕以下五个方面: 
		一、关于新华智云 
		二、数芯 - 媒体大数据开放平台 
		三、媒体大数据平台能力 
		四、Project 依赖 
		五、几点小提示 
		一、关于新华智云 
		新华智云是新华社与阿里巴巴合资成立的一家公司,主要面向运用大数据和人工 
		智能技术,致力于为媒体行业赋能。随着自媒体的发展,自媒体公司非常的火热,如 
		今日头条,抖音等。对传统媒体来说,面临着巨大的压力和挑战。传统媒体急切的希 
		望互联网的技术帮助他们赋能。 
		媒体大脑 - 数芯 
		媒体大脑是新华智云底层的产品品牌,数芯是媒体大脑基础的数据平台。数芯定 
		新华智云 <   11 
		位为媒体大数据开放平台,平台中包含了媒体行业所依赖的各种各样的数据。数芯希 
		望通过平台本身的数据处理能力和算法加工,将挖掘的有价值数据内容和能力开放给 
		上层用户。目前,数芯包含了各种各样的数据,涵盖了 400 多万互联网站点,主要 
		以中文站点为主,日增 7 千万文章,包含微信公众号,微博账号,图片以及多媒体 
		来源等。将不同来源存储在平台中,之后对接数据,进行更多的加工和运用。“数据 
		已经不再是一种成本,而是成为一种生产资料”,这句话在媒体行业更能够有所感受。 
		一篇新闻除了是新闻之外,还是一条数据,同时新闻本身又会衍化产生新闻。很多媒 
		体公司利用互联网技术获得大量的新闻内容之后,辅助他们新闻的生成过程。数芯会 
		将媒体数据从不同的源头,不同供应商,以不同内容格式存储到平台中,进行数据清 
		洗,结构化,加工等等一系列的操作之后,生成有价值的内容。如,这段时间之内媒 
		体关注的热点,互联网上发生的事件,同时识别新闻和机构之间的关系,基于实体将 
		各个渠道上的数据整合起来,为用户提供统一的视图。用户可以看到信息的发酵过 
		程,以及信息在什么地方传播。 
		二、数芯 - 媒体大数据开放平台 
		数芯是一个开放的大数据平台,开放的点主要有三个方面。第一,数据的开放。 
		任何数据进到数芯之后,都会在整个大数据处理的链条中做计算,内容结构化,加入 
		标签。同时基于用户感兴趣的数据范围,做标签的特征过滤,筛选用户想要的数据。 
		数芯帮助用户了解互联上的信息,了解互联网上与自身相关的事件。第二,数芯提供 
		智能能力的开放。用户不管怎么努力,不可能获取到互联网上所有的数据;而且不可 
		能每个公司都会自建内容大数据平台,做数据分析,也不可能都配备算法工程师;而 
		且公司的数据处理能力也不是足够强;媒体大数据平台可以帮助用户将与他们有关的 
		数据加工好,通过算法能力获得用户关心的信息。如用户提供一个文章,数芯可以反 
		馈这篇文章与谁相关,相同的文章在什么地方传播,文章由谁编写,发在什么地方等 
		等信息。通过开放算法能力,帮助用户做数据能力和算法能力的应用,提供文本反垃 
		圾服务,互联网内容结构化服务,文本内容实体识别服务,文本去重判定服务,图像 
		人物识别服务和图像标签化服务等等。第三,产品能力的开发,包含舆情监测能力, | 



 
     苏公网安备 32061202001004号
苏公网安备 32061202001004号


 
    