失效链接处理 |
阿里--领军行业大数据及AI实践 PDF 下载
本站整理下载:
相关截图:
![]()
主要内容:
摘要:随着自媒体的发展,传统媒体面临着巨大的压力和挑战,新华智云运用大
数据和人工智能技术,致力于为媒体行业赋能。通过媒体大数据开放平台,将媒体行
业全网数据汇总起来,借助平台数据处理能力和算法能力,将有价值数据内容和能力
开放给用户。本文主要从新华智云数芯平台,媒体行业数据特征,批流处理数据架
构,以及通用的媒体大数据平台能力等几个方面介绍了如何基于 MaxCompute 做媒
体大数据开放平台建设。
本次的分享主要围绕以下五个方面:
一、关于新华智云
二、数芯 - 媒体大数据开放平台
三、媒体大数据平台能力
四、Project 依赖
五、几点小提示
一、关于新华智云
新华智云是新华社与阿里巴巴合资成立的一家公司,主要面向运用大数据和人工
智能技术,致力于为媒体行业赋能。随着自媒体的发展,自媒体公司非常的火热,如
今日头条,抖音等。对传统媒体来说,面临着巨大的压力和挑战。传统媒体急切的希
望互联网的技术帮助他们赋能。
媒体大脑 - 数芯
媒体大脑是新华智云底层的产品品牌,数芯是媒体大脑基础的数据平台。数芯定
新华智云 < 11
位为媒体大数据开放平台,平台中包含了媒体行业所依赖的各种各样的数据。数芯希
望通过平台本身的数据处理能力和算法加工,将挖掘的有价值数据内容和能力开放给
上层用户。目前,数芯包含了各种各样的数据,涵盖了 400 多万互联网站点,主要
以中文站点为主,日增 7 千万文章,包含微信公众号,微博账号,图片以及多媒体
来源等。将不同来源存储在平台中,之后对接数据,进行更多的加工和运用。“数据
已经不再是一种成本,而是成为一种生产资料”,这句话在媒体行业更能够有所感受。
一篇新闻除了是新闻之外,还是一条数据,同时新闻本身又会衍化产生新闻。很多媒
体公司利用互联网技术获得大量的新闻内容之后,辅助他们新闻的生成过程。数芯会
将媒体数据从不同的源头,不同供应商,以不同内容格式存储到平台中,进行数据清
洗,结构化,加工等等一系列的操作之后,生成有价值的内容。如,这段时间之内媒
体关注的热点,互联网上发生的事件,同时识别新闻和机构之间的关系,基于实体将
各个渠道上的数据整合起来,为用户提供统一的视图。用户可以看到信息的发酵过
程,以及信息在什么地方传播。
二、数芯 - 媒体大数据开放平台
数芯是一个开放的大数据平台,开放的点主要有三个方面。第一,数据的开放。
任何数据进到数芯之后,都会在整个大数据处理的链条中做计算,内容结构化,加入
标签。同时基于用户感兴趣的数据范围,做标签的特征过滤,筛选用户想要的数据。
数芯帮助用户了解互联上的信息,了解互联网上与自身相关的事件。第二,数芯提供
智能能力的开放。用户不管怎么努力,不可能获取到互联网上所有的数据;而且不可
能每个公司都会自建内容大数据平台,做数据分析,也不可能都配备算法工程师;而
且公司的数据处理能力也不是足够强;媒体大数据平台可以帮助用户将与他们有关的
数据加工好,通过算法能力获得用户关心的信息。如用户提供一个文章,数芯可以反
馈这篇文章与谁相关,相同的文章在什么地方传播,文章由谁编写,发在什么地方等
等信息。通过开放算法能力,帮助用户做数据能力和算法能力的应用,提供文本反垃
圾服务,互联网内容结构化服务,文本内容实体识别服务,文本去重判定服务,图像
人物识别服务和图像标签化服务等等。第三,产品能力的开发,包含舆情监测能力,
|