Java知识分享网 - 轻松学习从此开始!    

Java知识分享网

Java1234官方群25:java1234官方群17
Java1234官方群25:838462530
        
SpringBoot+SpringSecurity+Vue+ElementPlus权限系统实战课程 震撼发布        

最新Java全栈就业实战课程(免费)

springcloud分布式电商秒杀实战课程

IDEA永久激活

66套java实战课程无套路领取

锋哥开始收Java学员啦!

Python学习路线图

锋哥开始收Java学员啦!
当前位置: 主页 > Java文档 > Java基础相关 >

阿里--领军行业大数据及AI实践 PDF 下载


分享到:
时间:2021-11-21 08:31来源:http://www.java1234.com 作者:转载  侵权举报
阿里--领军行业大数据及AI实践 PDF 下载
失效链接处理
阿里--领军行业大数据及AI实践  PDF 下载



 
本站整理下载:
提取码:oprt 
 
 
相关截图:
 
主要内容:

摘要:随着自媒体的发展,传统媒体面临着巨大的压力和挑战,新华智云运用大
数据和人工智能技术,致力于为媒体行业赋能。通过媒体大数据开放平台,将媒体行
业全网数据汇总起来,借助平台数据处理能力和算法能力,将有价值数据内容和能力
开放给用户。本文主要从新华智云数芯平台,媒体行业数据特征,批流处理数据架
构,以及通用的媒体大数据平台能力等几个方面介绍了如何基于 MaxCompute 做媒
体大数据开放平台建设。
本次的分享主要围绕以下五个方面:
一、关于新华智云
二、数芯 - 媒体大数据开放平台
三、媒体大数据平台能力
四、Project 依赖
五、几点小提示
一、关于新华智云
新华智云是新华社与阿里巴巴合资成立的一家公司,主要面向运用大数据和人工
智能技术,致力于为媒体行业赋能。随着自媒体的发展,自媒体公司非常的火热,如
今日头条,抖音等。对传统媒体来说,面临着巨大的压力和挑战。传统媒体急切的希
望互联网的技术帮助他们赋能。
媒体大脑 - 数芯
媒体大脑是新华智云底层的产品品牌,数芯是媒体大脑基础的数据平台。数芯定
新华智云 <   11
位为媒体大数据开放平台,平台中包含了媒体行业所依赖的各种各样的数据。数芯希
望通过平台本身的数据处理能力和算法加工,将挖掘的有价值数据内容和能力开放给
上层用户。目前,数芯包含了各种各样的数据,涵盖了 400 多万互联网站点,主要
以中文站点为主,日增 7 千万文章,包含微信公众号,微博账号,图片以及多媒体
来源等。将不同来源存储在平台中,之后对接数据,进行更多的加工和运用。“数据
已经不再是一种成本,而是成为一种生产资料”,这句话在媒体行业更能够有所感受。
一篇新闻除了是新闻之外,还是一条数据,同时新闻本身又会衍化产生新闻。很多媒
体公司利用互联网技术获得大量的新闻内容之后,辅助他们新闻的生成过程。数芯会
将媒体数据从不同的源头,不同供应商,以不同内容格式存储到平台中,进行数据清
洗,结构化,加工等等一系列的操作之后,生成有价值的内容。如,这段时间之内媒
体关注的热点,互联网上发生的事件,同时识别新闻和机构之间的关系,基于实体将
各个渠道上的数据整合起来,为用户提供统一的视图。用户可以看到信息的发酵过
程,以及信息在什么地方传播。
二、数芯 - 媒体大数据开放平台
数芯是一个开放的大数据平台,开放的点主要有三个方面。第一,数据的开放。
任何数据进到数芯之后,都会在整个大数据处理的链条中做计算,内容结构化,加入
标签。同时基于用户感兴趣的数据范围,做标签的特征过滤,筛选用户想要的数据。
数芯帮助用户了解互联上的信息,了解互联网上与自身相关的事件。第二,数芯提供
智能能力的开放。用户不管怎么努力,不可能获取到互联网上所有的数据;而且不可
能每个公司都会自建内容大数据平台,做数据分析,也不可能都配备算法工程师;而
且公司的数据处理能力也不是足够强;媒体大数据平台可以帮助用户将与他们有关的
数据加工好,通过算法能力获得用户关心的信息。如用户提供一个文章,数芯可以反
馈这篇文章与谁相关,相同的文章在什么地方传播,文章由谁编写,发在什么地方等
等信息。通过开放算法能力,帮助用户做数据能力和算法能力的应用,提供文本反垃
圾服务,互联网内容结构化服务,文本内容实体识别服务,文本去重判定服务,图像
人物识别服务和图像标签化服务等等。第三,产品能力的开发,包含舆情监测能力,

 

------分隔线----------------------------

锋哥公众号


锋哥微信


关注公众号
【Java资料站】
回复 666
获取 
66套java
从菜鸡到大神
项目实战课程

锋哥推荐