2016年12月8日,作为大数据领域规模最大、最具影响力的IT盛会,2016中国大数据技术大会(Big Data Technology Conference 2016,BDTC 2016)在北京新云南皇冠假日酒店盛大开幕。本次大会历时三天,以更加国际化的视野,邀请众多国内外大数据专家齐聚一堂,从政策法规、技术实践和产业应用等角度深入探讨大数据落地后的挑战,与往届相比,本届大会更关注行业应用最佳实践,突出应用和数据的深度融合,并首次将人工智能、高性能计算等热点话题引入大会,作为大数据产业界、科技界与政府部门密切合作的重要平台,本届大会吸引了数千名大数据技术从业者与技术专家到场参会。
16:30【全体大会】今天主会环节最后一位演讲嘉宾来自D-Uni Founder&CEO查理,他带来的分享主题为《数据敏捷性 数据时代的云架构》,他对目前的数据库弊端,提出了自己的看法,并详细介绍了数据库虚拟化技术。 [详情]
16:00【全体大会】百度金融研发负责人沈抖带来了名为“大数据助推普惠金融发展与创新 ”的主题演讲。沈抖表示,大数据已经从用户画像、精准营销、风险管理、运营优化等各个方面支持银行、保险、证券的业务。并从百度目前对大数据需求较大的几个方面(安全防护、智能获客、大数据风控、以及量化投资)同与会者分享了百度最近的技术成果。沈抖表示,有了大数据的支持,百度希望做到千人千面,即根据客户的兴趣爱好、人生阶段、对生活品质的要求、消费水平等方面,为不同用户制定不同的营销方案。 [详情]
15:30【全体大会】蚂蚁金服人工智能部技术总监李小龙在《人工智能驱动金融生活》主题演讲中人工智能在金融领域有着广泛的应用,并通过多个案例分享了人工智能在提升金融领域产品用户体验提升上的突出表现。 首先以智能客服为例。蚂蚁金服借助大数据+人工智能技术,大大改善了以往自助服务中转人工率高、问题识别不准、答案匹配率低等问题。通过数据挖掘代替运营经验来发现用户真实的诉求,在标准问题挖掘方面,提出问题识别闭环——从客服对话中提取问句,再进行增量聚类。聚类结果并不是直接进入问题知识库,而是由人工进行一定的审核,所得的审核结果将能变成算法反馈,从而构成一个知识闭环。通过这样一个闭环,聚类算法越来越聪明,标准问题库就会像滚雪球一样不断扩大。 [详情]
14:45【全体大会】驭势科技联合创始人兼CEO,CCF大数据专家委员会委员吴甘沙带来《智能驾驶中的人工智能》的主题分享。他表示互联网的本质主要有三个层面,第一,重构信息不对称的社会格局,建立连接,第二是交易成本最小化,但不是生产成本,第三,惠及长尾人群,但未必产生整体效率的最大化。可以看出互联网在给人类带来便捷的同时也带来了不少的坑。他预测面对互联网挖的坑,只有人工智能才能填。同时,他表示,未来所有与人和物的交通相关产业都将被重新定义。 对于智能驾驶到底离我们多远,他强调,驭势科技力争成为中国第一家在2-3年内同时实现辅助驾驶和无人驾驶商业化的公司。但是智能驾驶领域面临极高的门槛,包括基本认知,检测不能撞的障碍物和路面行驶区域、地图和地位、感知像认知的跨越、未解决的挑战包括人工智能的鲁棒性、从weak AI到stronger weak AI。他表示比代码更难的是,是数据以及基于其上的随机算法和机器学习。所以智能驾驶系统需要可预期的置信度。 [详情]
14:20【全体大会】星环科技董事长&CTO孙元浩发表了《大数据技术的最新进展和潜在应用》主题演讲。大数据技术的软件栈分为分析管理工具、领域级引擎、通用计算引擎、资源管理框架以及分布式存储引擎几项。而Hadoop的发展目前已经有了几大进展:分布式计算已逐渐成为主流计算方式;交互式分析技术日益成熟;数据分析算法逐渐丰富,工具普及化;融合事件驱动和批处理引擎。后Hadoop/Spark时代,新技术在数据量,类型,速度以及价值四个维度上都将加速创新。最后孙元浩表示:2016年是Hadoop技术大规模应用的战略转折点。 [详情]
13:40【全体大会】普元信息CTO焦烈焱在《数字化转型中的大数据治理架构》主题演讲中通过以大数据为驱动实现企业数字化转型的红领、苏州工业团区政务信息共享平台两大案例分享了大数据治理在企业转型中所起的重要作用。他表示,目前企业组织架构也正发生着变化,如CDO办公室成为数字化企业的标准岗位、数字化企业的数据中心向大数据服务转型、大数据平台由功能化平台向服务化平台转型,而大数据治理是大数据平台服务化的关键。 大数据治理可帮助企业提升管理、提供全新的业务创新能力,而这需要智能化自动化的技术平台做支撑。接他分享了大数据治理的十二个技术原则,包括统一管理企业资产、自动获取数据信息、识别与管理业务语义、关联业务语义与技术、从需求开始控制数据质量、在集成点检查数据质量、持续积累检核规则、自动化质量评分、管理核心数据定义、为数据标准添加技术属性、随业务持续更新数据标准、数据管理能力服务化。 [详情]
13:00【全体大会】美国伊利诺伊大学香槟分校(UIUC)计算机系教授翟成祥带来了名为“ 文本大数据分析与挖掘:机遇,挑战,及应用前景”的主题演讲。演讲中,翟教授就以下三个问题发表了自己的观点:(1)如果把人看做拥有主观智能的传感器,就不难理解文本数据具有的广泛而特殊的应用价值。(2)若要解决目前机器对文本数据的理解困难,必须加强优化人机合作。(3)提出文本数据镜(TextScope)的猜想,暨集信息检索和文本分析挖掘于一体,支持交互式分析,并通过人机合作加入人类的决策支持。 [详情]
11:20【全体大会】今天上午最后一位演讲嘉宾来自科大讯飞大数据研究院副院长谭昶,他带来了《讯飞大数据的实践与思考》的主题分享。他从语言谈起,分享科大讯飞在大数据领域的实践,他表示目前科大讯飞依靠海量实时的语言数据,目前他们的大数据技术已经在精准营销、个性化推荐和智慧城市方面得到广泛应用。 对于讯飞大数据能力平台Odeon他做了详细的介绍,他表示平台自2010年上线以来,目前日增数据达到100TB。另外,结合讯飞大数据与人工智能技术构建的讯飞DMP平台。已经完成人生阶段、行业偏好、购物兴趣、媒介兴趣5个大类1700个子标签的用户填充工作。累计覆盖12亿终端设备。 随后,他重点介绍了讯飞大数据技术在金融、游戏、教育、交通的应用实践,通过实际的应用他也分享了科大讯飞在大数据领域的思考,包括服务形态、市场变化、生态体系、技术需求。 [详情]
10:00【全体大会】中国科学院院士陈润生发表了《大数据与精准医疗》主题演讲。陈润生表示,精准医学的核心就是组学大数据与医学的组合。精准医学可以使医疗健康的概念发生本质变化,从诊断治疗转变到健康保障。精准医学刚刚起步,面临几大挑战:首先是基因组中的暗信息,人类目前只能读懂基因密码中3%的序列,其他序列的含义则不得而知。大数据方面的挑战包括:计算量大,数据源噪音高、信噪比低、缺失值高、错误率高;样本量小;有效事件频率低;疾病相关的复杂网络;高度异质化数据的整合;数据共享困难。 [详情]
9:509:50【全体大会】中国移动苏州研发中心大数据部总经理,高级工程师钱岭在主题演讲《大数据研发历程的回顾和思考》中分享了一个大数据实践者所走过的历程,主要包括三方面内容,(1)对大数据理解的变化;(2)大数据实践历程回顾;(3)大数据发展方向思考。一路走来,大家对大数据理解在不断深化。从最开始,把大数据称为大规模并行计算、云计算,到现在开始以数据为中心来审视大数据,我们对大数据有了更全面的认识,用一个公式表示便是:大数据 = 业务 + 数据 + 平台 + 算法。伴随着对大数据理解的不断深入,对大数据的实践也在不断前行,而这个过程,也走了很多弯路,大多是因为开源社区、自主研发两大技术路线及技术驱动、需求驱动两大研发方向的选择偏差导致的。当前主要选择了基于开源,技术驱动的研发方式。 [详情]
9:40【全体大会】启明星辰公司副总裁,CCF大数据专家委员会副秘书长潘柱廷带来了《大数据发展趋势报告》,他表示大数据发展趋势报告作为大数据技术大会的保留议题,每年都会发布一次,今天他带来了大数据领域的10大预测。他表示,今年的预测更多的关注技术,其中有7条是来自技术领域的预测,相比往年今年在技术领域更加关注,主要包括机器学习继续成为智能分析的核心技术、人工智能和脑科学相结合称为新的热点、多学科融合和数据科学兴起、大数据处理多样化模式并存融合,流计算成主要模式等等。体现了专家委寄希望于技术本身上寻求更多的突破。 除了总体的预测,他也带来了众多单项的预测,包括来自大数据应用、数据类型突破、数据资源流转、大数据发展的主要推动者等。 通过对比最近几年的大数据预测,他表示除了互联网公司是大数据推动者之外,另外,政府对于大数据发展的推动已经成为新的主要推动力量,政府在治理理念上的变化,治理方法的变化,带来对大数据真实性的需求,业界对此寄予比较高的期望。 [详情]
9:20【全体大会】东京大学教授、日本国家信息研究所所长喜连川优发表了题为《Power of Big Data - from Commercial Profits to Societal Benefits》(大数据的力量——从商业利益到社会利益)的主题演讲。喜连川优教授表示,自2012年起,大数据受到了广泛关注。在科研领域,数据科学是优先级很高的科学,关系到其他学科的研究。例如,实时的观测数据对于大气及地球科学非常重要。在现场,喜连川优教授向开发者展示了实时与非实时观测数据所产生的影像的不同。进一步地,实时数据与机器学习相结合,便可以进行数据预测,如地震预测、车流量及事故预测等。喜连川优教授结合自身科研经历,向与会者分享了很多联系社会民生的案例。 [详情]
9:20【全体大会】中国计算机学会秘书长杜子德为大会致辞。杜子德表示,数据非常重要,但是目前很多数据我们处理不好,处理数据一方面依赖计算能力,另一方面取决于算法。我们要看数据背后的意义,而不是数据本身。要解决数据背后的问题,就要分析数据的成因是什么。另外,杜子德呼吁政府应该和业界共同探讨如何用数据解决现实问题,而不是把数据搁置,单纯地把数据存储起来没有任何意义。 [详情]
9:15【全体大会】中国科学院院士、北京理工大学副校长、CCF大数据专家委员会主任梅宏在大会致辞中表示,大数据对社会经济的发展、科学技术的研究,对国家治理甚至安全,都将产生重要的影响,推动大数据技术、科学及相关应用的发展已经成为国际社会的一个共识。本会在内容组织上紧密结合国际技术前沿,聚焦各领域数据业务的深度融合,关注热点技术在行业中的最佳实践和最佳应用,已经成为国内大数据从业人员不可错过的重要活动之一。 [详情]
9:10【全体大会】大会开始,国防科技大学研究员,CCF大数据专家委员会委员彭绍亮进行了大会介绍及与会嘉宾介绍。本次大会由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、中科天玑数据科技股份有限公司与CSDN共同协办。中国大数据技术大会从2008年至今已有10年,超过一万多名开发者参与其中。本次大会主办方精心策划了16场+专题技术和行业论坛,100多场技术演讲,累计邀请超过130位技术专家担任演讲嘉宾。 [详情]
9:00BDTC 2016中国大数据技术大会将于12月8日9:00正式开幕,敬请期待!
17:30【大数据云服务论坛】第二天下午的大数据云服务论坛的最后一位演讲嘉宾是来自去哪儿网实时数据平台总监吕晓旭,他的演讲主题是《Qunar实时数据云平台实践》,他首先介绍了Prism实时数据平台提供哪些服务,主要包括:日志实时监控 - ELK、数据总线 - Kafka、数据实时分析 - Spark Streaming/Storm/Flink、数据存储 - Elasticsearch as a Service、OLAP/试验平台 - Zeppelin+Spark/Flink。 随后他介绍了Prism的部署方式,主要是通过申请虚拟机/添加账号,用salt部署,但是这样面临的问题也非常明显,经过研究之后,他们采用docker+marathon+mesos的方案。这样也解决了快速增减容量、新工具快速支持、提高硬件资源利用率、降低数据软件的使用成本。 [详情]
17:10【金融大数据论坛】中科天玑数据科技股份有限公司大数据平台事业部经理张敬亮分享了主题为《金融领域传统“小数据”处理模式的优化》的演讲。张敬亮认为虽然互联网里的大数据覆盖各行各业,但是很多核心数据还是从传统的小数据而来,比如:电商平台,交易数据VS浏览行为数据;视频应用,视频元数据VS视频内容;广告平台,用户静态数据VS点击日志。所以对小数据的处理是非常关键和紧要。传统领域里结构化小数据的处理已经有几十年历史,就是数据库技术。随后,张敬亮结合现实生活中的信用卡实时反欺诈系统(银联数据)案例,分享了中科天玑公司目前在这些领域所做的技术探索以及优化和改进思路。 [详情]
17:00【精准医疗和生物医药大数据论坛】来自中国科学院计算技术研究所的孙亮发表了《精准医学NGS数据分析平台搭建及应用》主题演讲。NGS大数据分析平台包括核心生物信息分析软件和算法及医学知识库和通用可扩展的云计算平台。平台亮点是着重于多组学分析和可视化让报告易懂。全基因组、全外显子组、靶向测序分析模块的两大核心基础分别是:NGS数据计算以及已经应用于临床的各类药物及其他权威数据库。做精准医疗首先需要对患者个体的基因型鉴定的非常准确,但突变的基因不足以作为典型的案例,因此需要进行突变过滤。突变过滤根据各类筛选条件过滤:如突变频率,碱基质量等等,常用的指标有SNP筛选和Indel筛选两种。 [详情]
16:55【大数据云服务论坛】阿里巴巴高级产品专家刘吉哲发表《算法平台架构与应用 On MaxCompute》主题演讲。本次议题主要分三个方面,即阿里云大数据计算服务、算法平台架构以及算法应用。而阿里云大数据计算服务包括三个层面:存,数据大集中,存入MaxCompute;通,统一规范,打通各个业务部门;用,推动数据开放和交换,促发展,养生态。目前,阿里集团99.9%的数据分析与算法都已经跑在大数据计算服务上面。 阿里的算法平台主要服务于两类用户,即算法开发者和算法使用者。Project是最基本的资源 隔离单位,数据格式分为结构化(MaxCompute表、KV表及Map表)和非结构化(OSS上的文件),而数据接口包含分层抽象(方便水平扩展、对接不同环境)、数据有序和接口实现(兼容性)等,采用平台与算法解耦,MPI计算框架与算法分离的架构设计,可实现本地开发、调试,线下、线上的无缝集成等等。并且该算法的应用包括身份证、驾驶证、营业执照、门店、图片标注、图像搜索、图像车辆识别、视频广告植入、语音识别等等。 [详情]
16:30【人工智能论坛】智课教育首席科学家李曙光先生为我们带来《自然语言处理、深度学习等技术在英语教育中的应用》主题演讲。李曙光表示,我们希望通过人工智能技术提高学生的做题效率,将精力放在自己真正薄弱的环节。智课教育的产品包括:智能作文批改、智能口语批改、基于离线手写识别的作文批改、以及自适应学习几个模块。在现场,李曙光先生向我们展示了其基于离线手写识别的作文批改Demo,并同与会者进行热烈探讨。 [详情]
16:25【金融大数据论坛】香港FDT金融数据技术有限公司首席数据科学家柳崎峰在主题为《人工智能和大数据用于交易和投 资优化》的演讲中重点谈到了FDT如何基于新技术刻画交易员的行为金融特性,并对金融交易和长期投资的随机时间序列进行最优化和个性化处理。此外,他还谈到了这些技术应用的产品:用于选拔顶尖交易员的FDTScore、用于财富管理的FDT智能投顾云、用于对冲交易基金优化的资源个性化分配、用于日内交易的智能市场波动预测。 [详情]
16:20【精准医疗和生物医药大数据论坛】WeGene CTO陈钢发表了《以个人基因组服务为基础的亚洲人基因组数据平台》主题演讲。DTC是直接面向消费者的基因检测,做基因检测重要的一步是样品的采集和保存,WeGene则通过产品实现了样本的良好保存。DTC致力做亚洲人的基因组数据平台,目前为止共有9000多份中国人的基因组数据,这些数量明年会不断增加。表型信息与基因信息相互结合才能达成更多的研究。表型信息方面,当下的智能硬件设备会采集大量的用户数据,通过接入对应设备的API即可获得大量用户的表型信息。 [详情]
16:20【人工智能论坛】氪信CreditX首席数据科学家闵薇,发表了《人工智能在金融科技中的实践》的主题演讲。人工智能时代,在金融这样一个数据密集的多金行业,数据的应用还停留在比较原始的阶段。新形势下,传统金融领域面临两个挑战,一个是(有价值)数据太少,一个是新数据(维度)太多。氪信的数据科学家主要致力于把人工智能技术,譬如深度学习、集成模型、复杂网络挖掘应用在金融问题中,解决金融客户在互联网化的过程中的风控挑战。 [详情]
16:00【大数据云服务论坛】腾讯云大数据平台研发负责人陈鹏分享的主题是《腾讯大数据能力输出之路》。他首先介绍了数智方略产品的特点,包括高度集成化,接入、存储、离线/实时计算、机器学习、可视化展现服务;提供可拖拽式的支持分钟级调度的任务调度系统;提供高性能多维分析引擎;提供全局设备、组件、任务纬度的运维系统。 对于DockerOnGaia解决什么问题,他表示主要有资源共享、异构环境共存、动态扩缩容、容灾容错、自动化运维、灰度运营。 最后他详细介绍Gaia的Scalable Fair Scheduler、服务注册与发现、资源控制接口、EMC、网络带宽管控、网络入带宽、Disk IO、CPU管控、容器中资源显示等特性。 [详情]
16:00【精准医疗和生物医药大数据论坛】北京大学前沿交叉学科研究院特聘研究员裴剑锋发表了《深度学习及其在化学信息学中的应用》主题演讲。深度神经网络有自动信息提取的特点。同时其对于不同但是相近的数据可以共享一个网络结构。可以使用递归神经网络和卷积神经网络来做编码。同时裴剑锋还举了一个深度神经网络具体应用的例子:药物会导致肝肾损伤,但通过深度神经编码的方式,每个原子有多条路径 把路径用神经网络编码,自己构建数据集,用其预测可能会导致的不良反应。 [详情]
15:50【金融大数据论坛】 来自于广东省粤科众筹股权交易股份有限公司的熊昊博士分享了主题为《大数据时代的智能股权投资》的精彩演讲。他首先阐述了互联网股权投资2.0阶段的特征:积极应用人工智能、大数据技术,应用金融科技手段重塑金融核心业务过程。这个阶段面临的难点是对业务知识的理解、数据来源、技术的选择与应用。熊昊着重讲到了大数据知识图谱在智能股权投资领域的应用,作为从多种数据源抽取并构建的一种用于实现语义搜索的知识库,基于中文语义的实体、概念、关系、情感数据的抽取,包含了大图划分算法、子图融合算法、碎片化知识整合。通过知识图谱可以把数据用活,具体体现为三个方面,一个是持续不断的有消息的输入;第二是可以沿知识图谱定义的作用链进行自动推理,就是尽调的过程;第三是知识图谱可以背靠大数据,实现人工+自动模式下的自我生长。 [详情]
15:30【精准医疗和生物医药大数据论坛】中国科学院遗传与发育生物学研究所研究员、中心主任王秀杰发表了《多样的RNA层面调控干细胞多能性》主题演讲。日本科学家用外源表达转录因子的方法实现表皮细胞变为胚胎干细胞,这是干细胞领域的突破性进展。但诱导获得的胚胎干细胞的过程存在难度。后来发现micro RNA的表达与细胞功能性水平正相关,micro RNA是干细胞水平的标记物。同时王秀杰还详细解释了不同类型的细胞中m6 A修饰的表达。 [详情]
15:20【大数据云服务论坛】中国联通信息化部数据中心项目经理李大中发表《联通集中化大数据能力开放平台实践》主题演讲。李大中首先分享了联通大数据集中平台,其范围囊括全国31省+总部集中系统,B/M/O域全量数据;频率为上千个接口,依据数据时效性,实时、日、月多种采集频度;规模是5000+节点Hadoop集群,55PB数据存储;而采集量为每天100TB数据。集中了用户从生活到工作、从通信到互联网的数据,覆盖24小时的位置、行为信息,信息的实时性和原始性保证了高价值性。 中国联通能力开放平台依托总部大数据生产平台资源优势、数据优势,本着数据不出门的安全原则,通过租户承载的方式满足分子公司、外部合作伙伴的大数据建设和运营需要。开放平台基于保障租户资源独立、空间独立、数据加工过程私密的原则,通过多种手段确保不同租户之间资源隔离、互不干扰,为租户提供安全可靠的环境。屏蔽集群,租户对集群的访问通过客户端的模式,对租户提供独立的访问入口;租户可以通过客户端统一访问基于Yarn分配的框架和独立部署框架,客户端是由独立的一台虚机承载。 [详情]
15:20【人工智能论坛】今日头条首席算法架构师曹欢欢为我们带来了《今日头条的人工智能技术实践》主题演讲。首先,曹欢欢向与会者介绍了媒体形式的历史变迁,进而引出从人工到智能算法的媒体革命。曹欢欢介绍到:“目前,人工智能已经可以在财经报道,体育赛事报道等领域自动创作内容,可读性完全可以媲美人工编辑;智能算法还可以自动给出封面建议,以减少视频上传者的选择成本;智能算法也可以从体育比赛,MV等长视频中自动抽取精彩片段,甚至生成gif,可以节省用户时间和流量。”接着,曹欢欢向与会者详细阐述了资讯推荐算法的两个维度:环境维度和用户维度,以及几个典型的推荐特征。深入浅出地介绍了推荐算法的原理与案例。 [详情]
15:10【金融大数据论坛】东吴在线(苏州)金融科技服务有限公司首席运营官陈晨在演讲中重点谈到了大数据在智能投顾方向的应用。作为一种新兴的在线财富管理服务,它根据个人投资者提供的风险承受水平、收益目标以及风险偏好等要求,运用一系列智能算法及投资组合优化等理论模型,为用户提供最终的投资参考,为市场的动态对资产配置再平衡提供建议。智能投顾具有三大优势:低成本、高效率、多资产,目前在国内仍处于起步探索阶段。从技术层面而言,未来目标是利用量化投资思想结合人工智能算法,通过一系列的回测和训练,形成真正意义上的人工智能投顾。 [详情]
15:00【精准医疗和生物医药大数据论坛】军事医学科学院研究员舒文杰发表了《精准医学大数据管理和共享技术平台》主题演讲。精准医学研究和应用需要汇聚海量临床信息和多组学数据。生物医学数据快速增长,快速跨过了GB、TB、PB、EB 9个数量级。海量精准医学的数据汇交、管理、共享和挖掘需要大数据平台的支撑。在这些情况下,精准医学大数据中心建设需求非常迫切。中国精准医学大数据中心包括以下五大项目平台:精准医学大数据中心基础平台,重大疾病精准医学数据库群,精准医学基础支撑数据库群,精准医学数据的整合与注释,精准医学大数据中心门户、搜索与可视化系统。 [详情]
15:00【人工智能论坛】京东集团研究总监殷大伟发表了《网页搜索引擎中的排序相关度》的报告。殷大伟博士曾任雅虎研究院高级研究经理,并负责雅虎搜索的核心搜索相关性技术,搜索引擎在我们日常生活中发挥至关重要的作用,相关性问题是商业搜索引擎的核心问题。在现代商业搜索引擎中,相关性问题已经远超越文本匹配,涉及巨大挑战。Query和URL之间的语义差距是改善搜索相关性的主要障碍。用户点击行为可作为重要信息帮助提高搜索相关性,但不幸的是对于大多数长尾Query,都存在点击信息太稀疏、嘈杂或完全丢失的问题。在本次报告中,殷大伟讲解了商业搜索引擎中相关性的解决方案,介绍了几种关键的机器学习技术:核心排序函数、点击相似度特征、深度语义匹配和关键词重写。总结了商业搜索引擎中的最新进展以及一系列实用相关性的解决方案。 [详情]
14:40【大数据云服务论坛】亚信数据DataFoundry平台负责人叶鹏带来的分享主题为《大数据服务在云原生应用中的使用探索》,他回顾了大数据应用开发过程中的困难点,然后介绍了如何通过原生应用或者PaaS平台解决这些问题,第三方面基于ServiceBroker的大数据实践方式,第四回顾了整个平台的效果。 对于什么是云原生应用,他认为主要是使应用具有较强适应性、敏捷性、弹性,并且可协作的一组持续改进的方法论和工具集。他强调,大数据的应用不仅限于报表和展示,个性化推荐、智能引导、嵌入式应用才是其大价值体现。 [详情]
14:40【金融大数据论坛】宜信大数据创新中心技术总监郑赟分享了主题为《大数据驱动的在线快速信贷业务实践》精彩演讲。郑赟在演讲中先解释了大数据风控引擎,通过爬虫从互联网获取个人和企业的公开数据,并用知识图谱的方式将其结构化,结合其他数据源,自动分析进件的风险点,并通过搜索引擎技术提供企业和个人的风险数据查询,为人工或者机器决策提供信息。在郑赟看来,在在线快速信贷业务中客户信用评估模型是个难点,因为样本少(相对于广告、推荐系统)、表现特征多,且上述两个层面的模型容易造成拟合。他给出的建议是在特征工程方面要基于原始特征和领域知识总结出新特征,在模型上考虑决策树(早期样本量少、可解释性好)及随机森林(区分度强)。 [详情]
14:10【大数据云服务论坛】小米云平台存储组/融合云组研发工程师崔建伟发表《小米融合云实战》主题演讲。崔建伟表示,小米做融合云的动机主要基于三点,其一,业务快速发展,如管理成本、隔离需求、功能扩展等;其二,生态链需求,如公网访问;其三,融合公有云。而融合云的设计需要满足以下几点需求:首选是服务化,如统一身份认证、权限管理、控制与告警集成和Web console;其次是基于开源的方式;最后是系统扩展、功能扩展、多用户、公网调用支持以及核心功能抽象等。 而小米融合云的存储需求为结构化存储(分布式数据库),支持记录级别的随机读写;对象存储,提供KB到TB级别文件的读写;计算需求是EMR能够部署不同的计算框架(MR/Spark);OLAP是数据仓库,列存储,支持Adhoc query的快速响应。崔建伟通过具体业务来说明如何使用,比如音乐推荐,索引/推荐信息可以放SDS,图片/音频可以放FDS,一些统计信息可以通过EMR来计算,报表信息可以存到OLAP然后query。 [详情]
14:00【精准医疗和生物医药大数据论坛】上海市新药设计重点实验室主任李洪林发表了主题为《大数据驱动的精准药物设计》主题演讲。现在网络药理学研究的主要思路就是二位组学网络与三位系统生物学的组合。网络药理学的主要计算方法有三种:基于配体,基于结构以及基于统计数据或拓普网络。关于网络药理学,李洪林为大家带来了几点启示:天然产物化学空间的有用信息挖掘;药物创新重在新化学实体的创新与设计;计算与实验手段的结合提高研发效率以及对现有大数据分析可进行精确药物设计。 [详情]
14:00【人工智能论坛】微软亚洲互联网工程院资深总监曹文韬为我们带来了《微软人工智能黑科技-微软小冰》主题演讲。曹文韬表示,小冰之所以受到人们喜爱,是因为她清晰的产品定位——一个18岁的少女。这个机灵的少女背后有坚实的技术基础作为支持,其中包括视觉能力(不止于图片识别,例如小冰在看到一张崴了的脚踝的图片后,会询问伤得是否严重,而不只是给出回应“这是脚”)、富有情感的语音、语音模糊识别、全时感官、以及技能卡系统(类似超能陆战队中的大白,插入不同的技能卡,会赋予小冰不同的能力)。在现场,曹文韬向大家展示了业内各家语音助手的声音对比,用鲜活的故事向与会者讲述了“微软小冰养成记”。 [详情]
14:00【金融大数据论坛】恒生研究院大数据专家李伟在演讲中首先介绍了三代智能客服技术的更迭,从第一代基于关键字匹配和数据库查询、第二代基于信息检索和浅层NLP,发展到如今第三代基于知识工程和深度NLP。而对于数据智能在金融科技领域的应用,李伟认为主要体现在以下几个方面:消减人力成本,更准确识别欺诈行为;保证结果的一致性和稳定性,符合审计和合规要求;引入外部非财务数据,提高容噪能力,扩展风控功能;通过传统建模不具备的自学习能力,不断学习以更灵活的适应动态风险预警等。最后,在谈到如今火热的“智能顾投”时,李伟认为仍面临一些关键问题,例如法律风险、投机心理蔓延、投资标的不足、技术缺失、市场不完善等。 [详情]
13:30【人工智能论坛】华为诺亚方舟实验室(香港)研究员、项目经理耿彦辉发表了《华为网络大脑:基于机器学习的下一代网络智慧》的主题演讲。通信网络中的网元数量、数据流量、业务类型,随着5G、物联网、SDN、AR/VR等技术的在飞速增长,网络复杂度远超出人工可以通过规则进行控制的范围,利用机器学习的强大自动建模能力来解决网络控制与管理智能化问题是很多机构的研究重点。耿彦辉介绍说,华为Network Mind的技术核心是在线深度强化学习以及大数据实时分析挖掘,充分利用深度学习的强大抽象表达能力以及强化学习的自我适配、自我进化能力,让网络具有基于数据自我学习、自我更新的特性,进而实现网络控制管理的自动化和智能化。网络是复杂动态的过程,需要强化学习方式满足网络的需求。用户体验反馈提供给强化学习,从而训练模型。 [详情]
13:20【大数据云服务论坛】第一位分享的嘉宾来自华为中央软件院 大数据系统架构师孙桂林,他以大数据多租户的核心挑战开始了今天主题为《华为大数据多租户技术探索与实践》的分享。他重点介绍了提权攻击应对思路和DoS攻击应对思路及手段。 主要的思路为缩小攻击面,延长攻击线,具体到提权攻击,他表示可以通过Partition来降低提权的影响,能隔离的通过Sandbox防护,Subtraction只开放高层和安全的接口,通过Guard来异常行为探测与处理。 DoS攻击方面通过RPC Fair Share来防止RPC的DDoS,通过Language Sandbox禁止敏感API的调用,通过Federation来租户不共享瓶颈节点,通过Container/VM来租户不共享集群等。 [详情]
13:20【精准医疗和生物医药大数据论坛】清华大学数据科学研究院医疗健康大数据研究中心副主任江瑞发表了《健康医疗大数据的智能信息处理》主题演讲。医疗健康大数据包括临床表型,生命组学,影像组学和医院管理。但数据之间数量大,异质性强,关系复杂,这些数据需要进行智能信息处理,最终用于医疗政策咨询,保险政策制定等等。因此医疗健康大数据应用核心就是智能信息处理。 非结构化的临床表型可以通过自然语言处理,通过记录表型特征用于疾病诊断。数据量大,异质性强的生命组学数据首先需要建立数据库,基因组注释再进行使用,目前dbWGFP系统内里面记录了全基因组可能的变异,大约有90亿个。面对数据量大,种类繁多的医学影像也可以通过记录分析最终用于疾病诊断。 [详情]
13:20【金融大数据论坛】在平安科技大数据产品总监王健宗的主持下,金融大数据论坛下午场正式开始。王健宗简单介绍了几位将要在下午演讲的嘉宾,议题包含当下金融领域的诸多技术热点,包括智能投顾、金融科技与股权投资、大数据驱动的在线快速信贷业务实践等话题。 [详情]
13:20【大数据云服务论坛】亚信数据大数据云平台部总经理何鸿凌主持了下午的“大数据云服务论坛”,他首先介绍了自己和今天将要分享的嘉宾,以及组织这个论坛的初衷,希望通过几位讲师的分享共同探讨大家在大数据基础设施方面一些经验。 [详情]
12:00【金融大数据论坛】中国分布式总账基础协议联盟(ChinaLedger)技术委员会主任白硕在 《区块链助力大数据交易》主题演讲中表示大数据交易现存的问题,可利用区块链辅以解决。区块链具在强安全特性,即不可复制、不可透支、不可更改、不可撤销、不可抵赖、不可仿冒,这也组成了 区块链金融属性。同时区块链提供了不可逆的时间之矢,具有可编程性。 [详情]
12:00【精准医疗和生物医药大数据论坛】深圳华大基因研究院副院长和生物信息中心主管方林发表了《精准医疗!还缺什么?》主题演讲。理想的精准医学的应用系统是一个包括能快速进行样本的多维度检测的实验室或医院和一个强大的健康专家系统,这里的多维度不仅包括医院的常规检测,还包各种组学,环境和我们的精神状态相关的检测。演讲中方林着重介绍了NIFTY基因检测,NIFTY能够进行基因突变频率分析,乳腺癌基因BRCA2频率分析等等,通过数据量的积累,帮更多的孕妇和小孩进行基因检测,帮助她们预测疾病。 [详情]
11:30【数据库论坛】天津南大通用数据技术股份有限公司高级副总裁兼CTO武新发表《关系型模型与非关系模型的融合:技术实战与展望》主题演讲。本次分享武新分别从四个方面诠释主题,首先,介绍大数据需求与IT技术架构演变;其次,介绍SQL(关系)与Hadoop(非关系)的融合趋势;再次,GBase UP 介绍及应用案例;最后是总结与展望。武新表示,当前企业数据处理仍面临“三座大山”,在过去是业务数据孤岛,如今是MPP数据库解决了结构化业务数据的分析问题,在未来将是大数据的挑战,全数据、多模型、异构、新技术等等。 融合架构的大数据平台产品需求范畴包括传统事务型数据库(SQL)、新型MPP数据库(SQL)以及Hadoop(NoSQL),TPC-DS MPP与Hadoop性能对比:GBase MPP整体快5.8倍;TPC-DS MPP与Hadoop性能对比:GBase MPP多数快10倍以上;TPC-H MPP与Impala性能对比:GBase MPP整体快7.3倍以上。而GBase UP的定义为简化、融合、扩展及开放,其技术架构是SQL and NoSQL融合、扩展和开放,而GBase UP 的定位是企业级大数据融合产品。 武新还表示当前数字商业的场景越来越复杂,数据容量越来越大,数据也越来越分布。数据的集成,分享和组织管理成为重要目标,统一管理是大势所趋;市场表现方面,传统数据库5强依然占据88.7%市场份额。表明传统SQL数据库依然有着很大的用户市场;尽管传统SQL数据库和Hadoop有各自独立的工作场景,它们之间的数据融合和双向数据流通越来越成为趋势。 [详情]
11:20【精准医疗和生物医药大数据论坛】中国科学院上海生命科学研究院系生物学重点实验室执行主任陈洛南发表了《基于动态网络标志物的“未病”检测理论和方法(揭示表达暗物质)》主题演讲。生物过程不是线性和静态,而是非线性和动态,一旦达到临界值,由正常状态会快速变化到疾病状态,临界期的特殊动力学行为不依赖于个体差异的普适性质,因此找到疾病临界信号是非常重要的一件事情。可以使用DNB理论对各种临界现象预测,临界信号不是来自统计而是来自动态性质,也就是说疾病预测不是诊断的延长,需要全新的系统生物学方法。 [详情]
11:20【大数据政策法规和标准化论坛】中国信息通信研究院互联网法律研究中心主任李海英,为我们带来了《大数据发展的产业困惑与法律应对》的主题演讲。长期从事互联网法律法规、电信服务和电子商务国际贸易规则研究,重点领域为大数据、网络与信息安全的她,认为社会大数据的关注点不仅应是数据产业本身,还应该关注整个数字经济的发展。数据已经成为未来数字经济发展的生产资料和生产工具,李海英梳理了大数据产业发展中产业和企业遇到的问题和困惑,分析了《网络安全法》等最新立法对大数据产业发展的影响,以及对应对这些问题提出思考和建议。 [详情]
11:10【金融大数据论坛】微众银行大数据中心负责人姚军在《智能投顾——当量化金融邂逅机器学习》在主题演讲中表示智能投顾当前炙手可热,但在国内智能投顾还处在萌芽阶段、概念阶段,参与者众多但尚未出现明显的市场领先者。竞争参与者大部分仍未实现盈利,处于融资发展阶段。一般采用B2C模式,并有部分经营转向B2B2C,本土化的新的商业和产品模式仍在不断涌现,市场前景看好。互联网+生态向金融服务领域的渗透、基于大数据与机器学习的新兴分析工具的逐渐成熟、个性化定制服务,是引发智能投顾业务模式爆发的重要原因。客户画像、智能信息服务、量化策略、交易策略、互联网体验是支撑智能投顾在中国落地的重要因素。 [详情]
11:00【数据库论坛】京东资深DBA张洋带来的分享聚焦《京东数据库备份系统进化之路》。他的分享主要分为三个部分,备份的重要性、备份的用途、京东备份系统的演进。 他表示,备份有很多用途,不简单是做数据恢复,最主要的用途是测试环境的搭建,还有就是从库扩容。 在介绍完京东备份系统1.0、2.0之后,重点介绍了3.0系统的演进之路和架构,他表示目前的3.0系统挑战主要包括存储未上云、有些老库redolog太小,xtrabackup不能成功、备份策略需要人工添加,大表xtrabackup容易失败等。因此,对于未来,他表示主要关注使用JSS云存储、规范化数据库配置、从库分类自动添加备份策略。 最后他也分享了目前京东备份系统的一些数据,目前拥有备份集群795套、备份36037、备份文件总大小1362T、成功率99.9%。 [详情]
10:40【精准医疗和生物医药大数据论坛】百世伽(杭州)科技有限公司首席数据官魏洪发表了《基于大数据的分导诊人工智能机器人》主题演讲。魏洪以骨质疏松为例介绍了临床诊断辅助决策系统理论基础。骨质疏松诊断有赖于完善的模型库(经验模型和循症模型)以及完善的算法机制,同时还需要和其他类似疾病做鉴别诊断。强大的疾病模型泛化能力包括五步, 首先是症状采集,然后是自然语言处理(经验症状);理化指标处理;疾病建模;设置冠心病相关的机器学习规则。临床诊断辅助决策系统的前期产品为一体化体征采集终端,中期产品是基于大数据的人工智能分导诊机器人,远期产品则是临床诊断辅助决策系统。 [详情]
10:35【大数据政策法规和标准化论坛】北京航空航天大学法学院副教授裴炜带来了《大数据证据与刑事正当程序的调和》主题演讲。目前北航法学院的研究重点在于,如何将新兴技术同法学结合起来。裴炜教授表示数据存储需要标准,将数据取出同样需要分析、标准和相应的法规教程。在法律视野下,大数据有两个维度:权利维度、功能维度。在功能维度,大数据在犯罪治理阶段有比较重要的意义,具体可以优化司法程序中的以下几方面:犯罪数据集成与共享、有结果向风险转变、犯罪控制前移、犯罪控制精准化、犯罪矫正个人化、提升司法运行效率。在权利维度,裴炜教授提到,利用大数据侦查存在以下挑战:体量大(相关数据 v.s. 无关数据)、复杂性(有效数据 v.s. 无效数据)、碎片化(敏感信息 v.s. 普通信息 v.s. 隐私信息)、即时性(一般存储 v.s. 个案调取)、多源性(第三方 v.s. 数据主体)、立法(利用 v.s. 保护)。最后,裴炜教授向与会者具体阐述了大数据侦查与正当程序的冲突以及程序法对于大数据侦查的回应。 [详情]
10:30【金融大数据论坛】平安大数据首席总监肖京在主题演讲《智能+金融大数据》中首先分享了人工智能的历史及现存的不足。基于对人工智能的理解,平安正在策划推出智能+金融大数据打造平安脑智能引擎,并分享该产品整体思路,基于金融大数据,推出平安脑,包含的功能有风险管控、欺诈识别、精准营销、健康管理、运营优化、智能金融。 他表示传统评级方法存在诸多不足,如缺乏统一方法覆盖所有企业类型;缺乏时间连续性,无法适应各种周期;评级依赖财务数据,存在时滞,评级频率低。针对这些不足,及大数据应用面临的数据量化与整合两大难点问题,平安推出了一系列大数据企业风险管理方案,如数据量化解决方案、数据整合解决方案、大数据企业风险管理平台。 [详情]
10:25【数据库论坛】中国移动苏州研发软件工程师闫超众发表《中国移动基于PostgreSQL系列开源数据库的实践》主题演讲。闫超众表示针对市场需求,目前PostgreSQL系列产品有三种类型:第一种产品是基于pg单机的主备集群数据库,tp类产品,这类产品主要是使用流复制原理,定位于满足中小企业的市场需求,主要应用于中小型数据库的实时在线处理。第二种产品是基于pg-x2的分布式交易型数据库,tp类产品,这类产品主要是使用shared noting架构,通过x86机器来降低成本,主要应用于中大型数据的实时在线交易处理。第三种产品是基于gpdb的 分布式分析型数据库,AP类产品,这类产品也是使用shared noting架构,通过x86机器来降低成本,它和第二种产品的架构不一样,适用的场景也不一样,它主要应用于对海量数据 进行统计分析的场景。 分布式交易型数据库到底是什么样的呢?闫超众表示它是基于pgx2研发的一款数据库,所以它既有关系数据库的特性,又具备可扩展、高可用的特性,主要应用于海量数据的实时在线交易处理,目标是为CRM、客服等核心TP系统提供数据库服务。苏研基于gpdb研发的一款分布式分析型关系数据库,主要用来处理大规模的数据分析任务,包括数据仓库(DW)、商务智能(BI/OLAP)和数据挖掘(DM)等。支持ANSI SQL 2008标准和SQL OLAP 2003 扩展,目标是提供大数据的存储引擎、计算引擎和分析引擎。 [详情]
10:20【大数据政策法规和标准化论坛】中国电子技术标准化研究院信息技术研究中心主任代红,分享了《推动标准验证、促进标准应用——大数据标准化助力产业发展》的主题报告。代红详细介绍大数据标准工作组在标准验证、推广所做的一系列工作。她表示,“标准是一种语言,联通产业各界。除了制定标准外,还需要制定出合乎产业发展、企业应用需求的标准。”大数据标准工作组结合庞大的成员单位资源,在工信部等主管部门指导下,进行各地调研,摸清大数据标准化需求。对于重点标准实行全国试点验证,保证标准的科学性、合理性、客观性。对于下一步工作规划,标准工作组继续开展标准调研工作,帮助地方主管部门遴选优秀企业进行标准验证,培育地方标准化能力,并继续利用大数据标准化治理产业发展。 [详情]
10:00【精准医疗和生物医药大数据论坛】清华大学信息技术研究院副院长邢春晓发表了《大数据驱动的全流程智慧健康管理决策研究和应用》主题演讲。大数据在健康医疗方面的应用场景包括:临床操作,付款/定价,研发,新的商业模式以及公众健康。我国智慧健康管理决策所需医疗资源“数据孤岛” 现象十分突出,院前,院中,院后数据量都非常少,因此无法形成全流程的数据,造成“看病难、看病贵”。面向全流程智慧健康管理决策迫切需要解决多源异构大数据融合的问题,研究全流程智慧健康管理决策所需的大数据融合方法及原型系统将全面提升我国在智慧健康管理决策水平。 [详情]
9:40【金融大数据论坛】蚂蚁金服生物及智能安全部总监,资深数据专家陈继东在主题演讲《基于大数据和生物识别的金融身份验证创新实践》中表示金融场景下使用人脸识别技术具有极高的要求,首先要保证极低误识率下高安全性、高可靠性。如何证明你是你,即人脸活体检测技术是人脸识别的技术核心,也是难点所在,是阻碍其没被大范围使用的主要因素。 他现场展示了人脸识别实人实证核实系统的架构,一般包含三大部分,即客户端采集系统、云端特征比对系统、生物特征库。蚂蚁金服推出的生物识别身份验证采用人脸多因子身份认证,具有很好的用户体验、较高的安全性,可应用于千万级用户金融场景。可很好地应对真实场景下人脸识别面临的攻击手段层出不穷、识别情况复杂多变两大挑战难题。 [详情]
9:40【数据库论坛】SequoiaDB巨杉数据库 联合创始人&CTO王涛带来了《NewSQL技术解析与企业级应用案例》,他首先介绍了SequoiaDB巨杉数据库。成立于2011年,专注于新一代企业大数据平台研发, 其核心产品SequoiaDB(巨杉数据库)是国内第一款新一代分布式数据库。 他重点介绍了大数据数据湖的概念,他介绍说,传统的数据集市,为了优化数据分析的性能, 只会存储一部分的属性并且只操作已经聚合的数据。 而“数据湖”则是将全量数据的 所有属性都进行存储,尤其是当你并不确定从什么角度去分析和使用这些数据时,数据湖是大数据架构的巨大飞跃。 在介绍完大数据时代数据库的技术特点之后,他重点介绍了NewSQL的应用案例,主要有以下几大场景,第一是近线数据平台、第二是内容管理营销平台、第三是跨业务的数据整合、第四是物联网智能制造等。 [详情]
9:35【大数据政策法规和标准化论坛】中国人民大学信息学院学术委员会主任、教授,杜小勇为我们带来了《国家大数据标准化工作进展》主题演讲。杜小勇教授表示,政策法规和标准化政策对于产业的发展有非常重要的意义。标准化工作中,形成共同的话语体系很重要,不在同一体系中,只能鸡同鸭讲,因此我们需要建立一套针对数据的标准化体系。若标准化工作推进不到位,会导致很多问题,一个很实际的问题就是,如果一个企业的供应商倒闭了,由于没有标准化,每一个供应商的标准不同,那么这个企业的投资就得不到保证。接着,杜小勇教授从以下三个方面向与会嘉宾进行了分享:1. 大数据标准工作的背景情况。2. 过去一年标准化工作组取得的阶段性成果和进展。3. 对工作组未来工作的介绍。 [详情]
9:20【精准医疗和生物医药大数据论坛】上海交通大学生命学院,微生物代谢国家重点实验室中心主任魏冬青发表了《代谢酶的基因多态性和个性化药物设计》主题演讲。魏冬青首先介绍了精准医疗的国内外发展现状,他表示,精准医疗让医学健康的概念从诊断治疗到健康保障精准预防。在个性化药物设计方面,一般都是:找到基因—翻译成蛋白—研究蛋白—设计药物的流程,而药物设计的核心就是一一对应。经过不断的实验,目前已经寻找一种能够针对皮肤衰老的元素GX50,这种物质未来将有广泛的应用。 [详情]
9:20【大数据政策法规和标准化论坛】谭辉分享了《面向大数据的保密管理策略研究》的主题演讲。2015年国务院印发了《促进大数据发展行动纲要》,大力推动政府信息系统和公共数据互联开放共享,加快政府信息平台整合,消除信息孤岛,推进数据资源向社会开放,健全大数据安全保障体系,强化安全支撑。谭辉首先论述政务大数据发展与国家保密管理之间的关系问题,然后分析大数据安全保密所面临的主要威胁与风险,着重从保密法规标准、分级保护管理体系、监管技术与策略等方面分享相关研究与思考。谭辉表示,促进政务大数据开放共享和利用的最大挑战也许不是技术问题,而是与之相关的安全保密政策、法规和管理问题,形势发展要求我们必须正面迎接政务大数据挑战。 [详情]
9:15【金融大数据论坛】成都数联铭品科技有限公司首席风险官袁先智在《大数据框架下的小微企业信用评级: 理论与实践的结合》主题演讲中主要介绍了大数据框架下的金融风险评估系统及企业全自画像在信用风险评级和对应的业务支持应用。他表示大数据框架下企业全息画像系统开发包含三大特征,即关联方关系的全面展示、企业行为基因(DNA)图谱描述、企业行为KPI指标展示。 针对小微企业的信用评估难题,他分享了新一代小微企业信用评估解决方案,它包括三大部分:企业行力大数据、企业评级专家、新一代信用评级模型。该方案基于关联方的全息画像,通过识别、分析企业紧密的关联方、关联图谱节点,以及实际控制人(家族 、系),量化评 量化评 量化评 估潜在风险传导效应。 [详情]
9:05【数据库论坛】蚂蚁金服基础数据部资深专家蒋志勇发表《12万笔每秒支付能力的背后—OceanBase的发展之路》。本次议题主要分为三个方面,其一,OceanBase的第二个“双十一”;其二,OceanBase的发展历程;其三,OceanBase 1.0:面向未来的云数据库。蒋志勇认为,OceanBase适合“双十一”主要基于三个特性:易扩展,水平扩展,自动负载均衡、通用服务器,通用存储;高性能,内存数据库性能、轮转合并,合并不影响服务能力;高可用,IDC级别自动容灾、故障恢复时间秒级。从2014年起,蚂蚁核心系统正式迁移到OceanBase上,全面支持蚂蚁核心业务,即交易、支付、账务。OceanBase采用分布式架构,具备高可用、高效的存储引擎、高性能、低成本、多租户、兼容性高等特点,而OceanBase下一步的将在四个方面,即更高的兼容性、更高的可用性、更高的性能及高度自管理等,未来还会拓展周边产品,降低TCO以及服务更广大的用户。 [详情]
9:05【金融大数据论坛】,在东莞证券信息部负责人徐楠主持下正式开始。他表示,金融大数据,已成大家热议的话题。大数据可以在金融领域做哪些事情呢?可以作为一种工具,它可以提高资金融通服效率及解决现存的一些问题,同时还有可能改变金融现有形态。 [详情]
9:00【精准医疗和生物医药大数据论坛】精准医疗和生物医药大数据论坛在国防科技大学研究员彭绍亮的主持下正式开场,在简要致辞之后,彭绍亮对在场的演讲嘉宾进行了介绍,并热烈欢迎观众们的到来。 [详情]
9:00【数据库论坛】大数据大会,第二天上午精彩继续,备受关注的数据库论坛在主持下华东师范大学数据科学与工程研究院院长周傲英的主持下开始,他对大家的到来表示感谢,同时介绍了今天的演讲嘉宾,包括来自蚂蚁金服基础数据部资深专家蒋志勇、SequoiaDB巨杉数据库 联合创始人&CTO王涛、中国移动苏州研发软件工程师闫超众、京东资深DBA张洋、天津南大通用数据技术股份有限公司高级副总裁兼CTO武新,他希望大家今天都能有所收获。 [详情]
9:00BDTC 2016中国大数据技术大会第二天,将迎来大数据政策法规和标准化论坛、大数据政策法规和标准化论坛、金融大数据论坛、精准医疗和生物医药大数据论坛、人工智能论坛、大数据云服务论坛和曙光方舟大数据融合分析平台媒体发布会。
17:30【大数据分析与生态系统论坛】Apache HAWQ创始人,乐我科技CEO常雷在演讲中首先介绍了传统企业数据平台面临的问题与挑战:1.意识到数据的重要性,但是还在艰难的摸索充分利用数据的方法;2.实现分析型应用的周期过长:1年或者更久;3.传统解决方案非常昂贵,性能及可扩展性不能满足需求,发布周期很长;4.开始尝试一些新技术,安装了Hadoop系统,但是管理和开发应用很复杂;5.服务响应很慢,往往几个月才能解决一个碰到的Bug;6.与新平台新技术的结合(Docker/PaaS云平台)。 随后,常雷回顾了数据平台的演进路线的三个阶段:最早的“传统BI分析”时代,往往采用小型机或一体机的专有硬件平台,面向传统BI分析,系统缺乏弹性,资源固定,不易调整,很难支持突发的应用需求或密集复杂的计算需求,成本居高不下;到了“大数据&BI分析分析”阶段,大量采用工业标准的X86服务器;面向大数据和传统BI分析可以支持密集、复杂的计算需求,但需要一定时间,开始有效控制成本;到了(云平台大数据& BI分析)阶段,基于以Kubenates为代表的PaaS云平台;根据工作负载弹性伸缩,灵活配置,按需分配资源,可以快速支持突发的应用需求或密集、复杂的计算需求,如:沙盘演练、机器学习、大视频处理等,总拥有成本最低。 最后,常雷介绍了HAWQ-DB,可兼容ANSI-SQL标准的高性能原生Hadoop MPP++分析型数据库。原生支持PaaS云平台,提供对Hadoop上PB级数据的高性能交互式查询能力,提供对主要BI工具的描述性分析支持,支持预测型分析的机器学习库。 [详情]
17:20【推荐系统论坛】阿里巴巴算法专家郑重带来了《阿里云推荐引擎》主题分享。郑重先生表示,一般说到大数据,我们会说到三个字:存、通、用。在现场,郑重先生首先介绍了推荐的历史、搜索引擎、在线广告系统、以及推荐系统。针对概念抽象的过程,郑重先生介绍了数据抽象和规范:对用户、物品、行为进行抽象,遵循格式规范以及埋点规范。并从业务、场景、算法流程三个方面对产品概念的抽象进行解读。最后,郑重先生向与会者介绍了阿里云推荐引擎的架构,并就一些常见问题提出行业解决方案。 [详情]
17:10【大数据分析与生态系统论坛】云账户联合创始人兼CTO邹永强分享了主题为《金融SaaS实战:云账户钱包SDK的技术挑战与解决》演讲。据邹永强介绍,云账户钱包SDK提供红包SDK和结算SaaS,解决五大挑战:1.为保障金融产品的可靠性与一致性,通过状态定义和事务处理;2.为提升并发性能,采用了请求分区、轻重分离、削峰填谷的架构设计,以及Golang实现;3.安全层面,提供网络安全、金融安全、业务安全,并形成红包和结算的独特风控机制;4.对数据处理和运营,借助日志收集系统,完成统计、流水和对账,提供日志搜索;5.对SDK产品解决集成、升级、机型兼容、调试等挑战,并集成至五大IM SDK以简化集成。 [详情]
16:5016:50【推荐系统论坛】百度高级研发工程师秦铎浩致力于百度内部机器学习平台大规模机器学习算法的研发,其分享了《百度大规模推荐系统实践》的演讲。秦铎浩首先介绍了百度机器学习开放平台历程,百度内部有非常多的系统都在使用BML的推荐算法,为业务效果带来了非常大的提升。在推荐系统的构建过程中,针对海量数据的推荐系统的训练是非常困难的。秦铎浩介绍了常用的推荐算法使用以及背景, 涉及的核心技术难点与解决方法,以及下一代推荐系统的未来发展趋势。 [详情]
16:40【高性能计算与大数据的融合论坛】国家超级计算天津中心主任助理、应用研发部部长孟祥飞分享的主题为《应用驱动的超级计算与大数据融合平台建设》。 他首先介绍了天河一号的三大技术创新:CPU+GPU异构融合体系结构、64位多核多线程自主飞腾1000 CPU、自主高速互连通信技术。随后,他分享了“天河一号”系统的使用情况,他表示目前稳定运行服务,到2015年使用率已经超过90%,进入饱和运行状态,并发运行的作业数达到1200余个,服务国家重大重点科研项目超过1000个。支撑完成包括Nature、Science等研究、知识产权成果超过1500项。 对于大数据和超级计算、云计算融合,他表示对于规划,他强调首先需要通过云计算虚拟与集成技术实现大数据的采集与应用服务,其次,通过高性能计算解决计算密集需求,并配合数据挖掘算法实现大数据的分析处理,另外,需要通过层次式动态可扩展存储系统实现海量数据的高效存储。 [详情]
16:40【大数据安全与隐私保护论坛】观数科技总裁、CEO李科发表了《大数据基础组建的安全解决方案》主题演讲。Hadoop 生态圈和Spark 生态圈是两大大数据基础框架生态,但都存在不安全的地方。不过无论是Hadoop还是Spark都可以使用DAF ACL来进行防护,DAF ACL里包含用户、文件、数据、OP,运行自主研发的一套系统。除此之外,李科表示kafka、Strom、Solr、Hive等平台也都存在安全漏洞,但这些平台DAF尚未涉及。目前Big DAF在性能、兼容性、安全性和易用性方面有技术难点。 [详情]
16:30【大数据分析与生态系统论坛】DataTorrent高级工程师,Apache Apex PMC 华思远分享了《下一代实时数据处理引擎——Apache Apex项目介绍及应用》演讲。华思远表示,Apache Apex是一个用Java开发的开源流数据处理平台,Apex从一开始就关注海量处理能力、高吞吐、低延时、高可用性,它的设计和架构也使其可以同时适用于实时数据处理和批处理。如今已经被部署在很多大公司的关键数据处理应用上。此外,华思远介绍了如何用Apex的一些高级的Partition特性来实现高扩展性,如何按需分配资源,如何实现容错,如何保证数据只处理一次等。最后他还展示了Apex在具体生产环境中的一些应用,Apex现在正在开发的特性以及将来的路线图。 [详情]
16:10【高性能计算与大数据的融合论坛】商汤集团研发执行总监林倞发表《深度学习的基础架构:从算法创新到生产力的助推器》主题演讲。本次议题林倞主要针对神经网络深度学习的系统,及需要怎么样的基础架构来快速实现算法放到产品级的研发上去。目前主要从事算法到产品研发的工作,如人脸识别技术,当下大家经常用到的美颜功能就是林倞团队提供的技术,包括新浪微博、小米手机相册等等。人脸属性特征分析,活体检测,一般图像识别,这都是基于移动互联网技术,如大规模搜索等。而今年在做的是视频结构化分析,针对视频内容快速解析,对人车物还是场景进行快速识别,进行结构化理解存储到数据库中,这样使得数据能够快速地检索快速查询以及比对,避免海量数据视频数据尤其是视频数据无法利用的困境。 [详情]
16:10【大数据安全与隐私保护论坛】北京数字观星科技有限公司CTO孙荣华发表了《大数据平台应用实践&安全运营》主题演讲。大数据平台与传统数据库一样存在安全隐患,比如Mysql CVE-2012-2122利用认证漏洞绕过密码登陆,Oracle CVE-2006-2081利用内置函数(DBMS_EXPORT_EXTENSION)进行提权,获取DBA权限,再利用UDF执行系统命令等。这主要是因为大数据技术更新很快,造成安全关注度不够。大数据平台的安全运营需要整合多维数据,企业多维度安全数据包括威胁数据,开放服务数据,漏洞数据,日志数据等等。看清企业资产,多维度全面监控,快速响应用数据说话是企业安全运营中需要注意的几点。 [详情]
16:00【推荐系统论坛】 Admaster架构师刘喆带来了《基于图算法的跨设备受众识别》主题分享。刘喆针对当前一人多机,且没有账号体系的问题,给出了AdMaster的解决方案:每次取15天的访问数据;同一天,同一IP,找出cookie和device,做笛卡尔乘积、形成对(pair);为每一“对”生成特征向量;根据已知数据,对特征向量训练,生成模型;把模型应用到新的“对”,根据可信度,取可信的“对”;用这些“对”生成森林,每棵树指代一个人。 [详情]
16:00【大数据分析与生态系统论坛】中兴飞流信息科技有限公司CTO郑龙分享了主题为《Yita:基于数据流的大数据计算引擎》演讲。他首先谈到了基于数据流的Yita系统和传统控制流大数据系统的差异,在编程模型、处理模式、并行模式上都有大幅差异和更新。据郑龙介绍,Yita大数据处理平台流性能要优于Storm,批处理性能优于Spark,兼容Hadoop生态系统,既可作为加速模块,亦可独立支撑业务。适用的业务场景包括了视频分析、用户关联分析、推荐系统、智能运维根因分析等多个领域。对于即将发布的Yita V1.1版,郑龙透露将包含机器学习算法库等多项功能。 [详情]
15:40【推荐系统论坛】360商业化产品事业部数据架构高级工程师朱广彬,带来了《360聚效广告大数据平台实践》主题演讲。计算广告是一门以计算驱动广告的学科,相对于传统广告而言,计算广告能够做到千人千面,可以针对不同用户的需求向其发送特定的广告,以提升用户转化率。朱广彬介绍360聚效广告大数据处理平台在实践过程中的演进与实践经验,包括在应对数据量从几十亿到近200亿的快速增长过程中数据平台的应对措施,以及如何提高实时性和投放准确性的算法实践。 [详情]
15:30【高性能计算与大数据的融合论坛】数学工程与先进计算国家重点实验室研究员斯雪明带来的分享主题是《SKA科学数据处理中方联盟研究进展》。 他首先介绍了SKA的背景, Square Kilometer Array是综合孔径射电望远镜,作为超大型国际科研合作项目,建成后,人类探索宇宙的能力将得到根本性的提高。SDP(Science Data Processor)科学数据处理是SKA的关键环节。他随后重点介绍了SKA的架构和计算类型以及COTS 工作进展做了详细的介绍。 [详情]
15:30【大数据安全与隐私保护论坛】明朝万达首席科学家喻波发表了《构建可信、可管、可控的大数据安全运行环境——大数据视野下的数据安全防护体系探索》主题演讲。大数据面临的挑战包括:数据量大,安全管理成本上升;数据管理类型多,安全防护难度增加;处理速度块,要求安全手段效率要求高。数据全生命周期的安全防护体系要求可信,可管和可控。可信是指用户可控,应用可控和节点可信。可管是指访问行为,数据使用,数据加密,存储行为,数据使用的可管。可控则包括可知(采集大数据环境运行过程的各类信息),可视(直观展示大数据环境的运行状态及安全风险),可控(通过各类型配置与安全手段联动,实现及时的管控)。 [详情]
15:30【大数据分析与生态系统论坛】百度基础架构部分布式计算架构师黄鑫分享了主题为《百度大数据离 线计算平台发展历程》的精彩演讲。他重点介绍了百度统一分布式计算API-Bigflow,不仅采用了分布式可嵌套数据集(NDD)模型,相比于业界同类系统抽象程度更高,而且对接了多种计算引擎,包括批量引擎、迭代引擎、流式引擎,方便用户切换执行引擎。此外,由于完成了许多优化策略,使得Bigflow可以高效运行。目前通过在线上大规模验证,Bigflow的可嵌套数据集模型确实可以起到统一多平台的目标。此外,黄鑫还介绍了百度离线计算引擎DCE,DCE基于分布式计算,支持各种实际业务需求所定制的交互方式,比如各类数据的优化,比老的Shuffle效率高很多。 [详情]
15:00【高性能计算与大数据的融合论坛】PerfXLab澎峰科技联合创始人张先轶发表《ARM嵌入式系统的DNN性能优化》主题演讲。张先轶介绍,目前主要从事三个方面的工作,首先是深度学习,包括服务器+嵌入式终端,框架:PerfNet(基于mxnet)和性能库:PerfDNN;其次是PerfCV,基于CV类功能(cvt_color,resize);最后是对OpenBLAS的介绍。张先轶首先为我们介绍了什么是BLAS,即Basic Linear Algebra Subprograms,基本线性代数子程序,包括BLAS3级:矩阵-矩阵,BLAS2级:矩阵-向量,BLAS1级:向量-向量。OpenBLAS几乎支持所有主流的CPU处理器和常见的操作系统,兼容性很高。BLAS性能优化流派支持自动调优和手工核心汇编。 [详情]
15:00【推荐系统】中国科学技术大学计算机学院副院长陈恩红,分享了《领域知识驱动的个性化推荐方法》。随着大数据向金融、教育等诸多领域的拓展,用户行为与认知、情境等新兴要素相互耦合,传统推荐技术已逐渐难以有效应对。陈恩红从基于认知的教学个性化推荐、情景感知的移动用户推荐、金融领域带风险约束的推荐、结合社交因素的用户推荐,这四个维度介绍了介绍其在领域知识驱动的个性化推荐方法问题上的相关工作和实践。陈恩红总结,面对不同领域独特的应用场景,泛化的模型结果难以满足用户的需求,通过结合各行业独特的领域知识,构建适用于不同领域下的推荐系统。 [详情]
14:50【大数据分析与生态系统论坛】中国移动苏州研发中心高级研发工程师陶捷首先介绍了苏研的研究方向,聚焦大数据的技术研究及产品研发,基于开源Hadoop软件面向公司内外提供DaaS、PaaS和SaaS服务,提供统一的运营管理平台。他的演讲分为三部分:1.Slider on YARN;2.Jenkins in Docker on YARN;3.未来规划和展望。陶捷认为,Slider有几个方面的优势,首选是支持新应用成本低,提供资源管理和隔离,可实现应用的自动恢复,支持同一集群内多应用实例。但仍有不少缺陷,例如客户端单一,仅提供了Shell CLI;服务发现机制不够友好;应用的监控、日志管理功能、应用配置管理薄弱;应用访问本地数据问题等。 关于YARN上运行Docker,陶捷比较了三种不同方案的差异。方案一:DistributedShell,分发Shell脚本到各个节点,Shell脚本启动和维护Docker实例。这种方案逻辑简单,但对Docker的管理弱,缺乏监控、日志等功能。 方案二,DockerContainerExecutor:通过DockerContainerExecutor启动MapReduce任务,MR任务运行在Docker中,并负责与外界交互逻辑。这种方案具有一定Docker管理能力,主要支持MR计算框架。 方案三,Docker on Slider:由Slider负责管理Docker,这种方案适合长时服务,但只能支持已有应用。 [详情]
14:50【大数据安全与隐私保护论坛】北京三未信安科技发展有限公司技术总监鹿淑煜发表了《大数据安全中的云密码技术实践》主题演讲。鹿淑煜表示:密码技术是保护数据安全的核心手段。传统的云密码技术有局限性,而且云中的新场景具有新特点,因此需要使用云密码技术而不能使用传统密码。常见的密钥管理模型有三种:AWS KMS,PKCS#11、EKM和KMIP。 大数据平台的密钥管理拥有以下几个特点:统一的密钥管理策略;系统范围内的密钥联动;密钥的版本维护(更新及恢复);统一进行审计;密钥管理的权责分离;可随时获取的密钥服务。 [详情]
14:20【大数据安全与隐私保护论坛】北京安天信息技术有限责任公司研发副总裁王小丰发表了《安天使用态势感知技术保护大数据安全的实践分享》主题演讲。态势感知的本质是态势觉察,态势理解,态势应用/预测的组合,态势感知的关键技术有三点。第一,要素采集和分析输出的深度。从需求分析的视角,看待检测&提取时的深度需求。第二,风险研判&分析。主要有两种流程:数据—情报—风险—响应或者追踪—追溯—响应。第三,业务化的态势呈现。最后王小丰分享了在全域感知,融合防御,内外部综合态势感知等方面的一些实践。 [详情]
14:10【大数据分析与生态系统论坛】Facebook工程经理金昀分享了主题为《Facebook计算和存储分离的分布式计算平台》演讲。据金昀介绍,Facebook的数据仓库建立在以Hadoop为核心的基础架构上,大量采用开源软件开发的应用系统,离线计算通过HDFS来处理,很多流式计算技术和Kafka非常接近。从业务场景方面看,实时计算要求越来越高,近两年来Facebook花了很大精力去提高和实现流式计算能力。但从目前来看,大部分比例计算还是用于Hive,主要聚焦在Hadoop和HDFS的实现。在谈到计算存储的分离时,金昀重点介绍了Warm Storage存储系统,它是Facebook开发用来替换HDFS的分布式存储系统。 [详情]
14:10【高性能计算与大数据的融合论坛】清华大学教授陈文光带来的分享主题为《Gemini:基于图计算的高性能大数据分析系统》。 他表示spark在数据模型层面的局限性主要是每次细粒度的数据更新,由于spark基于粗粒度RDD只读的数据对象模型,需要RDD变换,即有大量数据的复制,导致处理效率不高。实现层面的局限性主要是Spark基于Scala语言,运行在JVM上;内存表示冗余,占用内存大;内存分配与回收开销大。 而图计算,作为折衷的大数据分析平台,可以解决上述挑战。他重点介绍了分布式图计算系统Gemini。1.在高效性的基础上支持扩展性,避免没有必要的“分布式”副作用,优化图的划分与计算。2.设计理念的变化:以计算性能为中心的分布式系统,分布式系统有快速的通信网络,计算可以与通信重叠;效率优化,自适应push-pull转换,层次化的分块划分;扩展性优化,局部性感知的分块,基于分块的任务窃取。 [详情]
14:00【推荐系统论坛】 武汉飔拓董事长、首席技术官李成华先生带来了《深度学习在自然语言处理中的应用》主题演讲。在现场,李成华先生深入浅出地为大家详细讲解了什么是自然语言、NLP的应用、自然语言处理的层次、语义与语用、内容层的信息处理等知识点。并就“机器人能够理解人的语言吗”这个问题,阐述了理解自然语言的准则、自动分词、分词歧义、词义消歧等内容。接着,李成华先生为大家讲解了深度学习的发展历程以及几种常见模型,并讲解了一个word2vec的实战案例。 [详情]
13:40【大数据安全与隐私保护论坛】360企业安全集团战略研究主任鲍旭华发表了《大数据安全保护》主题演讲。世界各地的信息泄露事件层出不穷,那么为什么会出现数据安全威胁呢?鲍旭华表示这是因为大数据版图的分化,巨大的利益诱惑以及复杂的生态体系。大数据安全体系狭义上可以分为大数据生命周期安全和大数据信息系统安全。广义上又可以分为信息隐私,数据安全,信任机制和系统防护,每一部分都需要相应的保护机制。最后鲍旭华通过数据源可信验证以及大流量数据安全传输密码技术等几个案例讲述了大数据安全防护的方法。 [详情]
13:33【高性能计算与大数据的融合论坛】华中科技大学教授金海发表《大数据时代的新型计算机系统结构》主题演讲。金海以双十一的交易额引入,指明大数据不只是数量大,而且增长速度快、处理时效高、安全性要求高等等。因此,本次分享金海主要分为两个方面做讲解,即内存计算及其国际动态和内存计算方面的实践。金海表示,基于DRAM的内存计算模式面临四方面挑战:DRAM介质易失性,DRAM介质存储密度低,DRAM功耗高和内存子系统成本高。基于DRAM以上问题,非易失存储技术逐渐兴起,并且新型存储介质的性能不断逼近传统DRAM。 新型存储级内存(SCM)为内存计算带来曙光,它具备以下优点:可按字节寻址、持久存储,断电数据不丢失、比NAND Flash读写快1000倍,读延迟接近DRAM,写延迟高1倍、耐久性比NAND Flash高1000倍,但存在写寿命上限、存储密度比NAND flash高1000倍,比DRAM高一个数量级、静态功耗接近“零”。混合内存架构给软硬件生态系统带来巨大冲击,首先是体系结构,其次是操作系统,再次是数据组织,最后则是编程模型。 最后,金海也为我们做了总结,即内存计算是大数据时代解决大数据处理时效性的有效手段。值得重点研究的关键机理包括三个方面:首先,面向大数据处理的异构层次内存的协同组织模式研究;其次,基于内存计算的大数据低能耗处理环境研究;最后,基于内存计算的大数据高效并行处理机制研究。 [详情]
13:30【推荐系统】一点资讯大数据技术总监田超,分享了《一点资讯大规模实时点击反馈平台设计与实践》的主题演讲。实时获取和发现海量用户精准兴趣是一点资讯兴趣引擎的核心能力之一,田超介绍一点资讯兴趣引擎背后的技术,一点资讯大规模实时点击反馈平台——Neo的设计与实践,以及设计过程中面临的问题和挑战。该平台作为基础设施,是支撑包括实时用户画像、实时数据分析、大规模在线学习、实时广告统计等业务的基础平台。田超列举了设计过程中面的五大问题:对近似的pipeline统一、实时计算与离线计算如何统一、数据的变化如何追踪与Debug、线上高性能存储引擎、如何监控与维护,并详细给出了一点资讯的解决方案。 [详情]
13:30【高性能计算与大数据的融合论坛】下午高性能计算与大数据的融合论坛正式开始,来自中国科学院计算技术研究所研究员张云泉主持本场论坛。 [详情]
13:20【大数据安全与隐私保护论坛】大数据安全与隐私保护论坛在炼石网络创始人、CEO白小勇的主持下正式开始。白小勇老师讲述了自己的创业经历以及对大数据安全的思考,并对今天的所有演讲嘉宾进行了介绍并表示欢迎。 [详情]
12:00【工业与制造业大数据】宝信软件大数据事业部副总经理李一名,分享了《工业大数据的落地选择与分析实践》的主题演讲。李一名认为,现在工业大数据的概念被过度泛化,对大多数制造企业而言,除了关注战略方面的考量外,要想达到一点带面的实际应用效果。大数据需要附着于业务、专注于核心和盈利领域、自动化决策未来,才能进入良性循环。李一名通过亲历的工业大数据应用成功和失败的实践案例,提出工业大数据在制造企业落地的实施建议和演进路径。通过定位不同制造企业、不同业务领域当前所处的阶段,也将有利于制造企业制定符合自身特定的工业大数据应用策略。 [详情]
11:50【大数据分析与生态系统论坛】PayPal数据科学家张彭善在《分布式机器学习算法在PayPal风险控制部门的实践》主题演讲分享了PayPal在欺诈领域所做的技术实践,主要包括三大部分:机器学习的应用场景,通过机器学习构建管道并应用到实际交易中及系统优化经验。首先是机器学习模型,它在反欺诈中扮演着越来越重要的角色,已经超过50%的欺诈都是通过模型抓到的。构建这样的模型最关键点是如何构建数据仓库,及如何构建特征工程。构建特征工程时,PayPal基于Sensitivity Analysis开发了特征选择流程。 [详情]
11:50【交通与旅游大数据论坛】携程大数据平台总监张翼发表了《携程Spark算法平台及其应用》主题演讲。张翼首先介绍了携程Spark平台的的四大功能模块,分别为模型训练,模块定制,训练结果导出以及线上服务的开发支持。技术选型方面,选择Docker和Zeppelin的原因是:Mesos提供了方便的资源管理的功能,同时也能提供简便的应用管理的功能,而Zeppelin提供了一个Spark交互执行的引擎。接着张翼进行了技术经验分享,包括Python代码模块的加入,Spark资源的释放以及XGBoost模块加入过程中的一些问题。最后张翼讲述了携程算法平台未来的发展方向。 [详情]
11:40【网络与通讯大数据论坛】华为电信软件大数据产品部首席数据科学家张旭发表《电信时空数据在客户洞察中应用》主题演讲。本次议题分为四个方面:全时空数据助力360°客户洞察,群分析Look-alike关键技术,时空观察关键技术以及最后的demo演示及成功案例的介绍。客户洞察如何支撑数字化运营?张旭表示从末端来看,数字化运营所有以客户为视角的业务需求、场景的商业目标均可划分为两大方向:提升客户体验及提高企业收入。两个方向上应采取不同的洞察思路客户洞察分两个层面:个体洞察:服务细化到每个客户个体(个体粒度);群体洞察:仅关注具体某特定群体(群体粒度)。两个层面的洞察对应不同思路的建模。 Look-alike在电信领域应用广泛,它通过一种有效的方式为”物”找“人”(targeting),在各领域都有广泛应用前景。全时空洞察应用整体视图,是接入用户全时空行为数据,建模和分析全时空行为特征,支撑全时空应用。而关键技术包括高精度定位算法、时空轨迹标签与轨迹预测、基于时空轨迹的用户分群、时空栅格化和时空模式挖掘。时空应用可实现人群轨迹可视化、MR定位系统、位置分群、位置营销、基于受限玻尔兹曼机(RBM)的出国人群预测以及时空行为模式挖掘即国际漫游套餐推广等。 [详情]
11:40【工业与制造业大数据论坛】兮易控股首席产品总监颜强带来了《工业(大)数据的实战应用场景(制造篇)》主题演讲。演讲主要围绕智能、智能制造、与工业数据展开。演讲过程中,颜强先生向与会者分享了自己对“三体智能模型”的理解。在颜强先生参与编写的《三体智能革命》一书中,三体,即物理实体、意识人体、与数字虚体,他们互相咬合交互,组合智能系统。进一步,颜强先生介绍了智能系统的五个特征,以及人造智能从初级智能,到恒定智能,再到开放智能的发展进程。在工业大数据方面,颜强向与会者具体介绍了四个工业大数据的应用场景。 [详情]
11:20【交通与旅游大数据论坛】北京市交通运行监测调度中心副主任、研究员张可发表了《综合交通运行感知体系构建与监测大数据统筹应用》主题演讲。运行监测体系包括三大路网、四大市内交通方式、三大城际交通方式,以及交通枢纽、静态交通等共计19个监测领域。运行监测指标体系的构建需要遵从完备性,有效性以及可用性。将交通流状态参数集和基础设施参数集进行提取和整合,得到交通运行状态特征,再进行抽象和聚合,最终得到交通运行状态特征指标体系。互联网+时代融合众包信息资源的交通大数据应用机制将应用于精准感知出行链,跨领域信息挖掘和知识提取,最后张可针对每种应用进行了实际的案例分析。 [详情]
11:10【网络与通讯大数据论坛】中国信息通信研究院移动互联网与大数据部副主任魏凯的演讲主题为《电信大数据创新与合规性》,他的分享主要从两个方面展开,包括电信大数据资源具有独特价值、电信大数据应用的合规性要点。 对于电信大数据的应用场景,他表示,目前内部大数据应用场景包括客户挽留、客户迁移、精确营销、客户服务提升等,而外部大数据应用场景设计应该考虑现有基础、实现难度、发展前景等因素。 他举例表示,1.交通与人口迁移应用,重点利用位置数据,提供交通拥堵实施监控、人流实施监控等辅助管理服务;2.征信与金融风控应用,综合分析、挖掘电信和金融双方数据,及时把握客户行为并进行信用评估;3.统计数据分析报告应用,在严格执行数据保护的前提下,充分挖掘数据资产价值,以数据报告的方式,向第三方提供源数据供应服务;4.城市规划与商圈分析应用,抓取、分析、挖掘内部及各类互联网监控数据,掌握目标地区及周边用户特征,准确、高效地实现预期利益最大化的商业选址及服务内容决策;5.智慧旅游景区分析应用,通过景区客流信息实时监控分析以及对游客客源的分析统计,加强景区服务和管控,为旅游信息化建设及市场推广提供有效的数据支撑。 [详情]
11:00【大数据分析与生态系统论坛】滴滴出行大数据部BI系统组负责人艾毅在主题演讲《业务实时监控系统架构及实践》中首先分析了滴滴实时监控系统演变历程。目前该系统采用Kafka+Druid+Samza技术架构,优势有可实时分析海量数据(秒级),实现了OLAP系统交互式查询。具有高可用性、易扩展性、高性能、支持有状态的实时计算。 接下来,艾毅分享了该技术选型背后的原因。Kafka是一个高性能、高可用、易扩展的分布式日志系统,可很好地对整个数据处理流程进行解耦,这对实时监控系统架构很关键。Druid是针对时间序列数据提供低延时的数据写入以及快速交互式查询的的分布式OLAP数据库,其数据存储方式有,(1)为OLAP查询优化过的列式存储结构Segment;(2)Segment中存储聚合计算后的统计结果;(3)主要根据时间对Segment文件进行分片存储。此外,还介绍了Druid的数据处理流程。Druid支持近似统计算法、支持地理查询。至于Samza,它是一个分布式的实时计算框架,支持低延时的、有状态的实时计算。接下来,就运行机制、高可用性、数据处理流程、常见计算类型对Samza做了详细介绍。 [详情]
10:25【网络与通讯大数据论坛】亚信数据橘云产品线大数据工程师杨光明子发表《面向电信领域的海量实时数据处理技术与实践》主题演讲。本次议题分为四个方面,首先介绍下电信领域的应用场景,其次是实时处理平台的基本架构,再次是平台的性能,最后是平台的演进。杨光明子表示,电信领域实时数据处理的场景包括每天净增用户16.6万,每秒无线上网流量33G,每天话单数据10T以及每日信令数据100T。而应用的场景也由简单实时营销到实时位置运营变化,再到复杂实时营销和内容业务处理转变。实时处理平台的基本架构包括业务输出、标签附件和数据接入。平台性能主要介绍了平行扩展、平台的速度及HA性能表现。而未来的演进方向主要分为三种:更多元化的场景、更快的速度以及更健壮的架构。 [详情]
10:40【交通与旅游大数据论坛】滴滴出行智能交通云资深总监杨毅发表了《滴滴交通大数据实战》主题演讲。滴滴拥有海量且持续增长的交通大数据,相比传统交通大数据的挑战包括Volume 规模,Velocity 实时和Veracity 精准。滴滴基于交通大数据的应用包括供需预测,智能拼车,实时路况以及交通指数及运行报告。未来滴滴大数据将补充大数据4V中的Variety,进行滴滴自有数据的深度挖掘,同时引入第三方数据优化自身应用,贡献数据,多方融合,最终提供更好的交通出行服务。最后杨毅通过互联网+智能信号灯举例,详解了智能交通云的应用。 [详情]
10:30【大数据分析与生态系统论坛】北京邮电大学副教授熊永平在主题演讲《DI——基于SPARK的交互式数据探索与建模系统》中表示DI大数据探索分析系统主要针对普通的数据分析人员,几乎不需要编程开发分布式程序,可提供直观易用的图形化系统界面。目前还处于不断完美过程中。 它基于Spark,其交互式数据探索框架的核心技术要点有,每个工程运行在一个单独的Spark环境,Spark环境资源由YARN分配调度;DI和Spark常驻内存,通过消息队列交互;利用RDD保存探索过程中的各种中间表。 它提供了数据转换功能、文本分析、数据探索功能。标准Spark并没提供文本分析功能,该功能利用文档预处理、自然语言处理、主题检测等功能分析文本数据,便于数据分析人员处理非结构化文本数据,使用到的典性算子有特征词提取、新词识别、词语语义距离分析Word2Vec。 [详情]
10:20【工业与制造业大数据论坛】兮易控股董事长陈广乾先生为我们带来《大数据如何帮助企业降本增收》主题演讲。陈总早年毕业于北大历史系,后任海尔CIO,后来由于身体原因回到北大,接着出任好孩子CEO,在接近60岁的时候出来创业。陈总既是学者、又是专家、又是企业的CEO、CIO。陈总介绍到,大数据帮助企业降本增收可分为两个方面:1. 用户洞察>精准营销>产品爆款研发>精准客服 ;2. 消费者行为轨迹分析>购物中心场景分析>商业地产转型。 接着,陈总从业务模型与数据模型、反映经营损失的数据断点分析、需求预测模型、商机金额漏斗(掌握机型结构需求,针对获取策略,拉升毛利空间 )等方面,结合自身在好孩子及海尔的四个实际项目,向与会者详细阐述了大数据在企业业务的各个环节的具体应用。陈总表示,简单分析模型只完成了企业大部分的一部分,在实际落地的过程中,还有很多“人”的问题需要考虑。 [详情]
10:00【交通与旅游大数据论坛】易到技术VP尹佐宁发表了《易到大数据的过去、现在和将来》主题演讲。尹佐宁首先介绍了易到大数据的一些发展情况,易到大数据此前人数较少,主要的用途是adhoc的query,而一年之后的如今,大数据方向有了数据仓库组,离线平台组,实时计算组和模型算法组,并扩充了开发人员和机器资源。易到大数据将来的目标是更快地获取、处理数据以及充分挖掘数据的价值。技术方面,易到大数据准备在将来使用Presto引擎,它比Hive在interactive queries上性能有巨大的提升,对SQL更好的支持,同时可以在多个不同类型数据源之间做Join。接着尹佐宁分享了大数据建设中的一些问题解决方式。 [详情]
10:00【大数据分析与生态系统论坛】跬智科技首席技术官李扬在《Apache Kylin的新Streaming OLAP实现》主题演讲中分享了Apache Kylin V1.5、V1.6两个版本对Streaming的诸多尝试。 流数据如何分段,时间蹉的方式行不通 ,V1.5版本中,采用模糊的二分查找,使用时间近似寻找;同时针对小碎片,按一定的时间间隔,自动合并成大的Segment。V1.5最大成就是,通过流式构建,解决了数据延时问题,同时也也存在一些缺陷,如构建不能自动伸缩、近似二分查找会丢失数据、构建任务难以监控、错误恢复困难、整体运维成本高等。 基于V1.5版本的经验与教训,V1.6版本重构了Streaming,将Kafka作为标准的数据源,解决了V1.5版本的伸缩性问题。针对数据遗漏,V1.6版本改为按offset切分,彼此间不能有重合,Segment之间允许有时间值重合,确保了数据一致性和查询准确性。此外,还进行了其他改进,如自动寻找开始和结束的offset;支持嵌套式JSON消息,支持自定义时间格式;允许多Segment并行构建/合并等。 [详情]
10:00【工业与制造业大数据】昆仑数据CEO兼北京工业大数据创新中心主任陆薇,分享了《工业大数据助力中国智造》的主题报告。大数据是新工业革命的重要技术要素。陆薇首先介绍国家制造业创新中心计划及北京工业大数据创新中心的具体使命,分享中心对于工业大数据独特技术挑战的认识和针对性的研发工作。同时,还将分享大数据在新能源、电子制造等行业的典型大数据应用案例,并通过实际案例总结工业企业应用大数据的最佳实践路线。陆薇表示,机器大数据将继消费大数据之后成为数据的下一个主战场。 [详情]
9:40【网络与通讯大数据论坛】浙江移动大数据中心主任汤劲松分享的主题为《运营商大数据价值探索之路》,他表示浙江移动目前用户规模超过6000万,基本覆盖浙江常住人口的80%。在数据积累和处理能力方面每日产生超过30TB的通信网络和业务,数据质量高、数据种类丰富。 浙江移动大数据平台当前包括Hadoop、MPP(大规模并行处理)、实时流处理三大资源池以及数据交换平台,共计700个节点,融合了O、B、M三域数据,为大数据应用提供有力的PaaS能力支撑。2016年底前将扩容至1400节点的规模,容量超过10PB,并提供人工智能、机器学习、外部数据采集、自然语言识别等能力。 他介绍到,基于数据与技术的组合,通过应用,浙江移动大数据平台实现价值的对内对外变现。挖掘电信运营商数据在营销、位置、统计分析等方面的能力,在保障信息安全与价值的前提进行产品创新,服务于政府、金融、商企和公众等各方面客户。 [详情]
9:15【交通与旅游大数据论坛】北京工业大学城市交通学院院长、教授陈艳艳发表了《基于大数据的个性化出行服务与公共资源协同分配》主题演讲。人口增加导致交通压力增大,大数据时代破解出行难的机遇涵括人车路环境及活动的泛在化全过程感知的交通大数据发展。交通大数据的发展趋势呈现出了信息采集,数据分析,决策支持,信息发布,社会关心五个方面。公共资源协同分配下的个性化交通出行服务包括定制(预约式)公交或合乘服务;长距离轨道出行多模式接驳服务;门到门的个性化绿色多模式出行信息服务;考虑个体与系统协同的动态信息服务;出行链及活动链一体化融合及全程服务;大数据驱动的交通协同决策。 [详情]
9:10【大数据分析与生态系统论坛】华为大数据设计部部长、Apache Carbondata PMC Committer李昆在主题演讲《CarbonData——面向交互式分析的索引文件格式》在演讲中对比了当前几大存储主流技术的优劣。首先是NoSQL,其速度快,只能通过Key访问,一键一值,适合实时应用对接,不适合分析型应用。第二是并行数据库(Parallel Database),它采用细粒度控制并行计算,适合中小规模数据分析(数据集市),但缺点是扩展能力有上限、查询内容错能力弱,不适合海量数据分析(企业级数仓)。另一个是Search Engine,适合多条件过滤及文本分析,但无法完成复杂计算,且数据膨胀较大 ,需要专用语法,难以迁移。最后为SQL on Hadoop,它适合海量数据计算,不足是仍然使用为批处理设计的存储,可用场景有限。 数据存储解决方案,可谓百花齐放,但大多只能针对一个场景,解决一部分问题。数据架构师该如何选择,要么做出妥协,只满足部分应用,要么复制多份数据,满足所有应用。为了应对这一选择苦恼,CarbonData应运而生。它更易用,一份存储覆盖更多场景,且具有更高的分析性能,面向用户提供交互式分析。已于2016年6月全票通过正式进入Apache孵化器。 [详情]
9:07【网络与通讯大数据论坛】北邮模式识别实验室副主任高升发表《用户移动性分析与算法研究》主题演讲。本次分享高升主要从两个方面来诠释主题,即移动轨迹特征建模与人群移动模式挖掘。高升表示,北邮数据科学中心的愿景是连接人、网、物大数据,在这样的愿景下构建了网络基础设施到存储,到数据处理及挖掘,一直最后可视化的呈现。在此基础上搭建了大数据分析平台,用于分析用户行为和利用计算机算法和数据挖掘应用。 高升还表示基于深度表示学习的方法对用户移动轨迹进行建模,可以获取用户停留点的语义特征表示,有助于发现用户的隐含移动模式、识别区域功能。基于循环神经网络的用户移动轨迹预测模型,将对应于位置索引序列的停留点特征表示作为输入,可以实现用户的位置预测及意图识别。 [详情]
9:05【工业与制造业大数据论坛】中航信息中心首席顾问宁振波先生为我们带来《中国新工业革命》主题演讲。宁先生表示,新工业革命就是由以爱迪生试错法为中心的旧工业到以网络化、智能化为中心的新工业的转变。工业大数据可以总结为五个字:云(云计算)、大(大数据)、移(移动互联网)、物(物联网)、智(智能制造)。将这五个字综合为一个体系解决,才能解决工业问题。智能是人类的本职,而人造系统的核心是制造业,因此考虑到智能的时候,人类首先想到的是制造智能。宁先生说:“我认为,智能计算就是IBM今年四月份提出的沃森。”对于“智”字,宁先生有自己的解读,曾经,“智”就是懂天文、知地理,今天的智就是懂Cyber。宁先生向我们介绍了现代Cyber的五个含义,即控制、通讯、协同、众创、虚拟。 [详情]
9:00【交通与旅游大数据论坛】交通与旅游大数据论坛在滴滴高级副总裁兼工程技术委员会主席,CCF大数据专家委员会委员章文嵩博士的主持下正式开始。章博士对自己的个人开源项目及从业经历做简要介绍,分享了自己对于出行大数据的见解后,对今天的所有演讲嘉宾进行了介绍并表示欢迎。 [详情]
9:00【网络与通讯大数据论坛】大数据大会第三天精彩继续上演,上午9时整,网络与通讯大数据论坛在华为大数据产品部部长穆鸿的主持下准时开始。 [详情]
9:00【大数据分析与生态系统论坛】在中国科学院计算技术研究所副研究员查礼的支持下正式开始。他介绍了本次论坛的议题组成,包括开源社区的某些项目进展,如华为CarbonData,Apache Kylin;包括开源技术应用案例,如流失计算、资源管理等等在实际业务当中的应用;此外还有自研平台技术成果分享。 [详情]
9:00BDTC 2016中国大数据技术大会第三天,将迎来七大论坛:网络与通讯大数据论坛、工业与制造业大数据论坛、交通与旅游大数据论坛、大数据分析与生态系统论坛、高性能计算与大数据的融合论坛、大数据安全与隐私保护论坛和推荐系统论坛。
17:10【云计算安全与可信计算论坛】武汉大学计算机学院教授,博士生导师张焕国和中国电子学会云计算专委会委员,英特尔中国研发中心数据中心企业部首席系统软件构架师李彦共同分享了一个主题《端到端可信云解决方案》。张焕国表示:云计算也存在如设备、数据、内容和行文的共性安全,也有如资源的共享所引发的个性安全。目前可信计算已经取得了系列规范、产业化等成绩,如公布了3个可信计算技术标准;TCG公布了TPM2.0和TSS2.0新规范,并将陆续发布其它规范;微软发布了WIN-8,全面支持可信计算等。在端到端方面,要实现可信云基础设施、可信云平台、可信云终端、可信云系统、可信云服务,需要多方共建中国可信社区。李彦重点介绍了英特尔可信执行技术(TXT)、可信计算池 (TCP)、开源远程认证 (OAT),如何帮助更多企业实现安全和身份保护。
17:00【云计算大数据智能交通行业应用论坛】宝船网2.0产品总监杜忠平在题为《宝船网2.0建设航运大生态实践》的演讲中,首先介绍了船务业态转型升级过程,从商业技术和用户角度介绍了宝船网2.0的特点:深入的业务研究,全新的技术构架,更贴近用户的设计实现,互联网+商业模式的探索。随后,他介绍了宝船网2.0在港口服务、内河航运、物流服务、人员四个领域的服务,他还介绍了宝船网导航的核心产品S-GIS,以及宝船网2.0云生态和航运大数据基础架构。他表示,一个机遇大航运市场的生态系统,可以提供一个开发、透明和诚信的环境,并让创新在这个生态里变成更简单、更容易发生。
16:30【云计算安全与可信计算论坛】CSA大中华主席、华为首席网络安全专家李雨航发表《云计算2.0时代的网络空间安全》主题演讲。云计算已从第一代的传统数据中心、虚拟机等进化到第二代的绿色数据中心、容器、Spark、IoT设备等,网络安全顶层框架包括国际战略、国家法律、行业标准、管理流程、技术工具、人才培育六大维度,各维度都需要国际、跨界、跨机构、跨部门合作。针对云计算中的软件定义边界、量子安全、物联网安全以及移动应用安全漏洞检测,云安全联盟分别推出CSA SDP、CSA Quantum Safe、IoT Security Controls和CSA MAST服务。
16:10【云计算大数据智能交通行业应用论坛】深圳市综合交通指挥中心总工程师关志超带来了主题为《新一代信息技术时代城市交通监测、建模、仿真、评价体系》的演讲。他介绍了深圳城市交通云计算实践,包括深圳城市综合交通信息中心和深圳城市未来交通重点实验室等。随后,他介绍了深圳市城市交通运行监测与模型体系,他表示,建立区域、宏观、中观、微观一体化的多层次交通模型体系,可以形成全市统一的交通模型平台,满足不同层面与类别的交通决策支持需求。最后,他介绍了深圳市城市交通宏观、中观、微观、在线智能仿真环境与影响评价。
16:05【“互联网+”金融论坛】北京安理律师事务所高级合伙人王新锐的主题演讲名称是《金融大数据的实践和合规性问题》,他对征信、风控、营销、催收几个方面的金融大数据业务实践行为进行详细剖析,并从法律法规方面对企业大数据实践进行了详细指导。
15:45【云计算安全与可信计算论坛】中国电信股份有限公司云计算分公司产品部副总经理郑少斌在题为《可信,源自中国电信》的演讲中着重分享了中国电信在安全方面的实践。中国电信拥有15个 五星级及90个四星级数据中心,已形成“4+2”云数据中心,更多建设中的云数据中心;计算能力百万物理核;存储可达EB级别;机房出口带宽超过10TB。无论是党政军、大型企业、中小企业 还是内部使用,企业对安全有着极高的安全要求。
15:35【“互联网+”金融论坛】网贷之家创始人&盈灿集团董事长兼总裁徐红伟带来名为《云征信——打造P2P网贷行业生态圈》的专题演讲。演讲期间,他为来宾分享了P2P网贷行业征信现状:P2P网贷行业由三部分核心参与者构成,投资者、平台和借款人,P2P借款人质量直接决定了投资人的投资意愿和平台的存亡,寻找优质的借款人因而成了整个P2P网贷行业中最核心的突破口;前P2P网贷行业在我国急速发展,我国已经成为世界上最大的P2P网贷市场,但由于我国征信产业发展相对滞后,我国P2P网贷行业发展目前因而遭遇瓶颈;在央行的征信系统中,真正和银行有信贷关系的只有3亿人,占比不足25%,且P2P平台目前未能纳入央行征信系统中,全国大大小小的征信公司很多,却没有一家能够针对P2P网贷提供一份很完整的征信报告。
15:30【云计算安全与可信计算论坛】安全狗CEO 陈奋在主题为《用云服务模式解决中小企业安全痛点》的演讲中表示,当前中小企业面临配置风险、外部攻击严重等非常严峻的安全现状,90%的中小企业缺乏系统化的安全规划,在安全方面的投入与整体IT投入占比不到3%。针对系统安全基线、网络安全防护、系统安全保护(防黑防入侵)、身份认证、 跨混合云以及多个公有云管理等几种典型的云安全服务场景,安全狗分别提出了几种解决方案,包括:制作安全的镜像模板、安全产商提供的镜像模板、安全社区的力量-Store模式、云计算厂商网络基础设施、基于主机HOST层面、基于VPC(虚拟私有云)等。
15:25【云计算核心技术架构论坛】云雀科技创始人兼CEO左玥为我们解密Windows Container技术的历史、现状、未来和应用。左玥首先介绍了Windows和Linux设计商的区别,然后着重介绍了Drawbridge容器技术,并将之与Docker进行对比,首先Docker和Kernel是共享的,Drowbridge是不能共享的,Docker的启动时间相对快得多,Drowbridge相对比较慢。Docker的Image不支持多集成(如Apache+MySQL),但Drawbridge可以。因为Drawbridge实现了45个API,可以做一些Docker干不了的事情,比如支持Snapshot,可以做High availability,还有Secure enclave(SGX)-R/G。最新研发的Drawbridge 2.0,已经应用于Azure Machine Learning之中。
15:20【云计算平台构建与实践论坛】中国大数据专家委员会委员,上海晟淘大数据科技有限公司总经理丁陈在主题为《大数据智能IT工具平台》的演讲中首先例举了大数据库市场存在的诸多问题,(1)传承——不支持ACID,大数据永远只能“打边鼓”;(2)性能——大数据不只“大”,更要“快”。高性能、实时大数据才是未来大数据之道;(3)易用——大数据给我们带来的不仅仅是 “big value”,更重要的是人人都会用的大数据。
15:18【云计算大数据智能交通行业应用论坛】同济大学教授杨东援在题为《大数据时代城市交通的思考·分析·决策》的演讲中表示,对于城市交通来说,大数据不是一种时髦,而是技术推动、需求拉动和任务理念变革所共同呼唤的创新,而面对城市交通领域大数据技术应用问题,需要政府提高预见性,树立正确的价值理念,增强把脉诊断能力。期间,他还表示城市交通领域的大数据技术应用,既非将大数据技术塞入传统技术框架,也非对关联分析等技术的简单套用。最后,他介绍了大数据环境下基于证据的决策分析技术框架,其主要目标是提升有机融合城市交通战略、政策、规划、建设、管理和控制等技术环节的战略调控过程的决策效果。
15:15【“互联网+”金融论坛】宜信大数据创新中心研发总监谷文栋的演讲主题是《博以致用,拓则新生——宜信大数据金融云》。他认为推荐系统是大数据特别典型的应用。之后,他提出“互联网+”金融承载的连接作用是平的,可以和任何垂直领域产生关系,金融一直也是平台类的产品,各行各业都离不开金融,这种平台性的东西在开始和逐渐垂直领域产生化学反映的时候会释放出巨大的价值。所以,他认为互联网金融的发展趋势是:服务化、场景化、云+端。最后,他提到宜信采用宜信、商户、合作伙伴三位一体的金融服务体系。
15:10【云计算安全与可信计算论坛】曾在各互联网公司做安全工作而后创业的青藤云安全创始人&CEO张福对安全的理解很深刻。在题为《面向未来的自适应安全架构》的演讲中,分享了一个真实的企业安全故事:知名游戏遭到黑客攻击,最终7人联合小组用了2个月的时间通过各类技术手段才发现10%服务器被感染。他认为:安全环境非常严峻,安全已远远落后云计算的发展,无力应对业务需求剧烈变化,更无力面对专业攻击者,企业安全陷入困境。所以企业更加需要:适用于各种基础架构、易于部署、快速响应、容易使用、实时发现未知威胁、持续监控包含、保护核心资产、人员依赖低的云安全服务。
15:00【云计算平台构建与实践论坛】杭州又拍云CTO黄慧攀发表了题为《什么是云加速》的演讲。他首先介绍了到底什么是云加速,他认为其本质还是网络加速,之后,他还分享了UPYUN云计算的系统架构。虽然云加速会带来硬件成本、系统开发以及网络运营方面的代价,但是云加速所带来的价值也是显而易见的,他认为主要有两点,第一是服务标准化、透明化、公平;第二是服务质量一致,优化周期短,而作为新一代CDN加速服务的UPYUN重新定义了云加速。
14:55【云计算核心技术架构论坛(二)】DaoCloud联合创始人兼CEO陈齐彦在主题为《容器如何帮助企业转型互联网 架构》的演讲中提到,在容器出现之前,软件开发被团队少协作、运维难追溯、质量不可控、集成不持续、集群难伸缩、交付缺统一等痛点所困扰。容器的出现,使得软件开发过程有了新的理念,即:精益工程(方法论)、移动(应用)、Git Flow(协作)、微服务(架构)、云平台(平台)、容器(发布)。他还介绍说,DaoCloud目前提供的产品和解决方案有两个,一个是DaoCloud 应⽤用管理平台(www.daocloud.io),它是云端原生应用的一站式解决方案;另一个是DaoStack企业服务,它是企业级Docker服务,包括私有云、混合云。
14:52 【云计算大数据智能交通行业应用论坛】滴滴快的打车技术副总裁,大数据与商业化事业部总经理朱磊发表了题为《行在“云端”——大数据时代的智能生活》的主题演讲。他介绍了大数据、产品、商业和运营相关联的应用案例。此外,朱磊分享了打车订单的智能化匹配,从人、物、信息、服务四个角度介绍了智能出行的本质,以及用户流失监控预警系统和运营策略分析。最后,他从业务和工程两个方面介绍了滴滴打车的大数据架构。
14:50【云计算平台构建与实践论坛】中国电信股份有限公司云计算分公司技术总监广小明发表了题为《中国电信云计算领域探索与实践》的演讲,他表示中国电信已经组建了南北两大云数据中心,构建覆盖全国8大区域,2大云基地,2大隔离区,共计17个资源池节点(不含隔离区和两个基地),并且分享了天翼云南北双活存储池案例以及混合云应用案例,同时,他还重点介绍了天翼混合云的五大应用场景包括容灾、已有应用弹性伸缩、研发测试、移动APP和虚拟桌面。最后他还介绍了天翼混合云的核心技术指标,
14:45【“互联网+”金融论坛】蚂蚁金服金融云解决方案经理王磊分享了《云计算赋能互联网+金融》。他认为金融云的广泛运用是符合整个金融行业趋势的,特别是互联网+金融的必然产物。他提到,金融云产生的背景是:金融IT应用自主可控技术已上升为国家战略;互联网金融随时在线、小额频发等特性对传统IT系统带来巨大挑战;更多新型中小金融机构出现,迫切需要专业化、社会化资源支持。他认为虽然“互联网+”特质是来自于“互联网+”业务的特性,但是对于金融来说,稳健、安全也是非常重要的。
14:40【云计算安全与可信计算论坛】360云事业部产品总监 张晓兵发表《云安全技术架构分享》主题演讲。2014年国内新增恶意样本3.2亿、钓鱼网站262万、Android病毒326万,65.5%网站存在漏洞,互联网公司公开的安全事故已导致11.3亿用户信息泄露。为此,360提出了“数据驱动安全”理念,以QVM人工智能引擎,基于海量数据挖掘、引入机器智能学习算法,准确识别未知恶意软件。并通过大数据关联技术,以多种图形展现的方式,帮助安全专家对未知威胁进行分析、发现、回溯、跟踪及预警。此外,更提供多租户隔离、集群与公司业务隔离、高防DNS服务、具有五网分发能力的安全CDN服务、防DDoS攻击等构建安全云环境,以及自主研发的鹰眼系统,进行实时扫描防护。
14:30【“互联网+”金融论坛】中国大数据专家委员会委员、中国电子学会云计算专家委员会委员、九一金融信息服务(北京)有限公司创始人兼CEO许泽玮分享了《基于大数据的互联网金融创新》。他认为在整个传统金融里存在三个不对称:信息不对称、知识不对称、服务不对称,并且这三个不对称都可以靠技术解决。基于此,他提出:本质来说互联网金融就是把信息流和资金流融合在一起。他认为数据本身不产生价值,如何分析和利用大数据对业务产生帮助才是关键。之后,他提出互联网金融行业数据交易三个原则:双方主动提交交易数据;平台功能要把产品提炼的足够简单;平台运营数据的效率及变现能力。
14:25【云计算大数据智能交通行业应用论坛】上海北斗卫星导航平台有限公司副总经理、总工程师朱峰发表了题为《北斗高精度导航与智能交通》的主题演讲。首先介绍了北斗及其相关方面的发展情况,他分享了北斗高精度导航及其服务云,他认为,以北斗高精度定位切入市场(包括切入到智能交通领域),用高精度带动应用创新,将推动北斗产业的发展,随后,他介绍了北斗在智能交通领域的一些应用方向,并表示车道级应用将成为北斗高精度在智慧交通领域的引爆点,推动智慧交通的应用创新,最后他介绍了北斗高精度导航面临的技术挑战:高精度定位、地图(高精度车道级)、可用性、高动态、低成本(定位终端)。
14:20【云计算核心技术架构论坛】足记副总裁兼CTO孙东风介绍足记如何基于云平台架构千万级移动应用。基于图片社交的移动互联网应用,注册用户将近3000W,DAU百万级别,日新增用户30~40%。足记传统的MySQL+PHP的架构遇到的问题包括数据瓶颈、性能瓶颈和水平扩展瓶颈等,例如,1.巨量数据,必须分库分表;2.通过SOA水平扩展Service集群;3.组成三级缓存,MySQL降级为持久化工具。通过公有云服务的应用,足记实现了1.动态易扩展,按需服务,前期节省成本,后期扩容快速;2.完善的监控系统和运维后台;3.专业的数据存储支持。
14:18【云计算平台构建与实践论坛】英特尔中国上海分公司大数据软件工程师罗钟悦紧接着阮兴平的演讲,从技术角度介绍了英特尔整机构是如何与OpenStack结合的。主要包括两大步骤,(1)RSA在OpenStack里进行呈现;(2)利用RSA的能务来扩展OpenStack的功能。
14:12【云计算平台构建与实践论坛】英特尔数据中心云平台事业部整机柜架构方案市场技术经理阮兴平发表了题为《英特尔整机柜架构:针对软件定义基础架构优化的云架构方案》,他表示随着云技术的发展,构建数据中心的要求变得越来越标准,交付更弹性,部署更灵活。英特尔整机柜方案是一个针对计算资源、网络资源和存储资源实现解耦及按需重组的逻辑架构方案。这个方案用于重新定义当今数据中心云架构从而实现云服务的高效部署,最后他还分享了采用OpenStack Ironic和英特尔整机柜架构方案相结合而实现软件定义基础设施架构的案例。
14:10【云计算平台构建与实践论坛】HYPER创始人&CTO王旭在演讲中表示,目前正处Docker热潮,Docker究竟是什么?Docker=Container(LXC)+Layered Image(aufs),LXC和aufs两者都不是新东西,而结合后却产生了很大的效应,原由在于Docker的核心是以应用为中心,大大简化了整体发布流程,降低了运维难度。Docker对应用进行了封装,使操作系统回归本原 ,应用与操作系统完全解耦,是运维领域的一大革命。同时他表示虚拟机的问题在于没有做到“应用为中心”,而Hyper的正是应用中心的虚拟化,最后他还介绍了Hyper的本质,以及在已经有容器的情况下,为什么还要虚机,并将Hyper和容器进行了对比。
14:05【云计算安全与可信计算论坛】微软公司可信赖计算部安全技术政策总监陈恺在题为《构建可信赖的云计算平台》的演讲中,特别提到IT技术,如移动、应用、大数据、云计算等发展带来了安 全方面的巨大挑战和机遇。尤其在信任方面,“如何保护数据,谁能访问数据,数据在哪里,如何证明你所承诺的”一直是用户所关注的。为此,微软提供了可信(核心安全、隐私保护、合 规及可靠性承诺),开放和灵活(跨平台一致体验、随时随地处理所有数据、可扩展的应用开发、灵活的基础设施)的安全服务。正如在Azure平台上,企业可以自由选择Linux系统一样。微软在网络安全方面的承诺是:开发、提供安全的产品和服务;保护客户的数据安全及隐私性;协助客户及合作伙伴保护他们的资产;协助打击网络犯罪。技术方面,微软在数据加密方面,会通过“客户与业务之间传输的数据,数据中心之间传输的数据,存储的数据,用户之间端到端的数据保护”来实现全面保护。微软在安全方面有全套的安全保障体系。
14:00【云计算核心技术架构论坛(二)】北京云杉世纪网络科技有限公司CEO亓亚烜在主题为《SDN在云计算数据中 心的应用》的演讲中提到,SDN简化了网络管理,为应用提供支撑。在互联方面,SDN是演进,而不是变革,因为不必迁移 、自由扩展、随时可退,云杉通过OF/OF/VXLAN实现,比如ARISTA、Centec等;在服务方面,SDN是开放的,而不是封闭的 ,使用开源技术、集成第三方资源并保证品质,云杉通过NFV实现,比如Array、NSFOCUS等;在安全方面,SDN变被动防御 为主动防御,需要经过数据采集、分析和执行。
13:55【“互联网+”金融论坛】互联网金融千人会秘书长、联合创始人闻学臣分享了名为《互联网金融趋势报告和分析》的主题演讲。期间,他分析了“互联网+”金融的背景以及对于“互联网+”金融未来趋势的判断和看法。他认为整个金融行业现在面临三大方面的命题:经济下行、制度变革、技术创新。他分享了两种未来代表行业发展趋势的业态:互联网证券和互联网保险。对于互联网保险,他认为互联网和保险叠加之后能带来新的效果:互联网将给保险业带来全新的蓝海市场;产品定价越来越精准化;新的商业模式出现。对于互联网金融的发展趋势,他总结为:高速发展、创新融合、整合重构。
13:50【云计算大数据智能交通行业应用论坛】中国电子学会云计算专家委员会名誉主任委员,中国大数据专家委员会顾问,中国工程院院士李德毅发表了《对智能驾驶的再认识》的主题开场演讲。李院士表示架构设计、模块划分和界面约定决定智能车产业的核心竞争力。随后,他分享了架构设计四大原则:系统、模块、表现和快乐编程原则,详细介绍了机器视觉如何形式化驾驶员的视觉,他表示,机器视觉远不是对人的全部视觉的感知能力的全方位模拟。最后,他分享了智能车传感器如何选型和配置和机器视觉。
13:40【云计算安全与可信计算论坛】北京中油瑞飞信息技术有限公司信息安全高级技术总监黄晟发表《企业私有云安全防护实践与探索》主题演讲。现有企业信息系统对基础设施的使用模式决定了现阶段企业私有云将会采用IaaS为主、PaaS为辅的模式。而随着攻击逐渐上移至应用层并变得更复杂,传统的单一边界防护机制很难保证安全。 从AWS元数据渗透测试与全栈攻击等实际案例可以看出,云计算技术改变了一切,但云计算平台本身就是一个复杂的信息系统,特别是虚拟化管理与云管理系统采用通用软件和现有技术开发,最终也部署在传统硬件平台之上,依然受到传统软硬件技术生态圈的影响。因此传统攻击手段依然具有威胁性,还是需要依靠传统防护手段作为私有云安全防护的基础。
13:40【云计算核心技术架构论坛】苏宁云商OpenStack研发中心总监张小斌分享《基于OpenStack的大型电商私有云之路》。从2014年5月开始,苏宁电商私有云把几千的物理和KVM虚拟机改造成OpenStack私有云,经过了单控制节点的OpenStack生产集群部署到多数据中心、多Region、高可用生产集群部署的转变,现在有4个Regions,包括内网和DMZ的多个可用域,多主机集合(集群),专用资源池,计算与存储密集型主机资源池等。
13:36【“互联网+”金融论坛】中国云计算技术与产业联盟副理事长、中国大数据专家委员会副主任委员、中国电子学会副理事长刘汝林发表了开场致辞。他强调了云计算的本质就是服务,应该把以前传统的提供产品、软件的观念转向提供服务。金融也是提供服务的,在“互联网+”的大旗下,金融这块提出来很有必要。金融既关系到国计民生的重大事项,也关系到老百姓的切身利益,同时也是云计算里面经常提到一个安全问题。他认为“互联网+”金融有很多改革的东西,有广阔的天地。
13:346月5日下午,第七届中国云计算大会云计算大数据智能交通行业应用论坛在中国智能交通协会常务理事、副秘书长、国家智能交通产业技术创新战略联盟理事长关积珍的主持下正式开启。
13:32【云计算安全与可信计算论坛】《云计算安全与可信计算论坛》在炼石网络CipherGateway CEO白小勇的主持下正式开启。
13:32【云计算平台与构建论坛】中国大数据专家委员会副主任委员,中国电子学会云计算专家委员会副主任委员黄晓庆作为论坛主席发表致辞。
13:30云计算核心技术架构论坛(二)正式启动,将有5位嘉宾分享OpenStack、容器、SDN等热门技术。论坛由中国电子学会云计算专家委员会委员、北京航空航天大学计算机学院教授钱德沛主持。
13:30【云计算平台构建与实践论坛】6月5日的云计算平台构建与实践论坛在中国电子学会云计算专家委员会委员,中国科学院云计算产业技术创新与育成中心主任、广东电子工业研究院院长季统凯的主持下正式开始。
13:30“互联网+” 金融论坛在九一金融联合创始人吴文雄的主持下正式开启。吴文雄指出,当下,传统行业已经深受互联网思维的影响,而在互联网高度契合的金融行业内,云计算和大数据成为一种新的趋势。
11:30中国大数据专家委员会顾问、中国电子学会云计算专家委员会副主任委员、中国工程院院士李伯虎表示,制造业正面临全球新技术革命和产业变革的挑战:新一代信息通信技术快速发展并与制造业的深度融合,正引发制造业发展理念、制造模式、制造手段、技术体系、和价值链重大变革;中国制造业大而不强,正面临从价值链的低端向中高端,从制造大国向制造强国、从中国制造向中国创造转变的关键历史时期;国际制造业发展态势和竞争格局面临重大调整;我国经济发展和国家安全对制造业发展提出了更高要求。演讲中,李伯虎院士还针对更个挑战提出了相应对策。 [详情]
11:00CSA云安全联盟创始人兼CEO Jim Reavis发表了题为《Cloud Today, Cloud Tomorrow》的演讲,他首先介绍了CSA以及其对于云计算健康发展的重要性,他表示 CSA目前已经有64000个会员、300个企业会员、75个分支。之后,他还介绍了目前领袖级的企业正在利用云做的事情包括:云安全代理、运维、容器技术(Docker、 Rocket)、安全分析、整合物联网、创造本地云安全战略等。因此在谈到未来CSA面临的挑战时,他表示CSA未来将致力于让云的安全超过其他任何IT系统。这需要CSA制定一些标准提供一些认证,他认为安全应该作为一种服务来提供。最后他介绍了 SDP虚拟私有云和物联网的用例。 [详情]
10:30北京三未信安科技发展有限公司创始人兼CEO张岳公表示,基于云资源的共享集约化思想,云安全隐患主要来自:传统边界安全防护思想失效,封、堵、查、杀防不胜防,虚拟环境下认证授权、访问控制更加困难,云中管理员拥有更大的权限。针对这种现象,张岳公认为密码技术在云安全保障上更有优势:密码技术是有系统理论基础的技术;密码技术是主动的安全技术,在认证、授权、控制和数据保护上有优势;密码技术和数据的处理紧密结合,符合纵深保护策略。而在密码技术实现中,硬件无疑更有优势。 [详情]
10:00中南大学教授、“千人计划”专家陈建二在主题演讲中从多方面分享了透明计算在今年的发展变化。透明计算是一种新的计算模式。它与云计算、虚拟桌面等不同,强调把软件放到服务器端,计算在客户端,流式执行实现跨平台和小终端。云计算解决数据云化问题,而透明计算解决软件云化问题。透明计算的主要特点有:跨软硬件平台;安全性问题;使用方便和便于维护管理;小终端和各种仪器设备运行不同大软件;低成本和环保。其核心关键点包括HTML5。实现跨平台;透明(云)架构,实现服务可控、可信、环保;Meta OS,具有安全、跨平台特性。透明计算对网络安全有三重保证,(1)Meta OS的主动防护性;(2)流式执行对病毒的防护;(3)数据码流监控与可管理性。 [详情]
9:30Adgetec公司CEO、畅销书作者Mark Mueller-Eberstein教授发表题为《云计算大数据推动业务创新发展》的演讲,介绍如何有效利用云计算、大数据和物联网技术带来的机会,使之在快速变化的世界能成为我们的“商业加速器”。Mark Mueller-Eberstein表示,成为新世界的赢家,降低成本已经不是重要的问题,更加创新、更加以客户为中心、更加灵活地满足客户的需求才是关键,而IT的成熟度是企业成功关键的指标。云计算、移动、大数据、物联网、超级APP、智慧城市、3D打印等技术趋势给我们带来了很多新机遇,我们应当利用云计算的无限计算能力,以及大数据蕴含的价值。 [详情]
9:00希捷科技高级存储部首席技术官James Hughes(裘剑一)发表了题为《云存储的未来》的演讲,他首先介绍了ASTC(先进存储技术联盟)技术的发展路线图。他预测2017年开始,机械硬盘的存储密度将保持30%的年复合增长率,最终在2025年左右达到每平方英寸10Tb,由此促成100TB硬盘的实现。之后他介绍了对象存储以及从2001年到2013年13之间对象存储初创公司的融资情况,都是逐步增加的,当然希捷也看到这种趋势。这也是希捷在这个领域发力的原因。最后他总结道,未来的存储需求将会持续增加,开源软件包括Swift、CEPH、Riak等以及软件定义存储最终将降低成本开支,存储API将让开发变得更为简单。 [详情]
8:35中国电子学会云计算专家委员会副主任委员、中国大数据专家委员会副主任委员、国家自然基金委副主任、中国工程院院士高文在题为《城市多媒体大数据高效存储与处理技术》的演讲中表示:最新的图灵奖获奖人是Dr. Michael Stonebraker,数据库领域非常著名的专家之一,这也证明了大数据技术对产业而言非常重要。智能城市作为大数据实践很有代表性。首先,智能城市是一个复杂信息生态系统,;其次,智能城市的基础,是城市大数据传感网络和大数据中心;第三,智能城市成功的前提,是政府决策的主要依据来自大数据中心。 [详情]
8:30第七届中国云计算大会第三日全体会议在中国大数据专家委员会副主任委员、中国电子学会云计算专家委员会副主任委员黄晓庆的主持下正式开始。
8:25第七届中国云计算大会的第三天:上午全体大会之后,是云计算核心技术架构(二)、云计算平台构建与实践(二)、云计算安全与可信计算、“互联网+”金融、云计算大数据智能交通行业应用”等5大专题论坛。
新浪微博 (#BDTC#)@CSDN云计算
12月9日 专题论坛
12月10日 专题论坛
大数据行业中对安全的认知还有很多不足,但是国家对十三五的一些规划一定程度上会带来改观,明确了大数据平台及安全性的要求。在未来,现有的安全技术会很快速地融入云、融入大数据这个平台。整个产业和生态链的合作也是一个必然的趋势。[详细]
随着数据量不断变大,出现了处理效率低下和非结构化数据处理不了等问题。特别是数据搜集起来后,想挖掘数据的价值,想利用机器学习来做,但过去的数据库技术缺乏这种手段,所以现在在数据仓库技术本身发生了一些衍变。如今发展到现在也看到了四个定论,即分布式计算已逐步成为主流计算方式、交互式分析技术日益成熟、融合事件驱动和批处理引擎等。[详细]
传统控制流模型在大数据处理中受限于同步机制以及内存计算的影响,导致在大数据处理过程中,对于海量实时和智能的需求无法有效的满足,而数据流模型的出现,则改变了这种局面,其在并行计算方面的特点,成为大数据处理的更理想模型,而Yita就是基于此模型的大数据计算引擎。[详细]