大数据工程技术人员培训项目采购项目的潜在供应商应在线上获取采购文件,并于2025年05月21日 09时00分(北京时间)前提交响应文件。
序号 | 项目名称 | 技术参数要求 | 数量 |
1 | 大数据工程技术人员实训平台 | 一、平台技术: 1、系统要求以容器化技术为基础,借助容器技术,提供快速启动、故障自恢复、资源隔离、快速干净清理、可伸缩等能力,实现高效便捷管理实训环境; 2、系统提供实训环境的动态创建功能,支持平台资源的快速复用; ▲3、系统支持学生用户≤1秒内连接进入相关课程实训环境;(须提供演示视频佐证,视频保存在U盘中提交) 4、系统支持服务器节点数的后续扩容,实现支持更多的用户进行并发实训操作,系统不限制用户数; 5、系统提供B/S架构,前后端以及内部各模块间都采用Restful接口交换数据; 6、安全性:系统支持权限隔离,保护用户数据私密性; 7、系统具有可靠的数据存储和恢复能力,多节点冗余架构设计,性能随节点数量的增加而线性增加,支持多节点自动负载均衡及故障转移; 8、系统提供应用全生命周期管理,支持自动释放用户多余的应用空间; 9、系统支持实时管控系统和用户的资源使用情况,包括服务器(CPU和内存、网络、存储)、用户并发个数; 10、系统支持限制对硬件资源的使用量和并发数; ▲11、系统提供实时的资源动态图表;(须提供演示视频佐证,视频保存在U盘中提交) 12、系统支持用户点击进入实训节点打开图形化桌面。 二、实训环境工具: 1、数据开发工具提供语法高亮、SQL语法纠错功能、友好的运行错误码提示和实时的运行日志,并支持作业全生命周期状态展示; 2、数据开发工具支持多数据源,支持JDBC数据源,支持CSV上传;支持数据开发节点的数据集直接展示; 3、提供任务进度可视化展示的数据开发工具,用户运行后可通过可视化的方式展示任务当前进度; 4、提供支持批量任务调度的数据实训节点,支持工作流立即执行、定时调度和统一工作流的并发执行和工作流的条件执行等多种场景; 5、提供工作流式的图形化拖拽开发环境的数据实训节点,支持组件拖拽式操作,支持组件脚本编程和参数配置;6、提供连接组件构建工作流的数据实训节点,支持工作流的运行和结果查看; 7、提供Kylin、durid作为OLAP的数据实训节点; 8、数据实训节点内置主流大数据分部署存储系统、支持分布式数据仓库Hive和分布式列式存储NoSql数据库HBase; 9、数据实训节点支持主流大数据计算引擎,包括mr引擎、spark引擎等; 10、数据实训节点支持python和shell脚本运行环境; 11、数据实训节点提供多语言支持的spark开发环境,如scala、pyspark、sparkR等; 12、数据实训节点支持多种数据查询语言,如SQL、SparkSQL、HQL等; 13、数据实训节点支持执行多种脚本语言,支持执行SparkSQL脚本语言;支持执行Scala编程语言;支持执行Python脚本语言;支持执行Hql脚本语言;支持执行Shell脚本语言; 14、提供Hadoop核心HDFS、YARN组件的版本不低于3.2.0。三、实训内容:(一)初级方向内容▲1、系统实训案例按照人力资源社会保障部专业技术人员管理司组织编写的《大数据工程技术人员(初级)》相关教材提供大数据分析与挖掘方向、大数据处理与应用方向及大数据基础技术的实训资源,提供匹配正式出版教材的案例;(须提供演示视频佐证,视频保存在U盘中提交) 2、《大数据存储系统搭建》实训案例中非关系型数据库和关系型数据仓库的操作使用HBASE、hive、HDFS等相关组件; 3、《大数据作业开发系统搭建》和《大数据服务器系统搭建》实训案例提供zabbix服务组件实现系统资源监控功能; 4、《大数据传输系统搭建》实训案例支持kafka、flume、SQOOP等相关服务组件的安装以及配置功能; 5、《大数据查询系统搭建》实训案例支持trino服务配置、支持kylin以及druid服务组件; 6、《大数据安全系统搭建》实训案例安全认证操作支持kerberos组件,数据访问权限管理操作需要支持ranger组件; 7、《数据统计分析》实训案例提供RStudio的开发工具,支持SparkR的运行环境以及程序开发; 8、《BI数据分析》实训案例BI数据分析操作需要使用Metabase组件; 9、《数据挖掘建模》实训案例支持pyspark的运行环境,支持pyspark的开发工具jupyter; 10、《数据可视化开发》实训案例支持数据可视化编程操作,提供VSCode的开发工具,支持echars开发;11、《网络数据处理》实训案例的数据预处理以及数仓实现操作需要使用hive、SQOOP等服务组件; 12、《离线数据处理》实训案例数仓实现操作支持hive和sqopp服务组件,spark操作支持sparkSQL以及Spark连接hive等;构建任务流操作时提供dolphinscheduler组件; 13、《实时数据处理》实训案例Druid的可视化操作需要使用turnilo组件;支持kafka作为channel和Sink与flume集成; 14、《交互式数据处理》实训案例kylin流式操作需要使用kylin组件,kylin的可视化操作使用zepplin组件; 15、《基于ElasticSearch的数据检索》实训案例提供ElasticSearch、logstash、kibana的运行环境,支持IK分词器和pinyin分词器。(二)中级方向内容 ▲1、系统实训案例按照人力资源社会保障部专业技术人员管理司组织编写的《大数据工程技术人员(中级)》相关教材提供大数据分析方向、大数据处理方向及大数据基础技术的实训资源,提供匹配正式出版教材的案例;(须提供演示视频佐证,视频保存在U盘中提交) 2、《大数据业务库表结构设计及开发》实训案例中Hive 库表与HBase 库表的设计和开发使用Hadoop、HBase、Hive等相关组件; 3、《大数据管理平台与工具使用-上》实训案例中的集群安装与用户鉴权支持MySQL、Hadoop、Zookeeper、metrics等相关服务组件的安装以及配置功能; 4、《大数据管理平台与工具使用-下》实训案例中使用 Hue 集成 Hadoop 及HBase进行可视化管理支持Hue等相关服务组件的安装以及配置功能,并使用Hadoop、Hbase、Zookeeper、MySQL等相关组件; 5、《大数据计算服务开发》实训案例使用Spark MLlib、Scala等相关组件; 6、《大数据软件系统搭建》实训案例支持JDK、Hadoop、Spark、Flink的安装以及配置功能; 7、《基于python的数据预处理》实训案例数据结构预处理和数据值预处理支持Python、Pandas、postgres等相关组件; 8、《数据可视化》实训案例支持VSCode、Node.js、Vue.js、ElementUI等相关组件; 9、《数据挖掘-上》和《数据挖掘-下》实训案例支持Python、sklearn等相关组件; 10、《数据分析-上》和《数据分析-下》实训案例支持Python、numpy、pandas、matplotlib、seaborn、sklearn等相关组件;11、《数据采集》是一切数据应用的来源,是为了满足数据统计、分析和挖掘的需要,搜集和获取各种数据的过程。本案例主要学习数据采集方案实施、数据迁移实施方案、数据采集脚本开发及调度等;12、《数据表设计》通过本案例学习如何使用PDManer进行领域模型设计开发以及逻辑数据模型设计和开发等;13、《数据建模》通过本案例学习如何使用工具实现物理数据模型的设计和开发,了解用例图基本元素,以不同的视角展现系统的功能性需求;14、《基于Postgre的数据预处理》本案例学习如何对postgre数据库中数据结构预处理及数据库中数值预处理;15、《数据计算》通过本案例使用SparkSQL和RDD的方式实现数据加载、使用spark实现均数、众数、中位数等指标并基于Flink实现聚合函数结果查询;16、《数据查询》所谓检索系统,是指根据对信息资源中不同对象和层次揭示上的需要,由文献目录、索引、机读数据库、网络搜索引擎等信息资源检索工具构成的,以不同检索需要为目标的、形式多样的、完备的系统。整个检索系统的最关键的部分必然是进行查询; 四、平台功能: 1、系统提供学生账号、教师账号、管理员账号的登录功能,支持账号验证且只允许用户单点登录平台; 2、系统提供实训查询、实训列表、实训详情查看的功能; 3、系统提供根据不同实训类别进行实训筛选功能,实训类别是基于标签(包括最新、最热、已完成、未完成等标签)进行实训分类; 4、系统提供每个实训对应的实训环境,并提供进入实训环境的实训按钮; 5、系统提供学生实训情况统计功能; ▲6、系统提供实训手册、实训报告、实训操作同屏功能,支持用户全屏查看手册,支持用户全屏实训,支持用户全屏编写报告;支持用户复制代码段;系统提供实训手册查看,支持向下滑动展示全部内容;(须提供演示视频佐证,视频保存在U盘中提交) 7、系统提供实训操作全局操作功能包括:存档、提交、退出、求助; ▲8、系统支持用户撰写实训报告,实训报告提供图片库、代码库、保存、预览、全屏的功能,支持图片、文字、代码、表格的输入,插入的图片只能是实训环境截图的图片,保证报告真实性;(须提供演示视频佐证,视频保存在U盘中提交) 9、系统提供实训环境的全屏、粘贴、截图、刷新操作,允许将本地代码粘贴到实训环境中进行代码的执行; ▲10、系统提供终端和桌面切换功能,进入节点默认展示终端页面,支持点击桌面按钮切换到桌面页面,且切换等待时间不超过5秒;(须提供演示视频佐证,视频保存在U盘中提交) ▲11、系统提供实训评测功能,支持在实训过程中通过系统自动判断学生实训操作过程、结果是否完整和准确,能依据评测结果提供实训操作错误提示。允许学生、教师查看实训评测结果,不接受将代码、命令或操作过程等材料脱离当下实训项目和操作环境,手动复制到某个功能模块进行代码评测;(须提供演示视频佐证,视频保存在U盘中提交) 12、系统提供模拟考试功能,支持用户进行模拟考试; 13、系统提供模拟考试信息介绍及模拟考试入口; 14、系统提供模拟考试题目、模拟考试报告、模拟考试操作功能; 15、系统提供模拟考试实训操作全局操作功能包括:提交、退出; 16、系统提供保存实训、考试报告并生成pdf文档,支持下载报告; ▲17、系统提供实训、考试报告批阅功能,支持录入分数和评语;(须提供演示视频佐证,视频保存在U盘中提交) ▲18、系统提供实训操作过程中异常退出(包括手动误关闭浏览器退出、本机断电自动退出、系统性能不稳定卡住退出、本机断网自动退出等异常情况)后可再次进入同一实训环境的功能。(须提供演示视频佐证,视频保存在U盘中提交)19、系统可支持大数据工程技术人员中级和高级的实训资源部署。 五、数据源平台—云平台: 1、通过云平台能够采集行业场景终端设备数据; ★2、可在广域网中通过PC、移动智能终端等设备登录此云平台;(须提供演示视频佐证,视频保存在U盘中提交) ★3、具备项目管理功能,提供定制化的项目中心集中管理;(须提供演示视频佐证,视频保存在U盘中提交) ★4、支持SAAS项目的新建并支持授权API的自动生成功能;(须提供演示视频佐证,视频保存在U盘中提交) ★5、支持云网关的配置,支持云网关的设备管理、编辑等功能;(须提供演示视频佐证,视频保存在U盘中提交) ★6、云平台与项目云网关之间的心跳轮询时间可在3-15S之间灵活设置;(须提供演示视频佐证,视频保存在U盘中提交) ★7、需能提供多种的项目案例配置默认地址,至少提供智能家居、养殖案例等默认地址配置;(须提供演示视频佐证,视频保存在U盘中提交) ★8、兼容行业中常见的功能节点,至少支持数字量Modbus、模拟量Modbus及ZigBee无线传输类型的节点管理;(须提供演示视频佐证,视频保存在U盘中提交) ★9、同时支持手动与默认的节点配置方案,提供至少一种默认节点配置方案;(须提供演示视频佐证,视频保存在U盘中提交) ★10、支持节点的状态查询并按需控制;(须提供演示视频佐证,视频保存在U盘中提交)11、支持学校自定义实训资源包挂接。 | 1 |
2 | 大数据工程技术人员实训资源(初级) | 系统实训资源提供依据人力资源社会保障部专业技术人员管理司组织编写的《大数据工程技术人员(初级)》相关教材开发的实训案例环境、操作过程、实训组件等,包括:一、大数据服务器系统搭建:1、实训系统:安装在服务器硬件之上的操作系统,作为大数据系统的软件基础平台及大数据软件系统的核心支撑,需要提供额外的管理、配置、稳定、安全等维度的能力。实验要求掌握基于硬件系统规划服务器系统部署方案并通过脚本自动化部署,完成高可用及容灾配置,将各大数据组件联通。2、实训内容至少包含:(1)操作系统安装及操作知识;(2)系统依赖环境管理;(3)系统资源监控;3、实训环境提供配套安装包,包含但不限于:hadoop-3.2.1-src.tar.gz、jdk1.8.0_151.tar.gz、findbugs-3.0.1.tar.gz、protobuf-3.5.1.tar.gz、yum(os源、zabbix源)。二、大数据存储系统搭建:1、实训系统:本实验至少包含Hadoop分布式集群、关系型数据库MySQL、非关系型数据库HBase及其操作、Hive数据仓库的部署与运维操作内容。可让学生在基本操作基础上重点掌握NoSQL及Hive数据仓库基本操作方法、优化处理方法等内容;2、实训内容至少包含:(1)部署Hadoop环境;(2)分布式文件系统的操作;(3)部署大数据关系型数据库(mysql);(4)部署大数据非关系型数据库(HBase);(5)Hive数据仓库的使用;3、实训环境提供配套安装包,包含但不限于:jdk1.8.0_151.tar.gz、hadoop-3.2.1.tar.gz、mysql-8.0.26.tar.gz、hive-3.1.2.tar.gz、hbase-2.2.5.tar.gz、mysql-connector-java.jar(驱动包)、zookeeper-3.6.1.tar.gz。三、大数据作业开发系统搭建:1、实训系统:实验至少包含MapReduce、Spark与Flink这三个常用大数据处理引擎。2、实训内容至少包含:(1)MapReduce引擎依赖安装;(2)部署Flink完全分布式集群;(3)YARN资源管理器;(4)HUE作业开发环境部署;(5)Dolphinscheduling作业调度系统;3、实训环境提供配套安装包,包含但不限于:ideaIC-2021.3.2.tar.gz、spark-2.4.6.tar.gz、scala-intellij-bin-2021.3.18.zip、flink-1.12.2.tar.gz、hue.tar.gz、dolphinscheduler-1.3.6.tar.gz;4、实训环境提供配套的支持服务或组件,包含但不限于:Hadoop、JDK、Zookeeper、NameNode,DataNode,NodeManager,maven、MySQL、ResourceManager,JobHistoryServer。四、大数据传输系统搭建:1、实训系统:实验至少以大数据实际项目中数据迁移框架Sqoop的使用以及实时数据采集的方法作为主要内容,包括但不限于日志监控及消息队列传输原理,实时数据采集框架Flume及消息中间件Kafka的机制等要点;2、实训内容至少包含:(1)对sqoop进行部署配置;(2)使用sqoop采集离线数据;(3)搭建Flume、kafka、zookeeper并进行测试;(4)设置数据主题分发数据至存储系统;3、实训环境提供配套安装包,包含但不限于:sqoop-1.4.7.tar.gz、apache-flume-1.9.0-bin.tar.gz、zookeeper-3.6.1.tar.gz、kafka-2.5.0.tar.gz实训环境提供配套的支持服务或组件,包含但不限于:Hadoop、JDK、hive、mysql、NameNode、DataNode、NodeManager、ResourceManager、JobHistoryServer。五、大数据查询系统搭建:1、实训系统:实验以实际工作中联机数据分析和多维数据分析为场景,涉及数据的采集及数据可视化业务,同时介绍数据访问权限的问题;2、实训内容至少包含:(1)ROLAP系统搭建;(2)数据MOLAP系统搭建;(3)OLAP系统搭建;(4)数据检索系统搭建;3、实训环境提供配套安装包,包含但不限于:trino-jdbc-357.jar、trino-server-357.tar.gz、dbeaver-ce-21.3.2-linux.gtk.x86_64.tar.gz、kylin-3.1.2.tar.gz、apache-druid-0.22.1.tar.gz、node-v12.18.1-linux-x64.tar.gz、yum(ELK);4、实训环境提供配套的支持服务或组件,包含但不限于:Hadoop、JDK、Zookeeper、HBASE,hive,mysql,kafka。六、大数据安全系统搭建;1、实训系统:实验以真实工作中构建大数据所需的集群安全系统作为项目内容,项目至少面向保障数据系统的访问安全,针对不同级别的安全需求,如用户权限、数据权限以及平台安全风险等方面内容,构建完整的大数据安全系统;2、实训内容至少包含:(1)集群安装与用户鉴权;(2)数据访问权限管理;3、实训环境提供配套安装包,包含但不限于:yum(os/ncmp/NTK);4、实训环境提供配套的支持服务或组件,包含但不限于:JDK。七、数据统计分析:1、实训系统:本项目使用来自目前正在进行的对美国马萨诸塞州弗雷明翰镇居民的心血管研究项目的真实数据,可分析和预测患者是否在未来的10年里有患冠心病的风险;2、实训内容至少包含:(1)工程创建;(2)数据获取与观察;(3)数据预处理;(4)数据分析及检验;3、实训环境提供配套的支持服务或组件,包含但不限于:Hadoop、JDK、spark、scala、rstudio、hive、mysqlNameNode,DataNode,NodeManager,R、Rstudio、HiveMetaStore、HiveServer2、ResourceManager,JobHistoryServer。八、数据挖掘建模:1、实训系统:项目为电影推荐项目,该项目应实现movielens网站的个性化电影推荐功能。项目任务应根据网站中所提供的电影数据信息,用以训练推荐模型,并最终实现对不同用户的不同推荐结果;2、实训内容至少包含:(1)数据挖掘前期准备;(2)模型构建;(3)模型评估与部署;3、实训环境提供配套的支持服务或组件,包含但不限于:Hadoop、JDK、spark、Scala、Ancona3、hive、mysql、NameNode、DataNode、Nodemanger、SparkWorker、Anaconda、jupyter、HiveMetaStore、ResourceManager、JobHistoryServer、DataNode、Nodemanger、SparkMaster。九、数据可视化开发:1、实训系统:本项目以创建全球气象仪表板的方式,将后台数据接口中所发出的数据信息呈现在Web页面上。构建前端页面的开发工具众多,本节应使用IDEA工具来构建前端网页;2、实训内容至少包含:(1)工程创建;(2)ECharts 安装及配置;(3)图表基础技能;(4)复杂图表操作;3、实训环境提供配套的支持服务或组件,包含但不限于:VsCode。十、BI数据分析:1、实训系统:项目以实际工作中使用BI工具进行数据分析的项目内容为研究对象,项目内容应包括使用网页版BI工具作为数据分析工具,导入数据仓库中的数据集市层数据,进行数据关联、格式调整,并选择展示字段进行数据可视化图表制作,最终完成BI数据分析;2、实训内容至少包含:(1)BI数据分析数据准备;(2)数据报表制作;3、实训环境提供配套的支持服务或组件,包含但不限于:Metabase、MySQL、JDK。十一、网络数据处理:1、实训系统:实验包含对网站数据进行有针对性的提取和分析,充分实现网络数据价值和利益的最大化,为商业决策提供有效的手段;2、实训内容至少包含:(1)网络数据爬取;(2)数据加载及预处理;(3)数据仓库实现;(4)即席查询、dbeaver查询;(5)任务调度:依次执行各层的shell脚本来实现,使用dolphinscheduler实现任务的自动执行;3、实训环境提供配套的支持服务或组件,包含但不限于:Hadoop、JDK、Zookeeper、maven、idea、hive、mysql、sqoop、dolphin、trino、dolphinscheduler、dbeaver、NameNode,DataNode,NodeManager,jupyter、ResourceManager、JobHistoryServer、sqoop、dolphin logger、dolphin worker,dolphinmaster,dolphinapi。十二、离线数据处理:1、实训系统:本项目以网站点击流数据分析为例,运用大数据实时计算的基本思想,讲解网站点击流的生成、处理和实时分析的基本流程;2、实训内容至少包含:(1)业务系统实现;(2)使用Sqoop将MySQL的业务数据导入到Hive中;(3)数据仓库实现;(4)使用Spark连接到Hive后,编写并执行SparkSQL语句对数据进行处理;(5)任务调度-依次执行各层的shell脚本来实现,使用dolphinscheduler实现任务的自动执行;3、实训环境提供配套的支持服务或组件,包含但不限于:Hadoop、JDK、Zookeeper、hive、sqoop、mysql、dolphinscheduler、spark、scala、maven、idea、NameNode,DataNode,NodeManager,ResourceManage,JobHistoryServer,dolphinmaster,dolphinapi。十三、实时数据处理:1、实训系统:本项目以网站点击流数据分析为例,运用大数据实时计算的基本思想,讲解网站点击流的生成、处理和实时分析的基本流程;2、实训内容至少包含:(1)网页埋点开发;(2)Flume日志收集;(3)kafka信息队列;(4)Spark Streaming实时计算;(5)Druid实时查询;3、实训环境提供配套的支持服务或组件,包含但不限于:Hadoop、JDK、Zookeeper、kafka、spark、scala、IDEA、maven、mysql、druid、turnilo、nginx、flume、NameNode、DataNode、NodeManager、spark-slave、spark-maser、spark-slave、ResourceManager、JobHistoryServer。十四、交互式数据处理:1、实训系统:本项目实验重点讲解使用Kylin对Hive中的数据进行实时聚合查询的方式;2、实训内容至少包含:(1)Kylin基本使用;(2)Kylin流式应用;(3)BI集成;3、实训环境提供配套的支持服务或组件,包含但不限于:Hadoop、JDK、Zookeeper、kafka、HBASE、hive、kylin、mysql、zeppline、NameNode,DataNode,NodeManager,Hmaster、RegionServer、ResourceManager、JobHistoryServer。十五、基于ElasticSearch的数据检索:1、实训系统:实验使用ElasticSearch创建索引对图书信息进行各种类型的检索;2、实训内容至少包含:(1)ELK快速入门;(2)Lucene基础入门;(3)ElasticSearch应用;(4)ELK日志分析;3、实训环境提供配套的支持服务或组件,包含但不限于:JDK、ELK、IDEA、Maven、ElasticSearch、logstash、Kibana、rsyslog。4、大数据工程技术人员实训资源包(初级):≥15个资源包模块,实训项目、操作过程需与依据人力资源社会保障部专业技术人员管理司组织编写的《大数据工程技术人员(初级)》相关教材所匹配,且不接受以多门课程或项目进行拼凑组合的方式响应。 | 1 |
3 | 大数据工程技术人员教学资源(初级) | 1、教学资源均应与人力资源社会保障部专业技术人员管理司组织编写的《大数据工程技术人员(初级)》相关教材相配套。2、教学资源包含训练题库、授课PPT、自学视频等,满足2个方向线上的自学及模拟训练刷题。3、题库共计不少于800道理论题和30道实操题。题库应包含课程的知识题库,素材应符合相关技术规范。4、PPT:(1)教学课件要求带有教学设计,设计开发不少于30个教学课件;教学课件内容贴合实际教学;(2)版式设计独特、新颖、颜色统一;模板朴素、大方,颜色适宜;在模板的适当位置标明课程名称、模块(章或节)序号与模块(章或节)的名称;多个页面均有的相同元素,如背景、按钮、标题、页码等,可以使用幻灯片母版来实现;5、自学视频:共计不少于30个,需包含但不仅限于:大数据基础、大数据分析与挖掘、大数据处理与应用。 | 1 |
4 | 大数据工程技术人员实训资源(中级) | 系统实训资源提供依据人力资源社会保障部专业技术人员管理司组织编写的《大数据工程技术人员(中级)》相关教材开发的实训案例环境、操作过程、实训组件等,包括:一、大数据业务库表结构设计及开发:1、实训系统:本项目涵盖了Hive和HBase库表的设计、开发和数据分析,以及MapReduce编程模型和WordCount案例。详细介绍了环境准备、数据准备、库表创建、数据加载、查询分析等步骤。同时,还包括了HBase和MapReduce的实际操作流程和编程指南。2、实训内容至少包含:(1)Hive 库表设计和开发;①Hive库表设计②Hive库表开发③Hive操作开发(2)HBase 库表设计和开发;①HBase库表设计②HBase库表开发③HBase操作开发3、实训环境提供配套的支持服务或组件,包含但不限于:Hadoop、HBase、Hive、IDEA、JDK、Zookeeper。二、大数据管理平台与工具使用-上:1、实训系统:实训以使用 Ambari 为例介绍大数据大数据管理平台与工具使用。2、实训内容至少包含:(1)集群安装与用户鉴权;①集群环境配置②构建本地YUM源③图形化安装集群3、实训环境提供配套安装包,包含但不限于:MySQL、Hadoop、Zookeeper、metrics。4、实训环境提供配套的支持服务或组件,包含但不限于:YUM本地源。三、大数据管理平台与工具使用-下:1、实训系统:实验一介绍了使用 Hue 集成 Hadoop 进行可视化管理的流程,涵盖 Hue 安装前的环境检查、创建用户与数据库、安装配置 Hue 及相关组件、集群与 Hue 的启动等操作,并说明了如何通过 Hue 访问 HDFS。实验二则讲解了使用 Hue 集成 HBase 进行可视化管理的步骤,包括 HBase 和 Hadoop 的配置、服务重启、HBase shell 操作以及 HUE 访问 HBASE 的方法。2、实训内容至少包含:(1)使用 Hue 集成 Hadoop 进行可视化管理;①环境检查②Hue安装和配置③Hue访问HDFS(2)使用 Hue 集成 HBase 进行可视化管理;①HBase 安装和配置②重启服务③HBase shell操作④Hue访问HBase3、实训环境提供配套安装包,包含但不限于:Hue。4、实训环境提供配套的支持服务或组件,包含但不限于:Hadoop、Hbase、JDK、Zookeeper、MySQL、Python。四、大数据计算服务开发:1、实训系统:实训使用特定预制数据文件。实训内容包括学习 Spark 运行原理,通过基于 ALS 算法的电影推荐案例进行 Spark 开发实践,涵盖 ALS 算法原理、在 spark-shell 中运行算法的步骤,如数据处理、模型构建、评估等;2、实训内容至少包含:(1)Spark 运行原理;①Spark程序入口②Spark运行流程(2)Spark ALS算法案例;①ALS算法基本原理②在Spark-Shell中运行ALS算法3、实训环境提供配套的支持服务或组件,包含但不限于:Spark MLlib、Scala、JDK。五、大数据软件系统搭建:1、实训系统:实训主要包括安装 Hadoop 软件方法与步骤,安装 Spark 软件方法与步骤,安装 Flink 软件方法与步骤;2、实训内容至少包含:(1)安装Hadoop软件方法与步骤;①环境规划②存储目录规划③安装准备④Hadoop安装配置(2)安装Spark软件方法与步骤;①Spark安装配置(3)安装Flink软件方法与步骤;①Flink安装配置3、实训环境提供配套安装包,包含但不限于:JDK、Hadoop、Spark、Flink。六、基于python的数据预处理:1、实训系统:实训按照项目工程思想,主要针对数据结构和数据值两方面存在的问题和预期目标,灵活运用数据清洗、数据整合、数据转换、数据归约等方法进行处理和操作;2、实训内容至少包含:(1)数据结构预处理;①数据提取②数据连接③数据聚合(2)数据值预处理;①数值型转换②分类型转换③日期时间类型转换④文本数据处理3、实训环境提供配套的支持服务或组件,包含但不限于:Python、Pandas、postgres。七、数据可视化:1、实训系统:实训将介绍大数据可视化项目的案例,通过实现某平台2009年-2012年销售数据的可视化来详细讲解数据可视化的过程,包括案例的背景分析、案例的需求分析及案例的可视化分析,可视化分析过程包括项目搭建、数据可视化;2、实训内容至少包含:(1)数据可视化;①案例背景分析②需求分析③可视化分析过程3、实训环境提供配套的支持服务或组件,包含但不限于:VSCode、Node.js、Vue.js、ElementUI。八、数据挖掘-上:1、实训系统:在数据科学中,关联规则用于发现数据集之间的相关性和“共现”(即共同出现),本实训通过python学习关联规则挖掘、聚类分析、综合评价;2、实训内容至少包含:(1)关联规则;①使用场景介绍②实例解析③解决思路④实现代码(2)聚类分析;①使用场景介绍②实例解析③解决思路④实现代码(3)综合评价;①使用场景介绍②实例解析③解决思路④实现代码3、实训环境提供配套的支持服务或组件,包含但不限于:Python、mlxtend、sklearn。九、数据挖掘-下:1、实训系统:分类预测是根据训练数据和类别标号,通过现有数据训练出分类模型,并对新数据进行类别预测的方法。而回归预测是机器学习中常见的一类预测算法。本案例通过python学习分类预测、回归预测;2、实训内容至少包含:(1)分类预测;①使用场景介绍②实例解析③解决思路④实现代码(2)回归预测;①使用场景介绍②实例解析③解决思路④实现代码3、实训环境提供配套的支持服务或组件,包含但不限于:Python、sklearn。十、数据分析-上:1、实训系统:利用Python实现各类分析场景。基于seaborn库中的钻石数据集,探索钻石特征与其价格之间的关系,基于波士顿房屋数据集,预测波士顿地区房屋的中位价值,基于太阳黑子数据集,研究太阳活动的周期性和变化趋势;2、实训内容至少包含:(1)探索性分析;①使用场景介绍②实例解析③解决思路④实现代码(2)多元线性回归分析;①使用场景介绍②实例解析③解决思路④实现代码(3)时间序列;①使用场景介绍②实例解析③解决思路④实现代码3、实训环境提供配套的支持服务或组件,包含但不限于:Python、math、sklearn、seaborn、pandas、matplotlib、statsmodels、numpy、sklearn。十一、数据分析-下:1、实训系统:本案例通过python学习了解主成分分析与因子分析、判别分析等分析方法;2、实训内容至少包含:(1)主成分分析;①使用场景介绍②实例解析③解决思路④实现代码(2)因子分析;①使用场景介绍②实例解析③解决思路④实现代码(3)判别分析;①使用场景介绍②实例解析③解决思路④实现代码3、实训环境提供配套的支持服务或组件,包含但不限于:Python、numpy、pandas、factor_analyzer、matplotlib、seaborn、sklearn。十二、数据采集:1、实训系统:数据采集是一切数据应用的来源,是为了满足数据统计、分析和挖掘的需要,搜集和获取各种数据的过程。本案例主要学习数据采集方案实施、数据迁移实施方案、数据采集脚本开发及调度等;十三、数据表设计:1、实训系统:通过本案例学习如何使用PDManer进行领域模型设计开发以及逻辑数据模型设计和开发等;十四、数据建模:1、实训系统:通过本案例学习如何使用工具实现物理数据模型的设计和开发,了解用例图基本元素,以不同的视角展现系统的功能性需求;十五、基于Postgre的数据预处理:1、实训系统:本案例学习如何对postgre数据库中数据结构预处理及数据库中数值预处理;十六、数据计算:1、实训系统:通过本案例使用SparkSQL和RDD的方式实现数据加载、使用spark实现均数、众数、中位数等指标并基于Flink实现聚合函数结果查询;十七、数据查询:1、实训系统:所谓检索系统,是指根据对信息资源中不同对象和层次揭示上的需要,由文献目录、索引、机读数据库、网络搜索引擎等信息资源检索工具构成的,以不同检索需要为目标的、形式多样的、完备的系统。整个检索系统的最关键的部分必然是进行查询;▲2、大数据工程技术人员实训资源包(中级):在系统中演示≥17个资源包模块,需要展示≥17个资源包名称、布局、所属分类,并详细演示“数据分析-上”资源包。所演示的实训项目、操作过程需与依据人力资源社会保障部专业技术人员管理司组织编写的《大数据工程技术人员(中级)》相关教材所匹配,不匹配视为无效响应,且不接受以多门课程或项目进行拼凑组合的方式响应。(须提供演示视频佐证,视频保存在U盘中提交) | 1 |
5 | 大数据工程技术人员教学资源(中级) | 1、教学资源均应与人力资源社会保障部专业技术人员管理司组织编写的《大数据工程技术人员(中级)》相关教材相配套。2、教学资源包含训练题库、授课PPT、自学视频等,满足2个方向线上的自学及模拟训练刷题。3、题库共计不少于400道理论题和40道实操题。题库应包含课程的知识题库,素材应符合相关技术规范。4、PPT:(1)教学课件要求带有教学设计,设计开发不少于20个教学课件;教学课件内容贴合实际教学;(2)版式设计独特、新颖、颜色统一;模板朴素、大方,颜色适宜,便于长时间观看;在模板的适当位置标明课程名称、模块(章或节)序号与模块(章或节)的名称;多个页面均有的相同元素,如背景、按钮、标题、页码等,可以使用幻灯片母版来实现;5、自学视频:共计不少于60个,需包含但不仅限于:大数据基础、大数据分析、大数据处理。 | 1 |
