集成算法思想
Ⅰ 人工智能领域有哪些书比较值得推荐
机器学习
Programming Collective Intelligence
本书以机器学习与计算统计为主题背景,专门讲述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论,通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息,以便创造新的用户价值和商业价值。
全书内容翔实,包括协作过滤技术(实现关联产品推荐功能)、集群数据分析(在大规模数据集中发掘相似的数据子集)、搜索引擎核心技术(爬虫、索引、查询引擎、PageRank算法等)、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术(垃圾邮件过滤、文本过滤)、用决策树技术实现预测和决策建模功能、社交网络的信息匹配技术、机器学习和人工智能应用等。本书是Web开发者、架构师、应用工程师等的绝佳选择。
Machine Learning for Hackers
Machine Learning for Hackers (中文译名:机器学习-实用案例解析)通过实例讲解机器学习算法,用R实现的,可以一边学习机器学习一边学习R。这是一本实操型的书,重点放在讲怎么用R做数据挖掘,机器学习的算法更多的是通过黑箱的方式来讲,强调input,output含义,弱化机器学习算法细节。文中基本都是通过case来讲述怎么去解决问题,并且提供了原始数据供自己分析。适合两种人:
(1)有过机器学习的一些理论,缺少案例练习
(2)只需掌握怎么用通用的机器学习解决问题的人,只希望知道机器学习算法的大致思想,不想详细学习机器学习中的算法。
Machine Learning by Tom M Mitchell
《Machine Learning》展示了机器学习中核心的算法和理论,并阐明了算法的运行过程。《Machine Learning》综合了许多的研究成果,例如统计学、人工智能、哲学、信息论、生物学、认知科学、计算复杂性和控制论等,并以此来理解问题的背景、算法和其中的隐含假定。《机器学习》可作为计算机专业 本科生、研究生教材,也可作为相关领域研究人员、教师的参考书。
The Elements of Statistical Learning
《The Elements of Statistical Learning》介绍了这些领域的一些重要概念。尽管应用的是统计学方法,但强调的是概念,而不是数学。许多例子附以彩图。《The Elements of Statistical Learning》内容广泛,从有指导的学习(预测)到无指导的学习,应有尽有。包括神经网络、支持向量机、分类树和提升等主题,是同类书籍中介绍得最全面的。
计算和信息技术的飞速发展带来了医学、生物学、财经和营销等诸多领域的海量数据。理解这些数据是一种挑战,这导致了统计学领域新工具的发展,并延伸到诸如数据挖掘、机器学习和生物信息学等新领域。许多工具都具有共同的基础,但常常用不同的术语来表达。
Learning from Data
这是一门机器学习(ML)的入门课程,涵盖其基本理论、算法及应用。机器学习是大数据及金融、医药、商业及科研应用的关键技术。机器学习使得计算系统能够自动学习如何通过数据中提取的信息执行目标任务。机器学习现已成为当下最热门的研究领域之一,也是加州理工学院15个不同专业的本科生和研究生的研修课程。本课程在理论和实践中保持平衡,并涵盖了数学与启发式方法。
Pattern Recognition and Machine Learning
这本书是机器学习的神作之一,必读经典!
人工智能
Artificial Intelligence: A Modern Approach
《Artificial Intelligence: A Modern Approach》以详尽和丰富的资料,从理性智能体的角度,全面阐述了人工智能领域的核心内容,并深入介绍了各个主要的研究方向,是一本难得的综合性教材。
Artificial Intelligence for Humans
这本书阐释了基本的人工智能算法,如维度、距离度量、聚类、误差计算和线性回归等,用了丰富的案例进行阐释。需要较好的数学基础。
Paradigm of Artificial Intelligence Programming
本书介绍了出色的编程范式和基本的AI理论,是致力于人工智能领域的小伙伴的必读之作。
Artificial Intelligence: A New Synthesis
本书提出了统一人工智能理论的新的集成方法,涵盖了诸如神经网络,计算机视觉,启发式搜索,贝叶斯网络等。进阶选手必读。
The Emotion Machine: Commonsense Thinking, Artificial Intelligence and the Future of Human Mind
在这部让人脑洞大开的图书中,科技先锋马文·明斯基继续了他极具创造力的研究,给我们呈现了一个全新的不可思议的人类大脑运转模式。
Artificial Intelligence (3rd Edition)
这是一本关于人工智能的入门书。没有编程基础的人也可以很容易地理解其中的解释和概念。化繁为简,但也包含了高层次的人工智能领域的探讨。
Ⅱ 大数据挖掘的算法有哪些
大数据挖掘的算法:
1.朴素贝叶斯,超级简单,就像做一些数数的工作。如果条件独立假设成立的话,NB将比鉴别模型收敛的更快,所以你只需要少量的训练数据。即使条件独立假设不成立,NB在实际中仍然表现出惊人的好。
2. Logistic回归,LR有很多方法来对模型正则化。比起NB的条件独立性假设,LR不需要考虑样本是否是相关的。与决策树与支持向量机不同,NB有很好的概率解释,且很容易利用新的训练数据来更新模型。如果你想要一些概率信息或者希望将来有更多数据时能方便的更新改进模型,LR是值得使用的。
3.决策树,DT容易理解与解释。DT是非参数的,所以你不需要担心野点(或离群点)和数据是否线性可分的问题,DT的主要缺点是容易过拟合,这也正是随机森林等集成学习算法被提出来的原因。
4.支持向量机,很高的分类正确率,对过拟合有很好的理论保证,选取合适的核函数,面对特征线性不可分的问题也可以表现得很好。SVM在维数通常很高的文本分类中非常的流行。
如果想要或许更多更详细的讯息,建议您去参加CDA数据分析课程。大数据分析师现在有专业的国际认证证书了,CDA,即“CDA 数据分析师”,是在数字经济大背景和人工智能时代趋势下,面向全行业的专业权威国际资格认证, 旨在提升全民数字技能,助力企业数字化转型,推动行业数字化发展。 “CDA 数据分析师”具体指在互联网、金融、零售、咨询、电信、医疗、旅游等行业专门从事数据的采集、清洗、处理、分析并能制作业务报告、 提供决策的新型数据分析人才。点击预约免费试听课。
Ⅲ 机器学习中常用的方法有什么
机器学习中常用的方法有LR,SVM,集成学习,贝叶斯
Ⅳ 关于机器学习应用不得不思考哪些问题
机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。
让我们具体看一个例子。
图4房价的例子
拿国民话题的房子来说。现在我手里有一栋房子需要售卖,我应该给它标上多大的价格?房子的面积是100平方米,价格是100万,120万,还是140万?
很显然,我希望获得房价与面积的某种规律。那么我该如何获得这个规律?用报纸上的房价平均数据么?还是参考别人面积相似的?无论哪种,似乎都并不是太靠谱。
我现在希望获得一个合理的,并且能够最大程度的反映面积与房价关系的规律。于是我调查了周边与我房型类似的一些房子,获得一组数据。这组数据中包含了大大小小房子的面积与价格,如果我能从这组数据中找出面积与价格的规律,那么我就可以得出房子的价格。
对规律的寻找很简单,拟合出一条直线,让它“穿过”所有的点,并且与各个点的距离尽可能的小。
通过这条直线,我获得了一个能够最佳反映房价与面积规律的规律。这条直线同时也是一个下式所表明的函数:房价=面积*a+b
上述中的a、b都是直线的参数。获得这些参数以后,我就可以计算出房子的价格。
假设a=0.75,b=50,则房价=100*0.75+50=125万。这个结果与我前面所列的100万,120万,140万都不一样。由于这条直线综合考虑了大部分的情况,因此从“统计”意义上来说,这是一个最合理的预测。
在求解过程中透露出了两个信息:
1.房价模型是根据拟合的函数类型决定的。如果是直线,那么拟合出的就是直线方程。如果是其他类型的线,例如抛物线,那么拟合出的就是抛物线方程。机器学习有众多算法,一些强力算法可以拟合出复杂的非线性模型,用来反映一些不是直线所能表达的情况。
2.如果我的数据越多,我的模型就越能够考虑到越多的情况,由此对于新情况的预测效果可能就越好。这是机器学习界“数据为王”思想的一个体现。一般来说(不是绝对),数据越多,最后机器学习生成的模型预测的效果越好。
通过我拟合直线的过程,我们可以对机器学习过程做一个完整的回顾。首先,我们需要在计算机中存储历史的数据。接着,我们将这些数据通过机器学习算法进行处理,这个过程在机器学习中叫做“训练”,处理的结果可以被我们用来对新的数据进行预测,这个结果一般称之为“模型”。对新数据的预测过程在机器学习中叫做“预测”。“训练”与“预测”是机器学习的两个过程,“模型”则是过程的中间输出结果,“训练”产生“模型”,“模型”指导“预测”。
Ⅳ 超大规模图神经网络系统真的可以实现赋予机器常识吗
机器学习是人工智能的一个分支。
人工智能的研究历史有着一条从以“推理”为重点,到以“知识”为重点,再到以“学习”为重点的自然、清晰的脉络。
机器学习是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题。
随着越来越多的这类技术变得成熟,机器将会在各种各样的任务上超越人类。
那么,机器是否可以理解自己呢?甚至机器是否可以设计和编码自己本身呢?
可以想象一下,一旦机器做到这一步,那将会带来什么样的颠覆。
Google Brain团队在探索这个领域,他们称之为“自动机器学习”方向。
顶尖的人工智能专家们发现,设计机器学习系统本身这样一个他们最困难的工作之一,也有可能通过AI系统自动完成。
甚至在一些场景下,AI系统自己开发的AI系统已经赶上甚至超过了人类专家。
国外着名科技记者 Steven Levy 在他刊于 BackChannel 的文章《谷歌如何将自己重塑为一家“机器学习为先”的公司》中提到,谷歌大脑负责人 Jeff Dean 表示,如果现在让他改写谷歌的基础设施,大部分代码都不会由人编码,而将由机器学习自动生成。
学术界也有相关研究,伯克利的 Ke Li 和 Jitendra Malik 在他们日前提交的论文《Learning to Optimize》中提出了让算法自我优化的方法。
他们在论文摘要中写道,“算法设计是一个费力的过程,通常需要许多迭代的思想和验证。 在本文中,我们探讨自动化算法设计,并提出了一种方法学习自动优化算法”。
从强化学习的角度入手,Ke Li 和 Jitendra Malik 使用指导性策略搜索来让 AI 学习优化算法,并且证明了他们所设计的算法在收敛速度和/或最终目标值方面优于现有的手工编程开发的算法。
Ⅵ pso的算法结构
对微粒群算法结构的改进方案有很多种,对其可分类为:采用多个子种群;改进微粒学习对象的选取策略;修改微粒更新迭代公式;修改速度更新策略;修改速度限制方法、位置限制方法和动态确定搜索空间;与其他搜索技术相结合;以及针对多模问题所作的改进。
第一类方案是采用多个子种群。柯晶考虑优化问题对收敛速度和寻优精度的双重要求并借鉴多群体进化算法的思想,将寻优微粒分成两组,一组微粒采用压缩因子的局部模式PSO算法,另一组微粒采用惯性权重的全局模式PSO算法,两组微粒之间采用环形拓扑结构。对于高维优化问题,PSO算法需要的微粒个数很多,导致计算复杂度常常很高,并且很难得到好的解。因此,出现了一种协作微粒群算法(Cooperative ParticleSwarm Optimizer, CPSO-H),将输入向量拆分成多个子向量,并对每个子向量使用一个微粒群来进行优化。虽然CPSO-H算法使用一维群体来分别搜索每一维,但是这些搜索结果被一个全局群体集成起来之后,在多模问题上的性能与原始PSO算法相比有很大的改进。Chow使用多个互相交互的子群,并引入相邻群参考速度。冯奇峰提出将搜索区域分区,使用多个子群并通过微粒间的距离来保持多样性。陈国初将微粒分成飞行方向不同的两个分群,其中一分群朝最优微粒飞行,另一分群微粒朝相反方向飞行;飞行时,每一微粒不仅受到微粒本身飞行经验和本分群最优微粒的影响,还受到全群最优微粒的影响。Niu在PSO算法中引入主—从子群模式,提出一种多种群协作PSO算法。Seo提出一种多组PSO算法(Multigrouped PSO),使用N组微粒来同时搜索多模问题的N个峰。Selleri使用多个独立的子群,在微粒速度的更新方程中添加了一些新项,分别使得微粒向子群历史最优位置运动,或者远离其他子群的重心。王俊年借鉴递阶编码的思想,构造出一种多种群协同进化PSO算法。高鹰借鉴生态学中环境和种群竞争的关系,提出一种基于种群密度的多种群PSO算法。
第二类方案是改进微粒学习对象的选取策略。Al-kazemi提出多阶段PSO算法,将微粒按不同阶段的临时搜索目标分组,这些临时目标允许微粒向着或背着它自己或全局最好位置移动。Ting对每个微粒的pBest进行操作,每一维从其他随机确定的维度学习,之后如果新的pBest更好则替换原pBest;该文还比较了多种不同学习方式对应的PSO算法的性能。Liang提出一种新颖的学习策略CLPSO,利用所有其他微粒的历史最优信息来更新微粒的速度;每个微粒可以向不同的微粒学习,并且微粒的每一维可以向不同的微粒学习。该策略能够保持群体的多样性,防止早熟收敛,可以提高PSO算法在多模问题上的性能;通过实验将该算法与其它几种PSO算法的变种进行比较,实验结果表明该算法在解决多模复杂问题时效果很好。Zhao在PSO算法中使用适应值最好的n个值来代替速度更新公式中的gBest。Abdelbar提出一种模糊度量,从而使得每个邻域中有多个适应值最好的微粒可以影响其它微粒。Wang也采用多个适应值最好的微粒信息来更新微粒速度,并提出一种模糊规则来自适应地确定参数。崔志华提出一种动态调整的改进PSO算法,在运行过程中动态调整极限位置,使得每个微粒的极限位置在其所经历的最好位置与整体最好位置所形成的动态圆中分布。与原始PSO算法相反,有一类方法是远离最差位置而非飞向最优位置。Yang提出在算法中记录最差位置而非最优位置,所有微粒都远离这些最差位置。与此类似,Leontitsis在微粒群算法中引入排斥子的概念,在使用个体最优位置和群体最优位置信息的同时,在算法中记录当前的个体最差位置和群体最差位置,并利用它们将微粒排斥到最优位置,从而让微粒群更快地到达最优位置。孟建良提出一种改进的PSO算法,在进化的初期,微粒以较大的概率向种群中其他微粒的个体最优学习;在进化后期,微粒以较大的概率向当前全局最优个体学习。Yang在PSO算法中引入轮盘选择技术来确定gBest,使得所有个体在进化早期都有机会引领搜索方向,从而避免早熟。
第三类方案是修改微粒更新公式。Hendtlass在速度更新方程中给每个微粒添加了记忆能力。He在速度更新方程中引入被动聚集机制。曾建潮通过对PSO算法的速度进化迭代方程进行修正,提出一种保证全局收敛的随机PSO算法。Zeng在PSO算法中引入加速度项,使得PSO算法从一个二阶随机系统变为一个三阶随机系统,并使用PID控制器来控制算法的演化。为了改进PSO算法的全局搜索能力,Ho提出一种新的微粒速度和位置更新公式,并引入寿命(Age)变量。
第四类方案是修改速度更新策略。Liu认为过于频繁的速度更新会弱化微粒的局部开采能力并减慢收敛,因此提出一种松弛速度更新(RVU)策略,仅当微粒使用原速度不能进一步提高适应值时才更新速度,并通过试验证明该策略可以大大减小计算量并加速收敛。罗建宏对同步模式和异步模式的PSO算法进行了对比研究,试验结果表明异步模式收敛速度显着提高,同时寻优效果更好。Yang在微粒的更新规则中引入感情心理模型。Liu采用一个最小速度阈值来控制微粒的速度,并使用一个模糊逻辑控制器来自适应地调节该最小速度阈值。张利彪提出了对PSO算法增加更新概率,对一定比例的微粒并不按照原更新公式更新,而是再次随机初始化。Dioan利用遗传算法(GA)来演化PSO算法的结构,即微粒群中各微粒更新的顺序和频率。
第五类方案是修改速度限制方法、位置限制方法和动态确定搜索空间。Stacey提出一种重新随机化速度的速度限制和一种重新随机化位置的位置限制。Liu在[76]的基础上,在PSO算法中引入动量因子,来将微粒位置限制在可行范围内。陈炳瑞提出一种根据微粒群的最佳适应值动态压缩微粒群的搜索空间与微粒群飞行速度范围的改进PSO算法。
第六类方案是通过将PSO算法与一些其他的搜索技术进行结合来提高PSO算法的性能,主要目的有二,其一是提高种群多样性,避免早熟;其二是提高算法局部搜索能力。这些混合算法包括将各种遗传算子如选择、交叉、变异引入PSO算法,来增加种群的多样性并提高逃离局部最小的能力。Krink通过解决微粒间的冲突和聚集来增强种群多样性,提出一种空间扩展PSO算法(Spatial ExtensionPSO,SEPSO);但是SEPSO算法的参数比较难以调节,为此Monson提出一种自适应调节参数的方法。用以提高种群多样性的其他方法或模型还包括“吸引—排斥”、捕食—被捕食模型、耗散模型、自组织模型、生命周期模型(LifeCycle model)、贝叶斯优化模型、避免冲突机制、拥挤回避(Crowd Avoidance)、层次化公平竞争(HFC)、外部记忆、梯度下降技术、线性搜索、单纯形法算子、爬山法、劳动分工、主成分分析技术、卡尔曼滤波、遗传算法、随机搜索算法、模拟退火、禁忌搜索、蚁群算法(ACO)、人工免疫算法、混沌算法、微分演化、遗传规划等。还有人将PSO算法在量子空间进行了扩展。Zhao将多主体系统(MAS)与PSO算法集成起来,提出MAPSO算法。Medasani借鉴概率C均值和概率论中的思想对PSO算法进行扩展,提出一种概率PSO算法,让算法分勘探和开发两个阶段运行。
第七类方案专门针对多模问题,希望能够找到多个较优解。为了能使PSO算法一次获得待优化问题的多个较优解,Parsopoulos使用了偏转(Deflection)、拉伸(Stretching)和排斥(Repulsion)等技术,通过防止微粒运动到之前已经发现的最小区域,来找到尽可能多的最小点。但是这种方法会在检测到的局部最优点两端产生一些新的局部最优点,可能会导致优化算法陷入这些局部最小点。为此,Jin提出一种新的函数变换形式,可以避免该缺点。基于类似思想,熊勇提出一种旋转曲面变换方法。
保持种群多样性最简单的方法,是在多样性过小的时候,重置某些微粒或整个微粒群。Lvbjerg在PSO算法中采用自组织临界性作为一种度量,来描述微粒群中微粒相互之间的接近程度,来确定是否需要重新初始化微粒的位置。Clerc提出了一种“Re-Hope”方法,当搜索空间变得相当小但是仍未找到解时(No-Hope),重置微粒群。Fu提出一种带C-Pg变异的PSO算法,微粒按照一定概率飞向扰动点而非Pg。赫然提出了一种自适应逃逸微粒群算法,限制微粒在搜索空间内的飞行速度并给出速度的自适应策略。
另一种变种是小生境PSO算法,同时使用多个子种群来定位和跟踪多个最优解。Brits还研究了一种通过调整适应值计算方式的方法来同时找到多个最优解。Li在PSO算法中引入适应值共享技术来求解多模问题。Zhang在PSO算法中采用顺序生境(SequentialNiching)技术。在小生境PSO算法的基础上,还可以使用向量点积运算来确定各个小生境中的候选解及其边界,并使该过程并行化,以获得更好的结果。但是,各种小生境PSO算法存在一个共同的问题,即需要确定一个小生境半径,且算法性能对该参数很敏感。为解决该问题,Bird提出一种自适应确定niching参数的方法。
Hendtlass在PSO算法中引入短程力的概念,并基于此提出一种WoSP算法,可以同时确定多个最优点。刘宇提出一种多模态PSO算法,用聚类算法对微粒进行聚类,动态地将种群划分成几个类,并且使用微粒所属类的最优微粒而非整个种群的最好微粒来更新微粒的速度,从而可以同时得到多个近似最优解。Li在PSO算法中引入物种的概念,但是由于其使用的物种间距是固定的,该方法只适用于均匀分布的多模问题;为此,Yuan对该算法进行扩展,采用多尺度搜索方法对物种间距加以自适应的调整。
此外,也有研究者将PSO算法的思想引入其他算法中,如将PSO算法中微粒的运动规则嵌入到进化规划中,用PSO算法中的运动规则来替代演化算法中交叉算子的功能。
Ⅶ 海洋环境数据集成
2.2.3.1 基于元数据的海洋数据集成
地理空间数据的元数据是指地理空间相关数据集和信息资源的描述信息,它是对空间特征的概括和抽取。元数据信息可提供空间数据集的特征资料,数据用户可据此来确定该数据的名称、来源、组织结构、适用范围等。而地理空间元数据是关于数据的数据,在地理空间信息中用于描述地理空间数据集的内容、质量、表示方式、空间参考、管理方式以及数据集的其他特征,是实现地理空间信息共享的核心标准之一。地理空间元数据目前的一个典型应用就是利用互联网进行地理信息的查询和检索。拓展开来,利用地理空间元数据可以建立空间信息的数据目录和数据交换中心,利用这些元数据,用户可以发现、获取、理解相关的空间数据及其服务信息(梅琨,边馥苓,2006; 陈述彭等,1999)。因而,可以认为地理空间元数据是地理空间信息服务的基础。
目前对 WebGIS 中元数据的研究多数停留在理论研究上,从系统开发实践的角度,对系统分析、设计和应用中的元数据的应用研究还存在明显的不足。要从根本上解决服务动态智能组合实现困难,本研究认为 Web 服务注册标准及细粒度封装是很有必要的。可以从源头上解决服务调用过程中会出现的种种问题。解决服务动态智能组合实现困难,首先要从服务的源头开始标准化,用户注册自己的服务,要遵循一定的标准,即,输入的元数据信息的内容和格式要严格按照一定的标准,对于 GIS 服务,要遵照 GIS 领域的标准来注册。强制服务注册用户按标准来发布服务,可以实现同类型服务的统一,便于开发用户在使用服务时,动态调用和智能组合(王方雄等,2005; 张佩云等,2007; 陈哲强等,2007)。
基于元数据的分布式共享框架不足之处,在于实现了具有相同数据模型和结果的异地读取,即只是一种异地同质数据的共享,还不能实现异地异质数据的共享,也不能把发布在异地的数据一体化,更不能解决数据库的无缝组织问题。虽然这种分布式空间数据库在数据转换方面有一些不足,但却是目前 GIS 海量数据共享的比较好的解决方案之一。因为该种方式利于数据的独立性,使用户看到一个完整的内容,逻辑统一的数据库,可以方便地访问任何数据,而不需要知道数据实际的物理存储,符合地理数据分布的特点(陈爱军等,2002)。
2.2.3.2 海洋环境数据集成模式
在海洋时空数据的广泛应用中,存储格式的多样性是多源海洋时空数据集成的瓶颈,目前对于格式不同的多源海洋环境数据,主要有如下集成模式。
(1)数据格式转换模式: 在这种模式下,其他数据格式经专门的数据转换程序进行格式转换后,复制到当前系统中的数据库或文件中。
(2)数据互操作模式: 该模式是 Open GIS Consortium(OGC)制定的规范。OGC 是为了发展开放式地理数据系统、研究地学空间信息标准化以及处理方法的一个非营利组织。空间数据互操作是指在异构数据库和分布计算的情况下,用户在相互理解的基础上,能透明地获取所需的空间信息。OGC 为数据互操作制定了统一的规范,从而使得一个系统同时支持不同的空间数据格式成为可能。根据 OGC 颁布的规范,可以把提供数据源的软件称为数据服务器(Data Servers),把使用数据的软件称为数据客户(Data Clients),数据客户使用某种数据的过程就是发出数据请求,由数据服务器提供服务的过程,其最终目是使数据客户能读取任意数据服务器提供的空间数据。OGC 规范基于 OMG 的 CORBA、Mi-crosoft 的 OLE/COM 以及 SQL 等,为实现不同平台间服务器和客户端之间数据请求和服务提供了统一的协议。OGC 规范得到 OMG 和 ISO 的承认,从而逐渐成为一种国际标准,将被越来越多的 GIS 软件以及研究者所接受和采纳。目前,还没有商业化 GIS 软件完全支持这一规范。
(3)海洋时空数据的直接访问模式: 直接数据访问指在一个软件平台中实现对其他软件数据格式的直接访问,用户可以使用单个软件存取多种数据格式。直接数据访问不仅避免了繁琐的数据转换,而且在一个软件中访问某种软件的数据格式不要求用户拥有该数据格式的宿主软件,更不需要该软件运行。直接数据访问提供了一种更为经济实用的多源海洋时空数据集成模式。刘志强等(2005)提出了网络环境下实现多源地理空间数据集成的方法———基于空间元数据的分布式部件方法,该方法借鉴了 ODBC 数据集成的思想,以数据集成中间件的形式屏蔽多源地理空间数据的异构性,有效地解决了地理数据集成过程中的地理数据位置透明性和存储格式问题,其分布式部件可以位于不同的数据服务器上,提供一定的数据互操作能力。但是该数据集成中间件要根据数据格式的不同调用不同的设计获取部件,容易造成集成中间件的庞大。解决多格式数据集成和共享一直是近年来GIS 应用系统开发中需要解决的重大问题,也是海洋时空数据应用亟待解决的问题。
2.2.3.3 基于地理本体的海洋数据集成
由于目前对空间数据语义的形式化表达存在诸多缺陷,从而影响了基于语义的 GIS 空间数据集成。而本体作为共享概念模型的明确的形式化规范说明,能够提供与数据有关的概念模型或学科感知的信息,并形式化地描述领域知识、共享词汇和词汇间相互关系。同时,由于本体与数据可以分别存储在不同的结构中,并通过映射方法建立与数据的联系,既可以为数据提供形式化语义,又避免了为语义上同类的数据提供相同语义描述所带来的冗余,还可以与多个不同的数据集合建立映射关系,从而实现了本体的重用。因此,传统的数据库和信息集成领域已有许多学者提出了基于本体的语义集成方法。GIS 领域,国际上也已经有些学者提出了基于本体的地理空间数据集成方法。
针对海岸带及近海空间数据的多语义、多源、多尺度和时空多变的复杂特性,在分析国际上关于基于本体的地理空间数据集成方法的基础上,王敬贵(2005)提出了基于地理本体的多源空间数据集成方法,并把问题具体到海岸带及近海领域进行方法和关键技术的研究。该方法从空间数据生产过程的概念模型入手,首先建立对应于多源空间数据各自的本体模型(概念模型),进而进行不同本体模型的集成,然后通过本体模型到底层数据模型之间的映射关系,实现从海岸带及近海多源空间数据从语义到物理层数据的有效集成。
图 2.4 示出基于本体的海岸及近海空间数据集成的示意图。图中由竖虚线分开的右半部分表示从客观世界到底层数据世界的抽象过程,左半部分是在这一抽象过程之上的数据集成方法。由横线分割开的两部分分别表示两种不同的集成体系。其中下半部分反映的是现有的 GIS 空间数据集成思路和策略,即从数据本身的逻辑和物理模型出发开展集成理论和具体方法,正如所述。在此所提出的方法则由把这两个部分(横虚线分割的两部分)统一起来进行数据的集成,采用自上而下的思路先完成数据对应的本体模型的集成,再结合自下而上的数据自身的集成方法,最终实现空间数据完全集成。
图 2.4 基于本体的海岸带及海洋空间数据集成示意图
2.2.3.4 集成总体框架
如图 2.5 所示,基于上述的技术思路,在这里给出基于地理本体的多源空间数据集成的总体框架。这种数据集成方法以数据所对应的本体集成为前提,在本体集成的基础上派生出多源数据之间的数据映射关系和操作关系,从而通过概念的映射和数据的各种操作转换实现集成。
图 2.5 中,虚线左边的部分是地理本体的集成流程,右边部分是以本体驱动的数据集成流程。其中左边关于本体的集成流程主要有以下几步骤:
首先,分析存储在海岸带及近海综合数据库中的多源数据和空间数据文件,对来自不同领域数据生产者的数据进行信息本体模型的建立; 由于数据生产者的领域背景和应用目的相同,导致各自所获取数据所隐含的信息本体模型也各不相同,因此会有多个不同的信息本体模型对应于底层的数据库或者数据文件。
其次,从集成的角度对海岸带及近海进行集成角度下对客观世界的抽象模式,针对集成应用目标,结合海岸带及海洋的领域知识和相应地领域模型,构建海岸带及近海的标准本体; 然后,把底层数据的信息本体模型分别与标准的本体模型进行概念和语义的匹配分析,在共享术语表和公共的属性模板下实现本体的集成过程。
具体的本体集成是将两个本体中的所有概念进行比较并确立它们之间关系,然后将这些概念及其关系重新定义为标准本体的过程。图 2.5 中右边关于数据集成流程的部分主要有以下步骤:
图 2.5 基于本体的空间数据集成总体框架
首先,根据本体集成过程中建立的数据信息本体模型与标准本体模型中各个概念之间的关系,确立与各本体中概念相关联的数据类或者数据文件转换到集成本体的数据集所需要的操作集合(分割、合并等);
其次,根据在本体建模时构建的本体转换器,进行相应的数据抽取;
然后,把这些抽取出来的多个数据集按照操作集合给出的算法进行模型运算从而生成满足集成本体抽象模式的集成数据库。
数据类的转换包括不同类之间的直接转换、多个类融合转换为一个新类、一个类的多个子类转换为多个新类或多个新类的子类等情况。最后的这个环节还需参考现有的 GIS 模式集成具体算法。
这种基于地理本体的空间数据集成方法系一种新的研究思路,由于地理本体通过对地理概念及其关系的形式化表达,为数据库中的数据提供丰富的形式化语义,通过用户集成本体和数据生产者信息本体的比较或匹配提取需要的数据集,并结合地学表达和各种应用分析方法,根据需要灵活组合以完成具体应用目标。本体模型实现了知识重用和共享,也是不同信息群体间进行信息交流和通讯的有效途径,从而完成语义的互操作。
Ⅷ 大数据时代的数据怎么挖掘
3月13日下午,南京邮电大学计算机学院、软件学院院长、教授李涛在CIO时代APP微讲座栏目作了题为《大数据时代的数据挖掘》的主题分享,深度诠释了大数据及大数据时代下的数据挖掘。
众所周知,大数据时代的大数据挖掘已成为各行各业的一大热点。
一、数据挖掘
在大数据时代,数据的产生和收集是基础,数据挖掘是关键,数据挖掘可以说是大数据最关键也是最基本的工作。通常而言,数据挖掘也称为DataMining,或知识发现Knowledge Discovery from Data,泛指从大量数据中挖掘出隐含的、先前未知但潜在的有用信息和模式的一个工程化和系统化的过程。
不同的学者对数据挖掘有着不同的理解,但个人认为,数据挖掘的特性主要有以下四个方面:
1.应用性(A Combination of Theory and Application):数据挖掘是理论算法和应用实践的完美结合。数据挖掘源于实际生产生活中应用的需求,挖掘的数据来自于具体应用,同时通过数据挖掘发现的知识又要运用到实践中去,辅助实际决策。所以,数据挖掘来自于应用实践,同时也服务于应用实践,数据是根本,数据挖掘应以数据为导向,其中涉及到算法的设计与开发都需考虑到实际应用的需求,对问题进行抽象和泛化,将好的算法应用于实际中,并在实际中得到检验。
2.工程性(An Engineering Process):数据挖掘是一个由多个步骤组成的工程化过程。数据挖掘的应用特性决定了数据挖掘不仅仅是算法分析和应用,而是一个包含数据准备和管理、数据预处理和转换、挖掘算法开发和应用、结果展示和验证以及知识积累和使用的完整过程。而且在实际应用中,典型的数据挖掘过程还是一个交互和循环的过程。
3.集合性(A Collection of Functionalities):数据挖掘是多种功能的集合。常用的数据挖掘功能包括数据探索分析、关联规则挖掘、时间序列模式挖掘、分类预测、聚类分析、异常检测、数据可视化和链接分析等。一个具体的应用案例往往涉及多个不同的功能。不同的功能通常有不同的理论和技术基础,而且每一个功能都有不同的算法支撑。
4.交叉性(An Interdisciplinary Field):数据挖掘是一门交叉学科,它利用了来自统计分析、模式识别、机器学习、人工智能、信息检索、数据库等诸多不同领域的研究成果和学术思想。同时一些其他领域如随机算法、信息论、可视化、分布式计算和最优化也对数据挖掘的发展起到重要的作用。数据挖掘与这些相关领域的区别可以由前面提到的数据挖掘的3个特性来总结,最重要的是它更侧重于应用。
综上所述,应用性是数据挖掘的一个重要特性,是其区别于其他学科的关键,同时,其应用特性与其他特性相辅相成,这些特性在一定程度上决定了数据挖掘的研究与发展,同时,也为如何学习和掌握数据挖掘提出了指导性意见。如从研究发展来看,实际应用的需求是数据挖掘领域很多方法提出和发展的根源。从最开始的顾客交易数据分析(market basket analysis)、多媒体数据挖掘(multimedia data mining)、隐私保护数据挖掘(privacy-preserving data mining)到文本数据挖掘(text mining)和Web挖掘(Web mining),再到社交媒体挖掘(social media mining)都是由应用推动的。工程性和集合性决定了数据挖掘研究内容和方向的广泛性。其中,工程性使得整个研究过程里的不同步骤都属于数据挖掘的研究范畴。而集合性使得数据挖掘有多种不同的功能,而如何将多种功能联系和结合起来,从一定程度上影响了数据挖掘研究方法的发展。比如,20世纪90年代中期,数据挖掘的研究主要集中在关联规则和时间序列模式的挖掘。到20世纪90年代末,研究人员开始研究基于关联规则和时间序列模式的分类算法(如classification based on association),将两种不同的数据挖掘功能有机地结合起来。21世纪初,一个研究的热点是半监督学习(semi-supervised learning)和半监督聚类(semi-supervised clustering),也是将分类和聚类这两种功能有机结合起来。近年来的一些其他研究方向如子空间聚类(subspace clustering)(特征抽取和聚类的结合)和图分类(graph classification)(图挖掘和分类的结合)也是将多种功能联系和结合在一起。最后,交叉性导致了研究思路和方法设计的多样化。
前面提到的是数据挖掘的特性对研究发展及研究方法的影响,另外,数据挖掘的这些特性对如何学习和掌握数据挖掘提出了指导性的意见,对培养研究生、本科生均有一些指导意见,如应用性在指导数据挖掘时,应熟悉应用的业务和需求,需求才是数据挖掘的目的,业务和算法、技术的紧密结合非常重要,了解业务、把握需求才能有针对性地对数据进行分析,挖掘其价值。因此,在实际应用中需要的是一种既懂业务,又懂数据挖掘算法的人才。工程性决定了要掌握数据挖掘需有一定的工程能力,一个好的数据额挖掘人员首先是一名工程师,有很强大的处理大规模数据和开发原型系统的能力,这相当于在培养数据挖掘工程师时,对数据的处理能力和编程能力很重要。集合性使得在具体应用数据挖掘时,要做好底层不同功能和多种算法积累。交叉性决定了在学习数据挖掘时要主动了解和学习相关领域的思想和技术。
因此,这些特性均是数据挖掘的特点,通过这四个特性可总结和学习数据挖掘。
二、大数据的特征
大数据(bigdata)一词经常被用以描述和指代信息爆炸时代产生的海量信息。研究大数据的意义在于发现和理解信息内容及信息与信息之间的联系。研究大数据首先要理清和了解大数据的特点及基本概念,进而理解和认识大数据。
研究大数据首先要理解大数据的特征和基本概念。业界普遍认为,大数据具有标准的“4V”特征:
1.Volume(大量):数据体量巨大,从TB级别跃升到PB级别。
2.Variety(多样):数据类型繁多,如网络日志、视频、图片、地理位置信息等。
3.Velocity(高速):处理速度快,实时分析,这也是和传统的数据挖掘技术有着本质的不同。
4.Value(价值):价值密度低,蕴含有效价值高,合理利用低密度价值的数据并对其进行正确、准确的分析,将会带来巨大的商业和社会价值。
上述“4V”特点描述了大数据与以往部分抽样的“小数据”的主要区别。然而,实践是大数据的最终价值体现的唯一途径。从实际应用和大数据处理的复杂性看,大数据还具有如下新的“4V”特点:
5.Variability(变化):在不同的场景、不同的研究目标下数据的结构和意义可能会发生变化,因此,在实际研究中要考虑具体的上下文场景(Context)。
6.Veracity(真实性):获取真实、可靠的数据是保证分析结果准确、有效的前提。只有真实而准确的数据才能获取真正有意义的结果。
7.Volatility(波动性)/Variance(差异):由于数据本身含有噪音及分析流程的不规范性,导致采用不同的算法或不同分析过程与手段会得到不稳定的分析结果。
8.Visualization(可视化):在大数据环境下,通过数据可视化可以更加直观地阐释数据的意义,帮助理解数据,解释结果。
综上所述,以上“8V”特征在大数据分析与数据挖掘中具有很强的指导意义。
三、大数据时代下的数据挖掘
在大数据时代,数据挖掘需考虑以下四个问题:
大数据挖掘的核心和本质是应用、算法、数据和平台4个要素的有机结合。
因为数据挖掘是应用驱动的,来源于实践,海量数据产生于应用之中。需用具体的应用数据作为驱动,以算法、工具和平台作为支撑,最终将发现的知识和信息应用到实践中去,从而提供量化的、合理的、可行的、且能产生巨大价值的信息。
挖掘大数据中隐含的有用信息需设计和开发相应的数据挖掘和学习算法。算法的设计和开发需以具体的应用数据作为驱动,同时在实际问题中得到应用和验证,而算法的实现和应用需要高效的处理平台,这个处理平台可以解决波动性问题。高效的处理平台需要有效分析海量数据,及时对多元数据进行集成,同时有力支持数据化对算法及数据可视化的执行,并对数据分析的流程进行规范。
总之,应用、算法、数据、平台这四个方面相结合的思想,是对大数据时代的数据挖掘理解与认识的综合提炼,体现了大数据时代数据挖掘的本质与核心。这四个方面也是对相应研究方面的集成和架构,这四个架构具体从以下四个层面展开:
应用层(Application):关心的是数据的收集与算法验证,关键问题是理解与应用相关的语义和领域知识。
数据层(Data):数据的管理、存储、访问与安全,关心的是如何进行高效的数据使用。
算法层(Algorithm):主要是数据挖掘、机器学习、近似算法等算法的设计与实现。
平台层(Infrastructure):数据的访问和计算,计算平台处理分布式大规模的数据。
综上所述,数据挖掘的算法分为多个层次,在不同的层面有不同的研究内容,可以看到目前在做数据挖掘时的主要研究方向,如利用数据融合技术预处理稀疏、异构、不确定、不完整以及多来源数据;挖掘复杂动态变化的数据;测试通过局部学习和模型融合所得到的全局知识,并反馈相关信息给预处理阶段;对数据并行分布化,达到有效使用的目的。
四、大数据挖掘系统的开发
1.背景目标
大数据时代的来临使得数据的规模和复杂性都出现爆炸式的增长,促使不同应用领域的数据分析人员利用数据挖掘技术对数据进行分析。在应用领域中,如医疗保健、高端制造、金融等,一个典型的数据挖掘任务往往需要复杂的子任务配置,整合多种不同类型的挖掘算法以及在分布式计算环境中高效运行。因此,在大数据时代进行数据挖掘应用的一个当务之急是要开发和建立计算平台和工具,支持应用领域的数据分析人员能够有效地执行数据分析任务。
之前提到一个数据挖掘有多种任务、多种功能及不同的挖掘算法,同时,需要一个高效的平台。因此,大数据时代的数据挖掘和应用的当务之急,便是开发和建立计算平台和工具,支持应用领域的数据分析人员能够有效地执行数据分析任务。
2.相关产品
现有的数据挖掘工具
有Weka、SPSS和SQLServer,它们提供了友好的界面,方便用户进行分析,然而这些工具并不适合进行大规模的数据分析,同时,在使用这些工具时用户很难添加新的算法程序。
流行的数据挖掘算法库
如Mahout、MLC++和MILK,这些算法库提供了大量的数据挖掘算法。但这些算法库需要有高级编程技能才能进行任务配置和算法集成。
最近出现的一些集成的数据挖掘产品
如Radoop和BC-PDM,它们提供友好的用户界面来快速配置数据挖掘任务。但这些产品是基于Hadoop框架的,对非Hadoop算法程序的支持非常有限。没有明确地解决在多用户和多任务情况下的资源分配。
3.FIU-Miner
为解决现有工具和产品在大数据挖掘中的局限性,我们团队开发了一个新的平台——FIU-Miner,它代表了A Fast,Integrated,and User-Friendly System for Data Miningin Distributed Environment。它是一个用户友好并支持在分布式环境中进行高效率计算和快速集成的数据挖掘系统。与现有数据挖掘平台相比,FIU-Miner提供了一组新的功能,能够帮助数据分析人员方便并有效地开展各项复杂的数据挖掘任务。
与传统的数据挖掘平台相比,它提供了一些新的功能,主要有以下几个方面:
A.用户友好、人性化、快速的数据挖掘任务配置。基于“软件即服务”这一模式,FIU-Miner隐藏了与数据分析任务无关的低端细节。通过FIU-Miner提供的人性化用户界面,用户可以通过将现有算法直接组装成工作流,轻松完成一个复杂数据挖掘问题的任务配置,而不需要编写任何代码。
B.灵活的多语言程序集成。允许用户将目前最先进的数据挖掘算法直接导入系统算法库中,以此对分析工具集合进行扩充和管理。同时,由于FIU-Miner能够正确地将任务分配到有合适运行环境的计算节点上,所以对这些导入的算法没有实现语言的限制。
C.异构环境中有效的资源管理。FIU-Miner支持在异构的计算环境中(包括图形工作站、单个计算机、和服务器等)运行数据挖掘任务。FIU-Miner综合考虑各种因素(包括算法实现、服务器负载平衡和数据位置)来优化计算资源的利用率。
D.有效的程序调度和执行。
应用架构上包括用户界面层、任务和系统管理层、逻辑资源层、异构的物理资源层。这种分层架构充分考虑了海量数据的分布式存储、不同数据挖掘算法的集成、多重任务的配置及系统用户的交付功能。一个典型的数据挖掘任务在应用之中需要复杂的主任务配置,整合多种不同类型的挖掘算法。因此,开发和建立这样的计算平台和工具,支持应用领域的数据分析人员进行有效的分析是大数据挖掘中的一个重要任务。
FIU-Miner系统用在了不同方面:如高端制造业、仓库智能管理、空间数据处理等,TerraFly GeoCloud是建立在TerraFly系统之上的、支持多种在线空间数据分析的一个平台。提供了一种类SQL语句的空间数据查询与挖掘语言MapQL。它不但支持类SQL语句,更重要的是可根据用户的不同要求,进行空间数据挖掘,渲染和画图查询得到空间数据。通过构建空间数据分析的工作流来优化分析流程,提高分析效率。
制造业是指大规模地把原材料加工成成品的工业生产过程。高端制造业是指制造业中新出现的具有高技术含量、高附加值、强竞争力的产业。典型的高端制造业包括电子半导体生产、精密仪器制造、生物制药等。这些制造领域往往涉及严密的工程设计、复杂的装配生产线、大量的控制加工设备与工艺参数、精确的过程控制和材料的严格规范。产量和品质极大地依赖流程管控和优化决策。因此,制造企业不遗余力地采用各种措施优化生产流程、调优控制参数、提高产品品质和产量,从而提高企业的竞争力。
在空间数据处理方面,TerraFly GeoCloud对多种在线空间数据分析。对传统数据分析而言,其难点在于MapQL语句比较难写,任务之间的关系比较复杂,顺序执行之间空间数据分许效率较低。而FIU-Miner可有效解决以上三个难点。
总结而言,大数据的复杂特征对数据挖掘在理论和算法研究方面提出了新的要求和挑战。大数据是现象,核心是挖掘数据中蕴含的潜在信息,并使它们发挥价值。数据挖掘是理论技术和实际应用的完美结合。数据挖掘是理论和实践相结合的一个例子。
Ⅸ 计算机专业分类
目前我国计算机专业主要分为三大类:计算机基础专业、与理工科交叉的计算机专业、与文科艺术类交叉的计算机专业。
1. 计算机基础专业
专业要求与就业方向:这些专业不但要求学生掌握计算机基本理论和应用开发技术,具有一定的理论基础,同时又要求学生具有较强的实际动手能力。学生毕业后能在企事业单位、政府部门从事计算机应用以及计算机网络系统的开发、维护等工作。
2. 与理工科交叉的计算机专业
与理工科交叉而衍生的计算机专业很多,如数学与应用数学专业、自动化专业、信息与计算科学专业、通信工程专业、电子信息工程专业、计算机应用与维护专业等。
1)数学与应用数学专业:
专业要求与就业方向:数学与应用数学是计算机专业的基础和上升的平台,是与计算机科学与技术联系最为紧密的专业之一。该专业就业面相对于计算机科学与技术专业来说宽得多,不但适用于IT 领域,也适用于数学领域。
2)自动化专业:
专业要求与就业方向:自动化专业是一个归并了多个自动控制领域专业的宽口径专业,要求学生掌握自动控制的基本理论,并立足信息系统和信息网络的控制这一新兴应用领域制定专业课程体系,是工业制造业的核心专业。自动化专业的毕业生具有很强的就业基础和优势。
3)信息与计算科学专业:
专业要求与就业方向:这是一个由信息科学、计算数学、运筹与控制科学等交叉渗透而形成的专业,就业面涉及到教学、商业、网络开发、软件设计等各个方面,就业率高达95%以上。
4)通信工程专业:
专业要求与就业方向:通信工程专业要求学生掌握通信基础理论和基本基础,掌握微波、无线电、多媒体等通信技术,以及电子和计算机技术,在信息时代有着极佳的就业优势。
5)电子信息工程专业:
专业要求与就业方向:电子信息工程专业是宽口径专业,主要培养信息技术、电子工程、网络系统集成等领域的高级IT 人才,毕业生可从事电子设备、信息系统和通信系统的研究、设计、制造、应用和开发工作。
(9)集成算法思想扩展阅读:
毕业生主要面向交通系统各单位、交通信息化与电子政务建设与应用部门、各类计算机专业化公司、广告设计制作公司、汽车营销技术服务等从事IT行业工作。
WEB应用程序设计专业
毕业后能够从事网站应用程序开发、网站维护、网页制作、软件生产企业编码、软件测试、系统支持、软件销售、数据库管理与应用、非IT企事业单位信息化。
可视化程序设计专业
毕业后能够从事软件企业桌面应用开发、软件生产企业编码、软件测试、系统支持、软件销售、数据库管理与应用开发等工作。
数据库管理专业
毕业后能够从事企、事业单位数据库管理、软件开发、专业数据库应用设计与开发、数据库的应用与开发、信息管理系统开发、企、事业单位网络管理、软件销售等工作。
多媒体应用专业
毕业后能够从事计算机美工、动画制作、影视编辑与制作、广告设计与制作、多媒体综合应用开发、多媒体课件制作等工作。
移动应用开发专业
毕业后能够从事移动设备应用开发、嵌入式应用开发、移动网站开发、软件生产企业编码、软件测试、系统支持、软件销售、企、事业单位信息管理、办公自动化集成等工作。
电子政务软件专业
能够胜任基层政府部门、事业单位数字化政务管理系统的设计、维护与信息管理、办公自动化集成、办公室文员等工作。
软件测试专业
毕业后能够从事软件测试、软件编码、IT企事业单位系统支持、非IT企事业单位信息化软件销售等工作。
物流信息技术专业
毕业后能够胜任现代物流业信息管理,能在企事业单位从事物流系统设计、供应链管理、仓储管理以及运输等管理工作。
物流管理专业
毕业后能够胜任全省各级企事业单位物流系统设计、供应链管理、仓储管理以及运输等管理工作等工作。
网络系统管理专业
毕业后能够从事政府管理部门、经贸、金融、邮电、电子、学校、交通、社区以及应用计算机网络的有关行业,从事计算机网络系统的设计、维护、管理、从事网站开发与应用、网络安全管理、计算机软硬件调试、安装、计算机及网络产品营销等工作。
计算机游戏专业
毕业后能够从事网络游戏美术,网络游戏动漫设计,游戏概念/故事情节设计,网络游戏3D设计,网络游戏人物设计,网络游戏环境设计,网络游戏皮肤/纹理设计,网络游戏图形开发,网络游戏测试,网络游戏音频开发,游戏客户端开发,游戏服务器开发,游戏引擎开发,手机游戏策划,手机游戏开发,手机游戏程序开发,手机游戏美工,手机游戏测试等工作。
计算机图形/图像制作专业
毕业后能够从事广告企业平面的设计与制作、网络企业网页制作、企事业单位职员等工作。
目前,计算机专业在国内的高等院校中,以理工科的实力较强;以文科、综合性高等院校为补充,基本上每所高等院校都设有这样的专业;或者有这样的专业人才。