数据库有关
㈠ 有关数据库的小故事
故事一、啤酒与尿布
世界零售连锁企业巨头沃尔玛拥有世界上最大的数据仓库系统之一,里面存放了各个门店的详细交易信息。为了能够准确了解顾客的购买习惯,沃尔玛利对顾客的购物行为进行了购物篮分析,想知道顾客经常一起购买的商品有哪些,结果他们有了意外的发现:“跟尿布一起购买最多的商品竟是啤酒!”
这是数据挖掘技术对历史数据进行分析的结果,它符合现实情况吗?是否是一个有用的知识?是否有利用价值?
于是,沃尔玛派出市场调查人员和分析师对这一挖掘结果进行调查分析。经过大量实际调查和分析,揭示了一个隐藏在“尿布与啤酒”背后的美国人的一种行为模式:一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。
既然尿布与啤酒一起被购买的机会很多,于是沃尔玛就将尿布与啤酒并排摆放在一起,结果是尿布与啤酒的销售量双双增长。
按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。
故事二、犯罪的根源
格洛斯特郡是英格兰西部的一个郡,大约有五十多万人口。在有一段时间内,发生了多起抢劫案,民众不再感觉到安全,对郡警察局的舆论压力也陡然增加了,强烈要求及时破获这些案件,并避免案件的进一步发生。警方一方面在加快破案的同时,也在努力思考怎么样才可以降低发案率。
按照传统的做法,一般会采取这样的措施:锁定抢劫案的多发地区,加派警力进行巡逻,对行为异常的人员加强盘查等等。然而,格洛斯特郡警察局发现,这些措施的收效甚微,发案率依然居高不下,因为抢劫案的发案地点并不集中,分散在多个不同的街区,这让巡逻警力的安排显得捉襟见肘,难以全面顾及。
此时,来自警察局内部的分析系统却有了新的发现。系统中保存了多年的案件和案犯的卷宗信息,通过利用数据挖掘等分析技术,揭示出最近这段时间的抢劫犯具有一些非常显着的特征:他们大多是没有固定住所,无家可归,而且也没有稳定的工作。另外,在很多抢劫案发生前,这些罪犯都吸食了毒品。正是在毒品的刺激作用下,他们失去了自控能力,临时见财起意,对单身女性或情侣实施抢劫。
新的发现给警察局带来了新的思路,警方当机立断,对原来的增加警力加强巡逻的做法进行了调整,改为采取如下措施:一是加强对无业人员和有吸毒前科人员的管理,并通过社会福利机构对他们实施救助;然后,加强了对毒品交易易发场所的严打和治理,从源头上掐断毒品的供应。
治理得到了良好的效果,抢劫案的发案率迅速降低,格洛斯特郡的人们又重新恢复了平静的生活。
故事三、电邮加新闻
Yahoo是第一家招募了首席数据官的公司,以验证对公司而言,数据的确是一笔真实而有战略意义的财富。目标是通过提供以客户为中心的数据平台和洞察力服务,激励用户积极参与,对营销方案进行创新,从而为消费者和卖家带来价值。Usama Fayyad博士是Yahoo的首席数据官,他在和KDnuggets的Gregory的访谈中介绍了一些Yahoo在数据挖掘方面的成功案例。
“产品整合:一个例子就是你今天在Yahoo电子邮箱上看到的,数据挖掘的可视结果。通过对用户使用行为的意外模式分析,我们发现在每次会话中,人们阅读邮件和阅读新闻的行为之间存在很强的相关关系。我们把这个发现传达给Yahoo电子邮箱产品小组,他们首先想到的就是验证这种关系的影响:在一组测试用户的邮箱首页上显示一个新闻模块,其中的新闻标题被醒目显示。”
“对于象电子邮箱这种产品,最头痛的问题就是如何获取新的‘轻量级用户’,并推动他们的用量,使之变成‘重量级用户’。如果你做到了,那么流失率就会显着下降。实际上,在我们的试验中,最显着的一组流失率下降了40%。于是Yahoo立刻开发并完善了新闻模块,并嵌入Yahoo电子邮箱的首页,到现在,上亿的消费者都可以看到并使用这种产品。我喜欢提及这个故事,因为它很好地说明了我们产品团队的及时反应能力,也证明了在用户使用行为数据中蕴含着很多很多极具价值的潜在模式。”
“即时通信:我们对雅虎通(Instant Messenger)的使用情况进行了分析,以了解激励用量的关键因素是什么。结果发现,最重要的因素是让用户扩大他们的‘好友列表’,至少增加5个新的好友。据此Yahoo精心设计了相应的营销活动,鼓励用户增加好友列表中的好友数,从而显着激励了雅虎通的用量。”
“Yahoo首页的搜索框:一个简单的例子就是我们发现,在Yahoo的首页上,把搜索框放在居中的位置(而不是以前的左侧)将提高用户的用量。这样一方面可以促进用户的积极使用,对Yahoo来说也没有成本支出。这个结果的发现过程也很有趣,我们首先发现Netscape浏览器的用户比IE的用户更多地使用了搜索功能,进一步探查发现两个浏览器在视觉上的唯一区别就是:二者中的搜索框位置不同!搜索框在Netscape浏览器中是居中放置,而在IE中则是靠近左侧。很不明显的差别,但却很重要。一般谁会想到呢?”
㈡ 数据库系统的组成,及各自的作用
1、数据库(database,DB)
作用是数据库中的数据按一定的数学模型组织、描述和存储,有组织,可共享的数据的集合。具有较小的冗余,较高的数据独立性和易扩展性,并可为各种用户共享。
2、硬件
构成计算机系统的各种物理设备,包括存储所需的外部设备。作用是硬件的配置应满足整个数据库系统的需要。
3、软件
包括操作系统、数据库管理系统及应用程序。数据库管理系统是数据库系统的核心软件,作用是在操作系统的支持下工作,科学地组织和存储数据,高效获取和维护数据的系统软件。其主要功能包括数据定义功能、数据操纵功能、数据库的运行管理和数据库的建立与维护。
4、人员
主要分类及其作用是系统分析员和数据库设计人员,负责应用系统的需求分析和规范说明,确定系统的硬件配置,并参与数据库系统的概要设计;应用程序员,负责编写使用数据库的应用程序,利用系统的接口或查询语言访问数据库;数据库管理员负责数据库的总体信息控制。
(2)数据库有关扩展阅读:
数据库系统的模型
1、层次模型:用一颗“有向树”的数据结构来表示各类实体以及实体间的联系,树中每一个节点代表一个记录类型,树状结构表示实体型之间的联系。层次数据模型的提出,首先是为了模拟这种按层次组织起来的事物。层次数据库也是按记录来存取数据的。
2、网状模型:取消了层次模型的不能表示非数状结构的限制,两个或两个以上的结点都可以有多个双亲结点,则此时有向树变成了有向图,该有向图描述了网状模型。网状模型中以记录为数据的存储单位。记录包含若干数据项。
3、关系模型:基本假定是所有数据都表示为数学上的关系。关系数据模型以集合论中的关系概念为基础发展起来的。关系模型中无论是实体还是实体间的联系均由单一的结构类型关系来表示。
㈢ 数据库基础 有关
第一章 数据库基础知识
本章以概念为主,主要是了解数据库的基本概念,数据库技术的发展,数据模型,重点是关系型数据。
第一节:信息,数据与数据处理
一、 信息与数据:
1、 信息:是现实世界事物的存在方式或运动状态的反映。或认为,信息是一种已经被加工为特定形式的数据。
信息的主要特征是:信息的传递需要物质载体,信息的获取和传递要消费能量;信息可以感知;信息可以存储、压缩、加工、传递、共享、扩散、再生和增值
2、 数据:数据是信息的载体和具体表现形式,信息不随着数据形式的变化而变化。数据有文字、数字、图形、声音等表现形式。
3、 数据与信息的关系:一般情况下将数据与信息作为一个概念而不加区分。
二、 数据处理与数据管理技术:
1、 数据处理:数据处理是对各种形式的数据进行收集、存储、加工和传输等活动的总称。
2、 数据管理:数据收集、分类、组织、编码、存储、检索、传输和维护等环节是数据处理的基本操作,称为数据管理。数据管理是数据处理的核心问题。
3、 数据库技术所研究的问题不是如何科学的进行数据管理。
4、 数据管理技术的三个阶段:人工管理,文件管理和数据库系统。
第二节:数据库技术的发展
一、 数据库的发展:数据库的发展经历了三个阶段:
1、 层次型和网状型:
代表产品是1969年IBM公司研制的层次模型数据库管理系统IMS。
2、 关系型数据型库:
目前大部分数据库采用的是关系型数据库。1970年IBM公司的研究员E.F.Codd提出了关系模型。其代表产品为sysem R和Inges。
3、 第三代数据库将为更加丰富的数据模型和更强大的数据管理功能为特征,以提供传统数据库系统难以支持的新应用。它必须支持面向对象,具有开放性,能够在多个平台上使用。
二、 数据库技术的发展趋势:
1、 面向对象的方法和技术对数据库发展的影响:
数据库研究人员借鉴和吸收了面向对旬的方法和技术,提出了面向对象数据模型。
2、 数据库技术与多学科技术的有机组合:
3、 面向专门应用领域的数据库技术
三、 数据库系统的组成:
数据库系统(DBS)是一个采用数据库技术,具有管理数据库功能,由硬件、软件、数据库及各类人员组成的计算机系统。
1、 数据库(DB):
数据库是以一定的组织方式存放于计算机外存储器中相互关联的数据集合,它是数据库系统的核心和管理对象,其数据是集成的、共享的以及冗余最小的。
2、 数据库管理系统(DBMS):
数据库管理系统是维护和管理数据库的软件,是数据库与用户之间的界面。作为数据库的核心软件,提供建立、操作、维护数据库的命令和方法。
3、 应用程序:
对数据库中数据进行各种处理的程序,由用户编写。
4、 计算机软件:
5、 计算机硬件:
包括CPU、内存、磁盘等。要求有足够大的内存来存放操作系统、数据库管理系统的核心模块以及数据库缓冲;足够大的磁盘能够直接存取和备份数据;比较主的通道能力;支持联网,实现数据共享。
6、 各类人员。
四、 数据库系统的特点:
1、 数据共享:
2、 面向全组织的数据结构化:
数据不再从属于一个特定应用,而是按照某种模型组织成为一个结构化的整。它描述数据要身的特性,也描述数据与数据之间的种种联系。
3、 数据独立性:
4、 可控数据冗余度:
5、 统一数据控制功能:
数据安全性控制:指采取一定的安全保密措施确保数据库中的数据不被非法用户存取而造成数据的泄密和破坏;
数据完整性控制:是指数据的正确性、有效性与相容性。
并发控制:多个用户对数据进行存取时,采取必要的措施进行数据保护;
数据恢复:系统能进行应急处理,把数据恢复到正确状态。
Record):又称为结点,由若干个数据项组成,用于描述一个对象;
3、 文件(File):由若干个记录组成;
4、 数据库(Data Base):由逻辑相关的文件组成。
二、 数据模型:
数据的组织形式称为数据模型,它决定 数据(主要是结点)之间联系的表达方式。主要包括层次型、网状型、关系型和面向对象型四种。层次型和网状型是早期的数据模型,又称为格式化数据系统数模型。
以上四种模型决定了四种类型的数据库:层次数据库系统,网状数据库系统,关系型数据库系统以及面向对象数据库系统。
目前微机上使用的主要是关系型数据库。
1、 层次型:是以记录为结点的有向树;图如教材P7图1--2
2、 网状型:树的集合,它的表示能力以及精巧怀强于层次型,但独立性下降。
3、 关系型:
在关系型中,数据被组织成若干张二维表,每张表称为一个关系。
一张表格中的一列称为一个“属性”,相当于记录中的一个数据项(或称为字段),属性的取值范围称为域。
表格中的一行称为一个“元组”,相当于记录值。
可用一个或若干个属性集合的值标识这些元组,称为“关键字”。
每一行对应的属性值叫做一个分量。
表格的框架相当于记录型,一个表格数据相当于一个同质文件。所有关系由关系的框架和若干元组构成,或者说关系是一张二维表。
关系型的特点:描述的一致性;可直接表示多对多关系;关系必须是规范化的;关系模型建立在数学概念基础上。
4、 面向对象型:主要采用对象和灯的概念。
第四节:关系型数据库
一、 关系型数据库的发展:
1、 数据库产品种类繁多:像dBASE,FoxBASE,Clipper,Paradox,Acess等。
2、 采用sql语言:SQL(Structured Query Language)“结构化查询语言”,是通用的关系型数据库操作语言,可以查询、定义、操纵和控制数据库。它是一种非过程化语言。
3、 支持面向对象的程序设计:
4、 提供良好的图形界面和窗口;
5、 支持开放的客户机/服务器和分布式处理;
6、 提供新一代的数据库管理系统开发工具:支持GUI(图形界面)、ODBC(开放数据库连接)、OLE(对象的链接与嵌入)、DLL(动态链接)等。
二、 关系型数据库管理系统(RDBMS)及其产品:
主要着名的关系型数据库产品有Oracle、Sybase、Informix、DB2、Inges、Paradox、Access、SQL Server等。数据库应用系统开发工具是PowerBuilder和Delphi。
㈣ 数据库有哪几种
一、关系数据库
关系型数据库,存储的格式可以直观地反映实体间的关系。关系型数据库和常见的表格比较相似,关系型数据库中表与表之间是有很多复杂的关联关系的。
常见的关系型数据库有Mysql,SqlServer等。在轻量或者小型的应用中,使用不同的关系型数据库对系统的性能影响不大,但是在构建大型应用时,则需要根据应用的业务需求和性能需求,选择合适的关系型数据库。
虽然关系型数据库有很多,但是大多数都遵循SQL(结构化查询语言,Structured Query Language)标准。 常见的操作有查询,新增,更新,删除,求和,排序等。
查询语句:SELECT param FROM table WHERE condition 该语句可以理解为从 table 中查询出满足 condition 条件的字段 param。
新增语句:INSERT INTO table (param1,param2,param3) VALUES (value1,value2,value3) 该语句可以理解为向table中的param1,param2,param3字段中分别插入value1,value2,value3。
更新语句:UPDATE table SET param=new_value WHERE condition 该语句可以理解为将满足condition条件的字段param更新为 new_value 值。
删除语句:DELETE FROM table WHERE condition 该语句可以理解为将满足condition条件的数据全部删除。
去重查询:SELECT DISTINCT param FROM table WHERE condition 该语句可以理解为从表table中查询出满足条件condition的字段param,但是param中重复的值只能出现一次。
排序查询:SELECT param FROM table WHERE condition ORDER BY param1该语句可以理解为从表table 中查询出满足condition条件的param,并且要按照param1升序的顺序进行排序。
总体来说, 数据库的SELECT,INSERT,UPDATE,DELETE对应了我们常用的增删改查四种操作。
关系型数据库对于结构化数据的处理更合适,如学生成绩、地址等,这样的数据一般情况下需要使用结构化的查询,例如join,这样的情况下,关系型数据库就会比NoSQL数据库性能更优,而且精确度更高。
由于结构化数据的规模不算太大,数据规模的增长通常也是可预期的,所以针对结构化数据使用关系型数据库更好。关系型数据库十分注意数据操作的事务性、一致性,如果对这方面的要求关系型数据库无疑可以很好的满足。
二、非关系型数据库(NoSQL)
随着近些年技术方向的不断拓展,大量的NoSql数据库如MongoDB、Redis、Memcache出于简化数据库结构、避免冗余、影响性能的表连接、摒弃复杂分布式的目的被设计。
指的是分布式的、非关系型的、不保证遵循ACID原则的数据存储系统。NoSQL数据库技术与CAP理论、一致性哈希算法有密切关系。所谓CAP理论,简单来说就是一个分布式系统不可能满足可用性、一致性与分区容错性这三个要求,一次性满足两种要求是该系统的上限。
而一致性哈希算法则指的是NoSQL数据库在应用过程中,为满足工作需求而在通常情况下产生的一种数据算法,该算法能有效解决工作方面的诸多问题但也存在弊端,即工作完成质量会随着节点的变化而产生波动,当节点过多时,相关工作结果就无法那么准确。
这一问题使整个系统的工作效率受到影响,导致整个数据库系统的数据乱码与出错率大大提高,甚至会出现数据节点的内容迁移,产生错误的代码信息。
但尽管如此,NoSQL数据库技术还是具有非常明显的应用优势,如数据库结构相对简单,在大数据量下的读写性能好;能满足随时存储自定义数据格式需求,非常适用于大数据处理工作。
NoSQL数据库适合追求速度和可扩展性、业务多变的应用场景。
对于非结构化数据的处理更合适,如文章、评论,这些数据如全文搜索、机器学习通常只用于模糊处理,并不需要像结构化数据一样,进行精确查询,而且这类数据的数据规模往往是海量的,数据规模的增长往往也是不可能预期的;
而NoSQL数据库的扩展能力几乎也是无限的,所以NoSQL数据库可以很好的满足这一类数据的存储。
NoSQL数据库利用key-value可以大量的获取大量的非结构化数据,并且数据的获取效率很高,但用它查询结构化数据效果就比较差。
目前NoSQL数据库仍然没有一个统一的标准,它现在有四种大的分类:
1、键值对存储(key-value):代表软件Redis,它的优点能够进行数据的快速查询,而缺点是需要存储数据之间的关系。
2、列存储:代表软件Hbase,它的优点是对数据能快速查询,数据存储的扩展性强。而缺点是数据库的功能有局限性。
3、文档数据库存储:代表软件MongoDB,它的优点是对数据结构要求不特别的严格。而缺点是查询性的性能不好,同时缺少一种统一查询语言。
4、图形数据库存储:代表软件InfoGrid,它的优点可以方便的利用图结构相关算法进行计算。而缺点是要想得到结果必须进行整个图的计算,而且遇到不适合的数据模型时,图形数据库很难使用。
安全
数据库安全涉及保护数据库内容、其所有者和用户的所有各个方面。它的范围从防止有意的未经授权的数据库使用到未经授权的实体(例如,个人或计算机程序)无意的数据库访问。
数据库访问控制涉及控制谁(一个人或某个计算机程序)可以访问数据库中的哪些信息。该信息可以包括特定的数据库对象(例如,记录类型、特定记录、数据结构);
对特定对象的特定计算(例如,查询类型或特定查询),或者使用到前者的特定访问路径(例如,使用特定索引)或其他数据结构来访问信息)。
数据库访问控制由使用专用受保护安全 DBMS 接口的特别授权(由数据库所有者)人员设置。
这可以在个人基础上直接管理,或者通过将个人和特权分配给组,或者(在最复杂的模型中)通过将个人和组分配给角色,然后授予权利。数据安全可防止未经授权的用户查看或更新数据库。使用密码,用户可以访问整个数据库或它的子集,称为“子模式”。
例如,员工数据库可以包含有关单个员工的所有数据,但一组用户可能仅被授权查看工资数据,而其他用户仅被允许访问工作历史和医疗数据。如果 DBMS 提供了一种交互式输入和更新数据库以及查询数据库的方法,则此功能允许管理个人数据库。
数据安全通常涉及保护特定的数据块,包括物理保护(即免受损坏、破坏或移除;例如,参见物理安全),或将它们或它们的一部分解释为有意义的信息(例如,通过查看它们组成的位串,得出特定的有效信用卡号;例如,参见数据加密)。
更改和访问日志记录谁访问了哪些属性、更改了什么以及何时更改。日志服务通过保留访问发生和更改的记录,允许以后进行取证数据库审计。有时应用程序级代码用于记录更改而不是将其留给数据库。可以设置监控以尝试检测安全漏洞。
以上内容参考网络-数据库
㈤ 有关数据库的描述,正确的是()
B
A错,数据库管理系统是数据库的操作平台,和数据库不是一个概念,设计数据库管理系统更不靠谱了,数据库是用来存储书u,供人使用的,达到数据共享的目的。就好比你不能说使用软件是为了设计操作系统吧
B对,以前由于硬件设施的限制,内存只有几M,硬盘也不过几十M,所以要解决存储问题是很关键的.而现在科技发展迅猛,内存,硬盘已不是主要制约因素,而是实现资源共享问题!! 所以归根结底还是共享!
数据具有独立性,包括数据库中数据库的逻辑结构和应用程序相互独立,也包括数据物理结构的变化不影响数据的逻辑结构
C错,数据的物理结构是什么
数据库物理结构主要指数据的存放位置和存储结构,包括关系、索引、聚簇、日志、备份等的存储安排和存储结构
数据的逻辑结构它是用户所看到和使用的数据库,表示了一个或一些特定用户使用的数据集合,即逻辑记录的集合。 ,即存储位置的改变并不影响逻辑关系