数据库抽取
⑴ C# 数据库随机抽取数据
我这只是思路啊,这个要实现的话要使用多线程技术
一个线程负责产生随机数与抽取数据
1首先一个随机数
对比内变量里的随机数,是否有重复,如果重复则此次无效,重新生成
2,根据此随机数抽取数据库中数据。
另一个线程负责清空内存变量的数据
即此线程开着一个计时器,然后根据时间来清除数据
希望对你有所帮助
⑵ 请问一下:数据库之间抽取数据有哪几种方式
哪个数据和哪个数据之间?
我个人用的比较多的是MSsql和ORACLE之间
MSSQL访问ORACLE使用链接数据库
ORACLE访问MSSQL使用透明网关
如果导数据的话
MSSQL用BCP导出到CSV
ORACLE用sqllocad导出导入CSV
如果同一个实例下访问不用的库的放
在MySQL 中
select * from 库名.表名;
在ORACLE中
select * from 用户名.表名;
SQL SERVER
select * from 库名.dbo.表名
⑶ 数据采集、数据抓取和数据抽取
暂时先给你回答点主观的,时间允许了再“尽量科学一点”的:
数据采集:就是把物量信号采集下来,一般指的经过A/D转换采集到电脑。
数据抓取:这也可能是太粗俗的一种说法,比如说把网络的某种数据抓取过来等。
数据抽取:比如采集的数据,进行抽点的形式,取一些代表数据进行分析。
感觉一、三有些关联。二应不是科学界的一种表达。
⑷ 怎样在数据库中实现随机抽取
一般都是应用程序做的,如果一定要用数据库做,可以用rownum=round(dbms_random.value(1,999999999)取随机的行数
⑸ 如何从多个数据库中提取数据
用Inner
Join
或Outer
Join等将数据库连接起来,然后select出你想要的数据
举个例子你就能知道了!
A表(a1,b1,c1)
B表(a2,b2)
a1
b1
c1
a2
b2
01
数学
95
01
张三
02
语文
90
02
李四
03
英语
80
04
王五
select
A.*,B.*
from
A
inner
join
B
on(A.a1=B.a2)
结果是:
a1
b1
c1
a2
b2
01
数学
95
01
张三
02
语文
90
02
李四
⑹ 表格项里怎么把数据提取出来
方法:复制, =你要的数据位置 , 筛选, 透视表格。 VBA, 查找。
公式,函数,以上方法,足够你玩了。
关系数据库
编辑
实际应用中,数据源较多采用的是关系数据库。从数据库中抽取数据一般有以下几种方式。
全量抽取
全量抽取类似于数据迁移或数据复制,它将数据源中的表或视图的数据原封不动的从数据库中抽取出来,并转换成自己的ETL工具可以识别的格式。全量抽取比较简单。
增量抽取
增量抽取指抽取自上次抽取以来数据库中要抽取的表中新增、修改、删除的数据。在ETL使用过程中。增量抽取较全量抽取应用更广。如何捕获变化的数据是增量抽取的关键。对捕获方法一般有两点要求:准确性,能够将业务系统中的变化数据准确地捕获到;性能,尽量减少对业务系统造成太大的压力,影响现有业务。目前增量数据抽取中常用的捕获变化数据的方法有:
a.触发器:在要抽取的表上建立需要的触发器,一般要建立插入、修改、删除三个触发器,每当源表中的数据发生变化,就被相应的触发器将变化的数据写入一个临时表,抽取线程从临时表中抽取数据。触发器方式的优点是数据抽取的性能较高,缺点是要求在业务数据库中建立触发器,对业务系统有一定的性能影响。
b.时间戳:它是一种基于递增数据比较的增量数据捕获方式,在源表上增加一个时间戳字段,系统中更新修改表数据的时候,同时修改时间戳字段的值。当进行数据抽取时,通过比较系统时间与时间戳字段的值来决定抽取哪些数据。有的数据库的时间戳支持自动更新,即表的其它字段的数据发生改变时,自动更新时间戳字段的值。有的数据库不支持时间戳的自动更新,这就要求业务系统在更新业务数据时,手工更新时间戳字段。同触发器方式一样,时间戳方式的性能也比较好,数据抽取相对清楚简单,但对业务系统也有很大的倾入性(加入额外的时间戳字段),特别是对不支持时间戳的自动更新的数据库,还要求业务系统进行额外的更新时间戳操作。另外,无法捕获对时间戳以前数据的delete和update操作,在数据准确性上受到了一定的限制。
c.全表比对:典型的全表比对的方式是采用MD5校验码。ETL工具事先为要抽取的表建立一个结构类似的MD5临时表,该临时表记录源表主键以及根据所有字段的数据计算出来的MD5校验码。每次进行数据抽取时,对源表和MD5临时表进行MD5校验码的比对,从而决定源表中的数据是新增、修改还是删除,同时更新MD5校验码。MD5方式的优点是对源系统的倾入性较小(仅需要建立一个MD5临时表),但缺点也是显而易见的,与触发器和时间戳方式中的主动通知不同,MD5方式是被动的进行全表数据的比对,性能较差。当表中没有主键或唯一列且含有重复记录时,MD5方式的准确性较差。
d.日志对比:通过分析数据库自身的日志来判断变化的数据。Oracle的改变数据捕获(CDC,Changed Data Capture)技术是这方面的代表。CDC 特性是在Oracle9i数据库中引入的。CDC能够帮助你识别从上次抽取之后发生变化的数据。利用CDC,在对源表进行insert、update或 delete等操作的同时就可以提取数据,并且变化的数据被保存在数据库的变化表中。这样就可以捕获发生变化的数据,然后利用数据库视图以一种可控的方式提供给目标系统。CDC体系结构基于发布者/订阅者模型。发布者捕捉变化数据并提供给订阅者。订阅者使用从发布者那里获得的变化数据。通常,CDC系统拥有一个发布者和多个订阅者。发布者首先需要识别捕获变化数据所需的源表。然后,它捕捉变化的数据并将其保存在特别创建的变化表中。它还使订阅者能够控制对变化数据的访问。订阅者需要清楚自己感兴趣的是哪些变化数据。一个订阅者可能不会对发布者发布的所有数据都感兴趣。订阅者需要创建一个订阅者视图来访问经发布者授权可以访问的变化数据。CDC分为同步模式和异步模式,同步模式实时的捕获变化数据并存储到变化表中,发布者与订阅都位于同一数据库中。异步模式则是基于Oracle的流复制技术。
非关系数据库
编辑
ETL处理的数据源除了关系数据库外,还可能是文件,例如txt文件、excel文件、xml文件等。对文件数据的抽取一般是进行全量抽取,一次抽取前可保存文件的时间戳或计算文件的MD5校验码,下次抽取时进行比对,如果相同则可忽略本次抽取。
通用程序库
编辑
DMCTextFilter 是HYFsoft开发的纯文本抽出通用程序库,本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本数据信息。便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览。
DMCTextFilter采用了先进的多语言、多平台、多线程的设计理念,支持多国语言(英语,中文简体,中文繁体,日本语,韩国语),多种操作系统(Windows,Solaris,Linux,IBM AIX,Macintosh,HP-UNIX),多种文字集合代码(GBK,GB18030,Big5,ISO-8859-1,KS X 1001,Shift_JIS,WINDOWS31J,EUC-JP,ISO-10646-UCS-2,ISO-10646-UCS-4,UTF-16,UTF-8等)。提供了多种形式的API功能接口(文件格式识别函数,文本抽出函数,文件属性抽出函数,页抽出函数,设定User Password的PDF文件的文本抽出函数等),便于用户方便使用。用户可以十分便利的将本产品组装到自己的应用程序中,进行二次开发。通过调用本产品的提供的API功能接口,实现从多种文档格式的数据中快速抽出纯文本数据。本产品在国内外得到了广泛的应用,在产品性能和质量上都得到了用户高度的好评。
1.文件格式自动识别功能
本产品通过解析文件内部的信息,自动识别生成文件的应用程序名和其版本号,不依赖于文件的扩展名,能够正确识别文件格式和相应的版本信息。可以识别的文件格式如下: 支持Microsoft Office、RTF、PDF、Visio、Outlook EML和MSG、Lotus1-2-3、HTML、AutoCAD DXF和DWG、IGES、PageMaker、ClarisWorks、AppleWorks、XML、WordPerfect、Mac Write、Works、Corel Presentations、QuarkXpress、DocuWorks、WPS、压缩文件的LZH/ZIP/RAR以及一太郎、OASYS等文件格式
2.文本抽出功能
即使系统中没有安装作成文件的应用程序,可以从指定的文件或插入到文件中的OLE中抽出文本数据。
3.文件属性抽出功能
从指定的文件中,抽出文件属性信息。
4.页抽出功能
从文件中,抽出指定页中文本数据。
5.对加密的PDF文件文本抽出功能
从设有打开文档口令密码的PDF文件中抽出文本数据。
6.流(Stream)抽出功能
从指定的文件、或是嵌入到文件中的OLE对象中向流里抽取文本数据。
7.支持的语言种类
本产品支持以下语言:英语,中文简体,中文繁体,日本语,韩国语
8.支持的字符集合的种类
抽出文本时,可以指定以下的字符集合作为文本文件的字符集(也可指定任意特殊字符集,但需要另行定制开发):GBK,GB18030,Big5,ISO-8859-1,KS X 1001,Shift_JIS,WINDOWS31J,EUC-JP,ISO-10646-UCS-2,ISO-10646-UCS-4,UTF-16,UTF-8等。[1]
⑺ 如何从access数据库随机抽取一条数据
这简单,你只要先获取那个数据库的总行数N(学生总数),然后用随机函数Rnd生成一个总数以内的一个整数:Int(Rnd*N),然后用这个数做为条件去查数据库获得需要的信息就可以拉。
⑻ Excel表格从数据库提取符合的数据
值唯一的时候,可以通过vlookup函数来查找返回。这个可以实现
⑼ EXCEL从数据库提取数据
1、打开源数据文件,把首行中的对应的数据,复制行到空白位置。
⑽ SQL数据库如何提取数据
1、查询数据库(test)中的所有表名的方法:
SELECT name
FROM [test]..sysobjects where xtype='U'
********
补充:
如果有的表不存在【时间】那就用下面的语句直接把含有【时间】列的表名找到:
SELECT d.name
FROM [test]..syscolumns a
inner join [test]..sysobjects d on a.id=d.id and d.xtype='U' and a.name='时间'
**********
2、遍历这个表名取出数据插入到另外的数据库中(SqlServer中的遍历方法我不是很清楚,给你提供个思路,oracle的话我就能把程序写出来了O(∩_∩)O~)。
如:遍历结果存储到数据库test2中
insert into [test2]..遍历出的表名 select * from 遍历出的表名 where datediff(day,'2009-08-07',时间)>0;
重复上面的sql语句指导讲数据库test中的表名完全遍历完为止。
*************************************************************
补充:我试验了一下下面把实验代码给你(建一个存储过程)
create proc test as
--定义游标变量
declare cur1 cursor for
SELECT d.name
FROM [test]..syscolumns a
inner join [test]..sysobjects d on a.id=d.id and d.xtype='U' and a.name='时间'
--定义临时变量
declare @tmp varchar(1000)
--定义sql字符串
declare @strsql varchar(4000)
--打开游标
open cur1
--读取第一条数据,也就是第一个表名
fetch next from cur1 into @tmp
--是读完
while(@@fetch_status = 0)
begin
--连接sql文
set @strsql='insert into [test2]..'+@tmp++' select * from '+@tmp+' where datediff(day,'+char(39)+'2009-08-07'+char(39)+',时间)>0'
--执行这个sql
exec(@strsql)
--读取下一条数据
fetch next from cur1 into @tmp
end
--关闭游标
close cur1
--摧毁游标所占资源
deallocate cur1
*************************************************
---
以上,希望对你有所帮助。