資料庫抽取
⑴ C# 資料庫隨機抽取數據
我這只是思路啊,這個要實現的話要使用多線程技術
一個線程負責產生隨機數與抽取數據
1首先一個隨機數
對比內變數里的隨機數,是否有重復,如果重復則此次無效,重新生成
2,根據此隨機數抽取資料庫中數據。
另一個線程負責清空內存變數的數據
即此線程開著一個計時器,然後根據時間來清除數據
希望對你有所幫助
⑵ 請問一下:資料庫之間抽取數據有哪幾種方式
哪個數據和哪個數據之間?
我個人用的比較多的是MSsql和ORACLE之間
MSSQL訪問ORACLE使用鏈接資料庫
ORACLE訪問MSSQL使用透明網關
如果導數據的話
MSSQL用BCP導出到CSV
ORACLE用sqllocad導出導入CSV
如果同一個實例下訪問不用的庫的放
在MySQL 中
select * from 庫名.表名;
在ORACLE中
select * from 用戶名.表名;
SQL SERVER
select * from 庫名.dbo.表名
⑶ 數據採集、數據抓取和數據抽取
暫時先給你回答點主觀的,時間允許了再「盡量科學一點」的:
數據採集:就是把物量信號採集下來,一般指的經過A/D轉換採集到電腦。
數據抓取:這也可能是太粗俗的一種說法,比如說把網路的某種數據抓取過來等。
數據抽取:比如採集的數據,進行抽點的形式,取一些代表數據進行分析。
感覺一、三有些關聯。二應不是科學界的一種表達。
⑷ 怎樣在資料庫中實現隨機抽取
一般都是應用程序做的,如果一定要用資料庫做,可以用rownum=round(dbms_random.value(1,999999999)取隨機的行數
⑸ 如何從多個資料庫中提取數據
用Inner
Join
或Outer
Join等將資料庫連接起來,然後select出你想要的數據
舉個例子你就能知道了!
A表(a1,b1,c1)
B表(a2,b2)
a1
b1
c1
a2
b2
01
數學
95
01
張三
02
語文
90
02
李四
03
英語
80
04
王五
select
A.*,B.*
from
A
inner
join
B
on(A.a1=B.a2)
結果是:
a1
b1
c1
a2
b2
01
數學
95
01
張三
02
語文
90
02
李四
⑹ 表格項里怎麼把數據提取出來
方法:復制, =你要的數據位置 , 篩選, 透視表格。 VBA, 查找。
公式,函數,以上方法,足夠你玩了。
關系資料庫
編輯
實際應用中,數據源較多採用的是關系資料庫。從資料庫中抽取數據一般有以下幾種方式。
全量抽取
全量抽取類似於數據遷移或數據復制,它將數據源中的表或視圖的數據原封不動的從資料庫中抽取出來,並轉換成自己的ETL工具可以識別的格式。全量抽取比較簡單。
增量抽取
增量抽取指抽取自上次抽取以來資料庫中要抽取的表中新增、修改、刪除的數據。在ETL使用過程中。增量抽取較全量抽取應用更廣。如何捕獲變化的數據是增量抽取的關鍵。對捕獲方法一般有兩點要求:准確性,能夠將業務系統中的變化數據准確地捕獲到;性能,盡量減少對業務系統造成太大的壓力,影響現有業務。目前增量數據抽取中常用的捕獲變化數據的方法有:
a.觸發器:在要抽取的表上建立需要的觸發器,一般要建立插入、修改、刪除三個觸發器,每當源表中的數據發生變化,就被相應的觸發器將變化的數據寫入一個臨時表,抽取線程從臨時表中抽取數據。觸發器方式的優點是數據抽取的性能較高,缺點是要求在業務資料庫中建立觸發器,對業務系統有一定的性能影響。
b.時間戳:它是一種基於遞增數據比較的增量數據捕獲方式,在源表上增加一個時間戳欄位,系統中更新修改表數據的時候,同時修改時間戳欄位的值。當進行數據抽取時,通過比較系統時間與時間戳欄位的值來決定抽取哪些數據。有的資料庫的時間戳支持自動更新,即表的其它欄位的數據發生改變時,自動更新時間戳欄位的值。有的資料庫不支持時間戳的自動更新,這就要求業務系統在更新業務數據時,手工更新時間戳欄位。同觸發器方式一樣,時間戳方式的性能也比較好,數據抽取相對清楚簡單,但對業務系統也有很大的傾入性(加入額外的時間戳欄位),特別是對不支持時間戳的自動更新的資料庫,還要求業務系統進行額外的更新時間戳操作。另外,無法捕獲對時間戳以前數據的delete和update操作,在數據准確性上受到了一定的限制。
c.全表比對:典型的全表比對的方式是採用MD5校驗碼。ETL工具事先為要抽取的表建立一個結構類似的MD5臨時表,該臨時表記錄源表主鍵以及根據所有欄位的數據計算出來的MD5校驗碼。每次進行數據抽取時,對源表和MD5臨時表進行MD5校驗碼的比對,從而決定源表中的數據是新增、修改還是刪除,同時更新MD5校驗碼。MD5方式的優點是對源系統的傾入性較小(僅需要建立一個MD5臨時表),但缺點也是顯而易見的,與觸發器和時間戳方式中的主動通知不同,MD5方式是被動的進行全表數據的比對,性能較差。當表中沒有主鍵或唯一列且含有重復記錄時,MD5方式的准確性較差。
d.日誌對比:通過分析資料庫自身的日誌來判斷變化的數據。Oracle的改變數據捕獲(CDC,Changed Data Capture)技術是這方面的代表。CDC 特性是在Oracle9i資料庫中引入的。CDC能夠幫助你識別從上次抽取之後發生變化的數據。利用CDC,在對源表進行insert、update或 delete等操作的同時就可以提取數據,並且變化的數據被保存在資料庫的變化表中。這樣就可以捕獲發生變化的數據,然後利用資料庫視圖以一種可控的方式提供給目標系統。CDC體系結構基於發布者/訂閱者模型。發布者捕捉變化數據並提供給訂閱者。訂閱者使用從發布者那裡獲得的變化數據。通常,CDC系統擁有一個發布者和多個訂閱者。發布者首先需要識別捕獲變化數據所需的源表。然後,它捕捉變化的數據並將其保存在特別創建的變化表中。它還使訂閱者能夠控制對變化數據的訪問。訂閱者需要清楚自己感興趣的是哪些變化數據。一個訂閱者可能不會對發布者發布的所有數據都感興趣。訂閱者需要創建一個訂閱者視圖來訪問經發布者授權可以訪問的變化數據。CDC分為同步模式和非同步模式,同步模式實時的捕獲變化數據並存儲到變化表中,發布者與訂閱都位於同一資料庫中。非同步模式則是基於Oracle的流復制技術。
非關系資料庫
編輯
ETL處理的數據源除了關系資料庫外,還可能是文件,例如txt文件、excel文件、xml文件等。對文件數據的抽取一般是進行全量抽取,一次抽取前可保存文件的時間戳或計算文件的MD5校驗碼,下次抽取時進行比對,如果相同則可忽略本次抽取。
通用程序庫
編輯
DMCTextFilter 是HYFsoft開發的純文本抽出通用程序庫,本產品可以從各種各樣的文檔格式的數據中或從插入的OLE對象中,完全除掉特殊控制信息,快速抽出純文本數據信息。便於用戶實現對多種文檔數據資源信息進行統一管理,編輯,檢索和瀏覽。
DMCTextFilter採用了先進的多語言、多平台、多線程的設計理念,支持多國語言(英語,中文簡體,中文繁體,日本語,韓國語),多種操作系統(Windows,Solaris,Linux,IBM AIX,Macintosh,HP-UNIX),多種文字集合代碼(GBK,GB18030,Big5,ISO-8859-1,KS X 1001,Shift_JIS,WINDOWS31J,EUC-JP,ISO-10646-UCS-2,ISO-10646-UCS-4,UTF-16,UTF-8等)。提供了多種形式的API功能介面(文件格式識別函數,文本抽出函數,文件屬性抽出函數,頁抽出函數,設定User Password的PDF文件的文本抽出函數等),便於用戶方便使用。用戶可以十分便利的將本產品組裝到自己的應用程序中,進行二次開發。通過調用本產品的提供的API功能介面,實現從多種文檔格式的數據中快速抽出純文本數據。本產品在國內外得到了廣泛的應用,在產品性能和質量上都得到了用戶高度的好評。
1.文件格式自動識別功能
本產品通過解析文件內部的信息,自動識別生成文件的應用程序名和其版本號,不依賴於文件的擴展名,能夠正確識別文件格式和相應的版本信息。可以識別的文件格式如下: 支持Microsoft Office、RTF、PDF、Visio、Outlook EML和MSG、Lotus1-2-3、HTML、AutoCAD DXF和DWG、IGES、PageMaker、ClarisWorks、AppleWorks、XML、WordPerfect、Mac Write、Works、Corel Presentations、QuarkXpress、DocuWorks、WPS、壓縮文件的LZH/ZIP/RAR以及一太郎、OASYS等文件格式
2.文本抽出功能
即使系統中沒有安裝作成文件的應用程序,可以從指定的文件或插入到文件中的OLE中抽出文本數據。
3.文件屬性抽出功能
從指定的文件中,抽出文件屬性信息。
4.頁抽出功能
從文件中,抽出指定頁中文本數據。
5.對加密的PDF文件文本抽出功能
從設有打開文檔口令密碼的PDF文件中抽出文本數據。
6.流(Stream)抽出功能
從指定的文件、或是嵌入到文件中的OLE對象中向流里抽取文本數據。
7.支持的語言種類
本產品支持以下語言:英語,中文簡體,中文繁體,日本語,韓國語
8.支持的字元集合的種類
抽出文本時,可以指定以下的字元集合作為文本文件的字元集(也可指定任意特殊字元集,但需要另行定製開發):GBK,GB18030,Big5,ISO-8859-1,KS X 1001,Shift_JIS,WINDOWS31J,EUC-JP,ISO-10646-UCS-2,ISO-10646-UCS-4,UTF-16,UTF-8等。[1]
⑺ 如何從access資料庫隨機抽取一條數據
這簡單,你只要先獲取那個資料庫的總行數N(學生總數),然後用隨機函數Rnd生成一個總數以內的一個整數:Int(Rnd*N),然後用這個數做為條件去查資料庫獲得需要的信息就可以拉。
⑻ Excel表格從資料庫提取符合的數據
值唯一的時候,可以通過vlookup函數來查找返回。這個可以實現
⑼ EXCEL從資料庫提取數據
1、打開源數據文件,把首行中的對應的數據,復制行到空白位置。
⑽ SQL資料庫如何提取數據
1、查詢資料庫(test)中的所有表名的方法:
SELECT name
FROM [test]..sysobjects where xtype='U'
********
補充:
如果有的表不存在【時間】那就用下面的語句直接把含有【時間】列的表名找到:
SELECT d.name
FROM [test]..syscolumns a
inner join [test]..sysobjects d on a.id=d.id and d.xtype='U' and a.name='時間'
**********
2、遍歷這個表名取出數據插入到另外的資料庫中(SqlServer中的遍歷方法我不是很清楚,給你提供個思路,oracle的話我就能把程序寫出來了O(∩_∩)O~)。
如:遍歷結果存儲到資料庫test2中
insert into [test2]..遍歷出的表名 select * from 遍歷出的表名 where datediff(day,'2009-08-07',時間)>0;
重復上面的sql語句指導講資料庫test中的表名完全遍歷完為止。
*************************************************************
補充:我試驗了一下下面把實驗代碼給你(建一個存儲過程)
create proc test as
--定義游標變數
declare cur1 cursor for
SELECT d.name
FROM [test]..syscolumns a
inner join [test]..sysobjects d on a.id=d.id and d.xtype='U' and a.name='時間'
--定義臨時變數
declare @tmp varchar(1000)
--定義sql字元串
declare @strsql varchar(4000)
--打開游標
open cur1
--讀取第一條數據,也就是第一個表名
fetch next from cur1 into @tmp
--是讀完
while(@@fetch_status = 0)
begin
--連接sql文
set @strsql='insert into [test2]..'+@tmp++' select * from '+@tmp+' where datediff(day,'+char(39)+'2009-08-07'+char(39)+',時間)>0'
--執行這個sql
exec(@strsql)
--讀取下一條數據
fetch next from cur1 into @tmp
end
--關閉游標
close cur1
--摧毀游標所佔資源
deallocate cur1
*************************************************
---
以上,希望對你有所幫助。