采集数据存储文件格式

发布时间: 2023-06-12 00:46:38

㈠ matlab怎么实现数据采集和存储

用matlab实现数据采集的方法
我们在这里介绍两种共同学习参考。

① 直接利用MATLAB数据采集箱中提供的的函数命令进行采集，即wavrecord 。wavrecord是利用Windows 音频输入设备记录声音, 其调用格式为： y=wavrecord(n ,fs ,ch ,dtype) ；
式中n 为采样的点数，决定了录音长度；
fs为采样频率，默认值为11025Hz，还可根据要求自己选择合适的采样率；
ch为声道数，默认值为1，表示单声道，如果指定为2，则采样为双声道立体声数据；
dtype为采样数据的存储格式，用字符串指定，可以是‘double’、‘single’、‘int16’、‘int8’，指定存储格式的同时也就规定了每个采样值量化的精度，int8 对应8 位精度采样，其它都是16 位采样精度。在我们的实验中参数这样选择：
n=1024 fs=44100 ch=1
dtype=’double’
② 采用对声卡产生一个模拟输入对象的方式进行采集。数据采集过程可以分为四步:
1) 初始化。Matlab将声卡等设备都作对象处理，其后的一切操作都不与硬件直相关，而是通过对该对象的操作来作用于硬件设备，所以首先要对声卡产生一个模拟输入对象：
ai = analoginput (’winsound’) ai ——Matlab 中的变量，它是一个模拟输入设备对象句柄，所有的数据采集过程都是通过对该句柄的操作来实现；
analoginput ( ) ——模拟输入设备对象建立函数,通过该函数将A/ D 转换硬件映射为Matlab workspace 中的一个模拟输入设备对象句柄；
winsound——声卡设备驱动程序，Matlab 软件内含该驱动程序。 2) 配置。给ai对象添加通道，设置采样频率。 addchannel (ai ,1)；%添加通道
fs = 44100； %采样频率设置为44.1KHz ai.SampleRate = fs ；%设置采样频率 3) 采样。启动设备对象，开始采集数据。 t = 2s ； %设定采样时间 start (ai)； %启动设备对象
data = get (ai ,t *fs) ； %获得采样数据 4) 终止。停止对象并删除对象。 stop (ai) ； delete (ai) ；
这样便完成了一次完整的数据采集过程，采样频率和采样时间都是由用户输入的，十分方便。

Matlab中存储及读取数据
我们在使用MATLAB过程中，免不了希望将运算过程中的某些数据“储存”起来，以便下次使用再“读取”利用。“储存”和“读取”的指令分别是save及load，而save的数据型态又分为：(1)双位元格式 (binary format) 的 MAT-file，(2) ASCII 格式的 ASCII-file。MAT-file 是以双位元字符储存，可让电脑在读出/入(input/output) 速率加快，其格式为test.mat（test为档名），MATLAB将档案的型态预设为MAT-file；而ASCII-file则是以可辨识的字符储存，但会降低电脑在读出/入的速率，其格式为test.dat（test为档名）。如果你的数据是只在MATLAB中产生及被使用，那最好使用MAT-file。ASCII-file则必须用在当数据档要为其它不是MATLAB的应用软体读取时。

另外要注意，当save成MAT档是储存变数本身，而非直接储存变数的数据；而save成ASCII档则是直接储存变数的数值。
这二者储存的差异，造成在读取MAT档和ASCII档的数据有所不同，详见以下的范例。

须注意的是在储存及读取数据时，MAT-file或是ASCII-file的档最好为矩阵型态，否则可能在读取时有困难。数据储存成矩阵的大小可以为m×n，其中m是列的数目，n则为行的数目。

以下就是几个save, load的使用范例
>> x=1:5; y=11:15; % 先产生二个列阵列 (row array} x, y
>> save data1 x y % 是将 x,y 二个变数的数值存入 data1 这个MAT-file，
%即data1其实是data1.mat。data1.mat 的内容为变数x, y，而非(1:5, 11:15) 的数据
>> save data2.dat x y -ascii % 如果要将data1改以ASCII格式储存，则须加上-ascii
% 的选项。data2.dat 的内容为(1:5, 11:15) 的数据
>> type data2.dat % type 指令可以将 data2.dat 的内容列出

>> load data1 % 读取 data1.mat 档
>> x, y % 叫出 data1.mat中的变数来读取其内容(1:5, 11:15)

>> load data2.dat % 读取 data2.dat 档
>> x2=data2(1,:); y2=data2(2,:); % 将data2中的第一及第二列数据分别以x2及y2
%变数读入，之后在运算中即可使用这二列数据
>> x=21:25; y=31:35;
>> save data3.dat x y -ascii
>> load data3.dat;
>> x3=data3(1,:); y3=data3(2,:); % 将data3中的第一及第二列数据分别以x3及y3 变数读入
%，之后在运算中即可使用这二列数据
>> A=[1 2 3; 4 5 6];
>> save data4.dat A -ascii %是将A阵列的数值存入data4这个ASCII-file
>> load data4.dat
>> x4=data4(:,1); % 令 x4 为 data4 的第一行数据
>> y4=data4(:,2); % 令 y4 为 data4 的第二行数据
>> z4=data4(:,3); % 令 z4 为 data4 的第三行数据

㈡计算机中图片,文字,音频数据是如何采集存储的

计算机中图片，文字，音频数据都是以字节码形式采集存储的。例如图片由多个像素组成，每个像素可以用一个字节来错，其他内容也是同理，有定好数据的格式，就知道怎么解析每个字节了。

字节码是一种包含执行程序、由一序列op代码／数据对组成的二进制文件。字节码是一种中间码，它比机器码更抽象。它经常被看作是包含一个执行程序的二进制文件，更像一个对象模型。字节码被这样叫是因为通常每个opcode是一字节长，但是指令码的长度是变化的。

相关信息

在计算机中，数据只用0和1两种表现形式，（这里只表示一个数据点，不是数字），一个0或者1占一个“位”，而系统中规定8个位为一个字节，用来表示常用的256个字母、符号、控制标记，其中用一个位来进行数据校验，其他七个位用来记录数据。

按计算机中的规定，一个英文的字符占用一个字节，而一个汉字以及汉字的标点符号、字符都占用两个字节，他们是没有办法比较的，只能将一个字符占用一个字节，N个字符占用N个字节。Java中，字节码是CPU构架（JVM）的具有可移植性的机器语言。

㈢大数据常用文件格式介绍

图片看不见的话可以看我CSDN上的文章：
https://blog.csdn.net/u013332124/article/details/86423952

最近在做hdfs小文件合并的项目，涉及了一些文件格式的读写，比如avro、orc、parquet等。期间阅读了一些资料，因此打算写篇文章做个记录。

这篇文章不会介绍如何对这些格式的文件进行读写，只会介绍一下它们各自的特点以及底层存储的编码格式 。

[图片上传失败...(image-a5104a-1547368703623)]

使用sequencefile还可以将多个小文件合并到一个大文件中，通过key-value的形式组织起来，此时该sequencefile可以看做是一个小文件容器。

[图片上传失败...(image-4d03a2-1547368703623)]

Parquet是一个基于列式存储的文件格式，它将数据按列划分进行存储。Parquet官网上的文件格式介绍图：

[图片上传失败...(image-92770e-1547368703623)]

我们可以看出，parquet由几个部分构成：

[图片上传失败...(image-391e57-1547368703623)]

Orc也是一个列式存储格式，产生自Apache Hive，用于降低Hadoop数据存储空间和加速Hive查询速度。

[图片上传失败...(image-ba6160-1547368703623)]

目前列式存储是大数据领域基本的优化项，无论是存储还是查询，列式存储能做的优化都很多，看完上面对orc和parquet的文件结构介绍后，我们列式存储的优化点做一个总结：

在压缩方面 ：

在查询方面 ：

就网上找到的一些数据来看，Orc的压缩比会比Parquet的高一些，至于查询性能，两个应该不会差距太大。本人之前做过一个测试，在多数场景，hive on mr下，orc的查询性能会更好一些。换成hive on spark后，parquet的性能更好一些

本文介绍的4种大数据存储格式，2个是行式存储，2个是列式存储，但我们可以看到一个共同点：它们都是支持分割的。这是大数据文件结构体系中一个非常重要的特点， 因为可分割使一个文件可以被多个节点并发处理，提高数据的处理速度 。

另外，当前大数据的主要趋势应该是使用列式存储，目前我们公司已经逐步推进列式存储的使用，本人也在hive上做过一些测试，在多个查询场景下，无论是orc还是parquet的查询速度都完爆text格式的， 差不多有4-8倍的性能提升 。另外，orc和parquet的压缩比都能达到10比1的程度。因此，无论从节约资源和查询性能考虑，在大多数情况下，选择orc或者parquet作为文件存储格式是更好的选择。另外，spark sql的默认读写格式也是parquet。

当然，并不是说列式存储已经一统天下了，大多时候我们还是要根据自己的使用场景来决定使用哪种存储格式。

Sequencefile

https://blog.csdn.net/en_joker/article/details/79648861

https://stackoverflow.com/questions/11778681/advantages-of-sequence-file-over-hdfs-textfile

Avro和Sequencefile区别

https://stackoverflow.com/questions/24236803/difference-between-avrodata-file-and-sequence-file-with-respect-to-apache-sqoop

parquet

https://www.cnblogs.com/ITtangtang/p/7681019.html

Orc

https://www.cnblogs.com/ITtangtang/p/7677912.html

https://www.cnblogs.com/cxzdy/p/5910760.html

Orc和parquet的一些对比

https://blog.csdn.net/colorant/article/details/53699822

https://blog.csdn.net/yu616568/article/details/51188479

阅读全文

热点内容

日本免费云服务器色发布：2025-04-05 04:58:52 浏览：863

linuxcpp 发布：2025-04-05 04:53:38 浏览：746

安卓字体哪个最好发布：2025-04-05 04:46:37 浏览：648

什么是hdb3码编译码发布：2025-04-05 04:40:20 浏览：504

编译原理运算符发布：2025-04-05 04:37:50 浏览：520

如何用安卓手机玩ipad的账号发布：2025-04-05 04:17:42 浏览：934

vivo手机怎么在桌面建文件夹发布：2025-04-05 04:15:56 浏览：960

在线ftp网页版软件发布：2025-04-05 04:15:02 浏览：623

android手机gps 发布：2025-04-05 04:14:59 浏览：445

页数算法发布：2025-04-05 03:19:01 浏览：318

采集数据存储文件格式

与采集数据存储文件格式相关的资讯