python权重
① 《python神经网络》3——神经网络矩阵乘法
按照以下图示,最终的神经网络调参,以最简单的3层神经网络为例,公式如下:
怎么求这个函数的最优解?
如果不试图耍聪明,那么我们可以只是简单地尝试随机组合权重,直到找到好的权重组合。
当陷入一个困难的问题而焦头烂额时,这不算是一个疯狂的想法。这种方法一般称为暴力方法。
暴力方法的不好之处:
假设每个权重在-1和+1之间有1000种可能的值。那么对于3层、每层3个节点的神经网络,可以得到18个权重,因此有18000种可能性需要测试。如果一个相对经典的神经网络,每层有500个节点,那么需要测试5亿种权重的可能性。如果每组组合需要花费1秒钟计算,那么对于一个训练样本,就需要花费16年更新权重!对于1000种训练样本,要花费16000年! 这就是暴力方法不切实际之处。
数学家多年来也未解决这个难题,直到20世纪60年代到70年代,这个难题才有了切实可行的求解办法。
如何解决这样一个明显的难题呢?——我们必须做的第一件事是,拥抱悲观主义。
② python实现资产配置(2)--Blacklitterman 模型
在 python实现资产配置(1)----Markowitz 投资组合模型 中, 我们已经见过如何使用Markowitz求得最优资产配比. 这是一种在已知未来各资产的概率分布,然后再求解的方法.
Markowitz模型输入参数包括历史数据法和情景分析法两种方法,情景分析法的缺点是主观因素,随意性太强,因此使用历史数据法, 将资产的均值和协方差输入模型是比较常见的作法. 不过, 不足之处很明显: 未来的资产收益率分布不一定与过去相同. 此外, Markowitz 模型结果对输入参数过于敏感.
Black-Litterman模型就是基于此的改进. 其核心思想是将投资者对大类资产的观点 (主观观点) 与市场均衡收益率 (先验预期收益率)相结合,从而形成新的预期收益率(后验预期收益率). 这里的先验预期收益率的分布可以是贝叶斯推断中的先验概率密度函数的多元正态分布形式,投资者的主观观点就是贝叶斯推断中的似然函数(可以看作新的信息, 因为做出主观判断必然是从外界获取得到了这些资产的收益率变化信息), 而相应的, 后验预期收益率也可以从后验概率密度函数中得到. 具体的推导可以看我的这篇文章: 从贝叶斯定理到贝叶斯推断 .
BL模型的求解步骤包括下面几步:
(1) 使用历史数据估计预期收益率的协方差矩阵作为先验概率密度函数的协方差.
(2) 确定市场预期之收益率向量, 也就是先验预期收益之期望值. 作为先验概率密度函数的均值. 或者使用现有的期望值和方差来反推市场隐含的均衡收益率(Implied Equilibrium Return Vector), 不过在使用这种方法时, 需要知道无风险收益率 的大小.
(3) 融合投资人的个人观点,即根据历史数据(看法变量的方差)和个人看法(看法向量的均值)
(4) 修正后验收益.
是均衡收益率协方差的调整系数,可以根据信心水平来判断. 是历史资产收益率的协方差矩阵, P是投资者的观点矩阵, 是似然函数(即投资者观点函数)中的协方差矩阵,其值为 的对角阵, 是先验收益率的期望值.
(5) 投资组合优化: 将修正后的期望值与协方差矩阵即 重新代入Markowitz投资组合模型求解.
(1)定义求解函数,输入为投资者观点P,Q以及目前资产的市场收益率矩阵,输出为后验的市场收益率和协方差矩阵.
(2) 实列分析
我们继续研究 python实现资产配置(1)----Markowitz 投资组合模型 中的五支股票: 白云机场, 福建高速, 华夏银行, 生益科技和浙能电力. 假设现在分析师的观点为:
获取股票数据, 并且获得后验的均值和方差:
这时候,已经可以使用Markowitz模型进行资产的配置. 定义新的函数blminVar以求解资产配置权重. 该函数的输入变量为blacklitterman函数的输出结果, 以及投资人的目标收益率goalRet.假设目标收益率为年化70%,则goalRet = 0.7:
输出结果为:
0-5分别对应上面的五只股票.
③ 如何计算向量与权重的乘积
向量与权重的乘积通常是机器学习中常用的运算,可以使用以下方式进行计算:
假设有一个m维向量x,以及m个权重敏竖w1,w2,...,wm,则向量与权重的乘积即为:
x1w1 + x2w2 + ... + xm*wm
其中,xi表示向量x中的第i个元素,wi表示权重中的第i个元素。
在实际机器学习算法中,通常会将向量与权重的乘积表示成矩阵乘法的形式,即将m维向量x表示成1×m的矩阵(行向量),将权重表示成m×1的矩阵(列向量),然后进行矩型拿悔阵乘法运算得卜正到一个标量值。
以Python代码为例,假设向量x和权重w均为长度为3的列表:
import numpy as np
x = [1, 2, 3]
w = [0.5, 0.6, 0.7]
result = np.dot(x, w)
print(result)
# 输出结果为:
# 3.8
④ python怎么根据权重赋分
python怎么根据权重赋分旅核,使用python进行数据分析之前,需要预先导入相对应的功滚镇胡能库。数据分析最常用的库包括用于数值计算的numpy,基于numpy构建的用于科学计算的Pandas库,用于数据可视化的matplotlib和提供各种操作系统功能接口的OS库。我们将这几个库导入到python中, import后是导入库的名称 as后是库的大拦简称。例如pandas库的简称是pd,在后面的代码中看到pd就表示这个操作使用了pandas库
⑤ python 操作memcached
1、设定缓存放在那里:CACHE_BACKEND
也可以使用memcached:CACHE_BACKEND = 'memcached://127.0.0.1:11211/'
多个memcached:CACHE_BACKEND = 'memcached://172.19.26.240:11211;172.19.26.242:11211/'
/// pip install python-memcached
2、python 操作memcached:
import memcache
mc = memcache.Client(['139.129.5.191:12000'], debug=True)
mc.set("name", "python")
ret = mc.get('name')
print (ret)
python
3、设置权重
import memcache
mc = memcache.Client([('1.1.1.1:12000', 1), ('1.1.1.2:12000', 2),('1.1.1.3:12000',3)])
mc.set('k1','value1')
ret = mc.get('k1')
print (ret)
4、已经存在的键重复添加会出错:
import memcache
mc = memcache.Client(['0.0.0.0:12000'])
mc.add('k1', 'v1')
mc.add('k1', 'v2') # 报错,对已经存在的key重复添加,失败!!!
例如:
ret1 = mc.add('name','tom')
print(refalse)
ret2 = mc.add('name','jack')
print(retrue)
结果:
False #当已经存在key 那么返回false
True #如果不存在key 那么返回treue
5、替换操作:replace,如果键不存在,出错
import memcache
mc = memcache.Client(['0.0.0.0:12000'])
mc.set('name','tom')
re = mc.get('name')
print(re)
rereplace = mc.replace('name','jack')
re = mc.get('name')
print(rereplace,re)
结果:
tom #第一次赋值
True jack #如果存在key那么修改成功为yaoyao 返回True
rereplace = mc.replace('name1','hahaha')
re = mc.get('name1')
print(rereplace,re)
结果:
False None #如果不存在key,修改失败,返回空值
6、set:键值存在,就修改,不存在,则创建
import memcache
mc = memcache.Client(['0.0.0.0:12000'])
mc.set('name','tom')
re = mc.get('name')
print('set用法',re) #设置一个键值对
dic = {'name':'to,','age':'19','job':'IT'}
mc.set_multi(dic) #设置多个键值对
mcname = mc.get('name')
mcage = mc.get('age')
mcjob = mc.get('job')
print('set_multi用法:',mcname,mcage,mcjob)
7、delete:
import memcache
mc = memcache.Client(['0.0.0.0:12000'])
mc.set('name','tom')
re = mc.get('name')
print('存在',re)
mc.delete('name')
re = mc.get('name')
print('删除',re) #删除一个键值对
8、get
import memcache
mc = memcache.Client(['0.0.0.0:12000'])
mc.set('name','tom')
re = mc.get('name')
print('get',re) #获取一个键值对
dic = {'name':'to,','age':'19','job':'IT'}
mc.set_multi(dic)
regetmu=mc.get_multi(['name','age','job'])
print('get_multi',re) #获取多个键值对的值
9、append,prepend
import memcache
mc = memcache.Client(['0.0.0.0:12000'])
mc.set('num','第一|')
re = mc.get('num')
print(re)
mc.append('num','追加第二个') #在第一后面追加
re = mc.get('num')
print(re)
mc.prepend('num','我是零个') #在第一前面追加
re = mc.get('num')
print(re)
结果:
第一|
第一|追加第二个
我是零个第一|追加第二个
10、decr,incr自增自减
import memcache
mc = memcache.Client(['0.0.0.0:12000'])
mc.set('num','1')
re = mc.get('num')
print('我是没加过的值',re)
mc.incr('num','9')
re = mc.get('num')
print('我是加上新增后的值',re)
mc.decr('num','5')
re = mc.get('num')
print('我是减去的值',re)
我是没加过的值 1
我是加上新增后的值 10
是减去的值 5
11、锁机制:gets cas
import memcache
mc = memcache.Client(['0.0.0.0:12000'],cache_cas=True)
mc.set('count','10')
reget = mc.get('count')
print('件数',reget)
regets = mc.gets('count')
print(regets)
下面的设置将会执行失败,剖出异常,从而避免非正常数据的产生
recas = mc.cas('count','11')
print(recas)
regets = mc.gets('count')
print('修改',regets)
⑥ 利用Python进行数据分析(10)-移动窗口函数
Python-for-data-移动窗口函数
本文中介绍的是 ,主要的算子是:
统计和通过其他移动窗口或者指数衰减而运行的函数,称之为 移动窗口函数
<style scoped="">.dataframe tbody tr th:only-of-type { vertical-align: middle; } <pre><code>.dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; } </code></pre></style>
2292 rows × 3 columns
rolling算子,行咐肆为和resample和groupby类似
rolling可以在S或者DF上通过销陵一个window进行调用
<style scoped="">.dataframe tbody tr th:only-of-type { vertical-align: middle; } <pre><code>.dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; } </code></pre></style>
2292 rows × 3 columns
指定一个常数衰减因子为观测值提供更多的权重。常用指定衰减因子的方法:使用span(跨度)衡斗轿
一些统计算子,例如相关度和协方差等需要同时操作两个时间序列。
例如,金融分析中的股票和基准指数的关联性问题:计算时间序列的百分比变化pct_change()
<style scoped="">.dataframe tbody tr th:only-of-type { vertical-align: middle; } <pre><code>.dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; } </code></pre></style>
在rolling及其相关方法上使用apply方法提供了一种在移动窗口中应用自己设计的数组函数的方法。
唯一要求:该函数从每个数组中产生一个单值(缩聚),例如使用rolling()...quantile(q)计算样本的中位数
⑦ Python 数据处理(二十四)—— 索引和选择
如果你想获取 'A' 列的第 0 和第 2 个元素,你可以这样做:
这也可以用 .iloc 获取,通过使用位置索引来选择内容
可以使用 .get_indexer 获取多个索引:
警告 :
对于包含一个或多个缺失标签的列表,使用 .loc 或 [] 将不再重新索引,而是使用 .reindex
在以前的版本中,只要索引列表中存在至少一个有效标签,就可以使用 .loc[list-of-labels]
但是现在,只要索引列表中存在缺失的标签将引发 KeyError 。推荐的替代方法是使用 .reindex() 。
例如
索引列表的标签都存在
先前的版本
但是,现在
索引标签列表中包含不存在的标签,使用 reindex
另外,如果你只想选择有效的键,可以使用下面的方法,同时保留了数据的 dtype
对于 .reindex() ,如果有重复的索引将会引发异常
通常,您可以将所需的标签与当前轴做交集,然后重新索引
但是,如果你的索引结果包含重复标签,还是会引发异常
使用 sample() 方法可以从 Series 或 DataFrame 中随机选择行或列。
该方法默认会对行进行采样,并接受一个特定的行数、列数,或数据子集。
默认情况下, sample 每行最多返回一次,但也可以使用 replace 参数进行替换采样
默认情况下,每一行被选中的概率相等,但是如果你想让每一行有不同的概率,你可以为 sample 函数的 weights 参数设置抽样权值
这些权重可以是一个列表、一个 NumPy 数组或一个 Series ,但它们的长度必须与你要抽样的对象相同。
缺失的值将被视为权重为零,并且不允许使用 inf 值。如果权重之和不等于 1 ,则将所有权重除以权重之和,将其重新归一化。例如
当应用于 DataFrame 时,您可以通过简单地将列名作为字符串传递给 weights 作为采样权重(前提是您要采样的是行而不是列)。
sample 还允许用户使用 axis 参数对列进行抽样。
最后,我们还可以使用 random_state 参数为 sample 的随机数生成器设置一个种子,它将接受一个整数(作为种子)或一个 NumPy RandomState 对象
当为该轴设置一个不存在的键时, .loc/[] 操作可以执行放大
在 Series 的情况下,这实际上是一个追加操作
可以通过 .loc 在任一轴上放大 DataFrame
这就像 DataFrame 的 append 操作
由于用 [] 做索引必须处理很多情况(单标签访问、分片、布尔索引等),所以需要一些开销来搞清楚你的意图
如果你只想访问一个标量值,最快的方法是使用 at 和 iat 方法,这两个方法在所有的数据结构上都实现了
与 loc 类似, at 提供了基于标签的标量查找,而 iat 提供了基于整数的查找,与 iloc 类似
同时,你也可以根据这些索引进行设置值
如果索引标签不存在,会放大数据
另一种常见的操作是使用布尔向量来过滤数据。运算符包括:
|(or) 、 &(and) 、 ~ (not)
这些必须用括号来分组,因为默认情况下, Python 会将 df['A'] > 2 & df['B'] < 3 这样的表达式评估为 df['A'] > (2 & df['B']) < 3 ,而理想的执行顺序是 (df['A'] > 2) & (df['B'] < 3)
使用一个布尔向量来索引一个 Series ,其工作原理和 NumPy ndarray 一样。
您可以使用一个与 DataFrame 的索引长度相同的布尔向量从 DataFrame 中选择行
列表推导式和 Series 的 map 函数可用于产生更复杂的标准
我们可以使用布尔向量结合其他索引表达式,在多个轴上索引
iloc 支持两种布尔索引。如果索引器是一个布尔值 Series ,就会引发异常。
例如,在下面的例子中, df.iloc[s.values, 1] 是正确的。但是 df.iloc[s,1] 会引发 ValueError 。
⑧ 利用Python处理Excel数据
如果数据没有标题行,可用pandas添加默认的列名
不读取哪里数据,可用答没灶skiprows=[i],跳过文件的第i行不读取
第一次出现的保留,其余删除
最后一次出现的保留,其余删除
** 对客户聊天记录进行分组 **
** 对符合多个条件进行清扮分组**
需要对每一行进行权重设置,列表行数少可行,过多不可行
假设有4行数据,设置采样权重
自动生成数据的数量,均值,标准差等数据
相关系数在-1到1之间,接近1为正相关,接察拿近-1为负相关,0为不相关
参考书籍:
《利用pythonj进行数据分析》
《从Excel到Python——数据分析进阶指南》
⑨ 如何用python实现网络图节点权重的添加以及如何把一个非连通的大网络图分成多个小网络图
networkx是python的一个库,它为图的数据结构提供算法、生成器以及画图工具。近日在使用ryu进行最短路径获取,可以通过该库来简化工作量。该库采用函数方式进行调用相应的api,其参数类型通常为图对象。
函数API的调用,按照以下步骤来创建构建图:
1.networkx的加载
在python中调用networkx通常只需要将该库导入即可
import networkx as nx
2.图对象的创建
networkx提供了四种基本图对象:Graph,DiGraph,MultiGraph,MultiDiGraph。
使用如下调用方式,可以创建以上四种图对象的空图。
G=nx.Graph()
G=nx.DiGraph()
G=nx.MultiGraph()
G=nx.MultiDiGraph()
在 networkx中,图的各个节点允许以哈希表对象来表示,而对于图中边的各个参量,则可以通过与边相关联的方式来标识,一般而言,对于权重,用weight作为keyword,而对于其他的参数,使用者可以采用任何除weight以外的keyword来命名。
3.在2中,创建的只是一副空图,为了得到一个有节点、有边的图,一般采用下面这个函数:
1
2
G.add_edge(1,2) #default edge data=1
G.add_edge(1,2) #specify edge data=0.9
add_edge()函数,该函数在调用时需要传入两个参数u和v,以及多个可选参数
u和v即图中的两个节点,如果图中不存在节点,在调用时会自动将这两个节点添加入内,同时构建两个节点之间的连接关系,可选参数通常指这条边的权重等关系参量。需要注意的是,如果图中已经存在了这条边,重新进行添加时会对这条边进行跟新操作(也就是覆盖了原有的信息)。
对于该函数,除了上述的构建方式以外,还有以下几种方式来创建边:
1
2
3
G.add_edge(*e) # single edge as tuple of two nodes
G.add_edge(1, 3, weight=7, capacity=15, length=342.7) #using many arguements to create edge
G.add_edges_from( [(1, 2)] ) # add edges from iterable container
有时候,当采用默认方式创建边以后,我们可能还会往边里面添加边的相关参数,这时候,可以采用下面的方式来更新边的信息:
1
2
3
4
5
#For non-string attribute keys, use subscript notation.
G.add_edge(1, 2)
G[1][2].update({0: 5}) #更新边的信息
G.edges[1, 2].update({0: 5}) #更新边的信息
#上述两种更新方式,择一选取即可
细心的朋友可能注意到我在写创建图的内容的时候,提到了add_edges_from()函数,该函数也是用来创建边的,该方式与add_edges()略有不同,比之add_edges()采用一个一个节点的方式进行创建,它来的更为便利。这个函数在调用时,需要一个节点元组作为参数以及多个可选参数作为边的信息。你可以这么传递:
默认创建节点之间的边:
1
G.add_edges_from([(u,v)])
也可以这么写,在创建的同时添加信息:
1
G.add_edges_from([(3, 4), (1, 4)], label='WN2898')
通过上述方式,就构建了一个3-4-1的图的连接,并给每条边打上了标签。
由此你就可以创建出自己的图模型了。
⑩ 怎么用python 计算权重
用numpy,scipy等。 安装后 1 2 import numpy import scipy 便可以进念袭行线仔裤兄性代数矩阵运算,纯明统计运算等。