優步演算法
Ⅰ 人工智慧作惡誰之過
「9·11 是猶太人乾的,把他們都送進毒氣室!種族戰爭現在開始!」
2016年3月23日,一個人設為19歲女性,昵稱為 Tay 的聊天機器人在推特上線。這個微軟開發的機器人能夠通過抓取和用戶互動的數據模仿人類的對話,像人一樣用笑話、段子和表情包聊天。但是上線不到一天,Tay 就被「調教」成了一個滿口叫囂著種族清洗的極端分子,微軟只好以系統升級為由將其下架。
微軟聊天機器人的極端言論。
這樣的口號並不是聊天機器人的發明,而在社交網路上大量存在著。美國大選期間,一些所謂的「政治新媒體」賬號發出的摻雜陰謀論、種族主義的內容,在Facebook 上進行了病毒式傳播。這有賴於人工智慧協助下的「精準定位」:誰最容易相信陰謀論,誰對現實最不滿?相應的政治廣告和假新聞能精準地投放到這群人中,使人對自己的看法更加深信不疑。
因為設計缺陷而 「暴走」的聊天機器人,和精心策劃的線上政治行為,看起來彷彿是兩回事。但這種我們似乎從未見過的景象,卻指向了同一個「凶器」——大數據驅動下的人工智慧。
1、人工智慧有作惡的能力嗎?
人工智慧會「作惡」嗎?面對智能的崛起,許多人抱有憂慮和不安: 擁有感情和偏見的人會作惡,而僅憑理性計算進行判定的計算機似乎也會「作惡」, 且作起來易如反掌。這讓許多人(特別是非技術領域的人)對人工智慧的發展持悲觀態度。
這種憂慮並不是最近才有的。人工智慧這個詞誕生於上世紀50年代,指可體現出思維行動的計算機硬體或者軟體,而 對機器「擁有思維」之後的倫理探討,早至阿西莫夫開始就在科幻作品裡出現。
14 年前,威爾·史密斯主演的電影《機械公敵》里就有這樣一個場景:2035 年的人類社會,超高級的人工智慧承擔大量工作,並與人類和諧相處。這些原本完全符合阿西莫夫「三定律」的人工智慧,在一次關鍵升級之後對人類發起了進攻。這些機器人擁有了思維進化的能力,在它們的推算下,要達到「不傷害人類」的目的,就必須先消滅「彼此傷害」的人類。
十分高產的科幻作家阿西莫夫(1920-1992)。
劍橋分析CEO亞歷山大·尼克斯(Alexander Nix)。
劍橋分析並不是一個孤例。澳洲一個 Facebook 的廣告客戶透露,Facebook 的人工智慧會分析其用戶特徵和所發的內容,給出諸如「有不安全感的年輕人」「抑鬱、壓力大」等標簽,然後有針對性地投放游戲、癮品和甚至虛假交友網站的廣告,從中獲取巨大利益。
即使不存在數據泄露問題,對用戶數據的所謂「智能挖掘」也很容易遊走在「合規」但「有違公平」的邊緣。例如,電商能夠根據一個人的消費習慣和消費能力的計算,對某個人進行針對的、精密的價格歧視。購買同樣的商品,用 iPhone X 手機的用戶很可能會比用安卓「千元機」的用戶付更多的價錢,因為他們「傾向於對價格不敏感」。而我們所經常談論的「大數據殺熟」——比如攜程老用戶訂旅館的價格會更高——也建立在用戶行為數據的基礎上。
數據的收集本身也值得商榷。前網路人工智慧首席科學家吳恩達(Andrew Ng)就曾公開表示, 大公司的產品常常不是為了收入而做,而是為了用戶的數據而做;在某一個產品上收集的數據,會用於在另一個產品上獲利。 在智能面前,沒有所謂的個人隱私和行蹤,也很難確定數據收集的邊界在哪裡,尤其是個人隱私與公共信息、主動提供與被動提供的邊界。
總而言之, 在以商業利益為目標的人工智慧眼裡,並沒有「人」或者「用戶」的概念,一切都是可以利用的數據。 劍橋大學互聯網與社會研究中心教授朔沙娜·祖博夫將這種人工智慧和資本「合體」的現狀,稱之為 「監控資本主義」 (Surveillance Capitalism)——在大數據和人工智慧的協助下,通過對每個人的監控和信息的榨取,實現資本的最大化。
業界對此的態度很曖昧。AI 作為當下最熱門、來錢最快的行當之一,這些動輒年薪50萬美元的工程師很少得閑來思考「形而上」的問題。 一位不願具名的研究人員在與我的微信私聊中表達了他的「個人看法」:「現在的技術離『通用人工智慧』還很遠,對社會倫理方面的影響沒有那麼大,更多還是從繁瑣的重復勞動中解脫出來。」
作者試圖找到行業內人士對此評論,谷歌(中國)和網路自動駕駛部門的人工智慧相關人員均表示,探討 AI 的社會問題,牽涉到公司利益和形象,比較敏感,不便評論。
「人工智慧作為一個工具,如何使用,目前來看決定權依然在人。」俞揚說道 ,「系統的設計者和商業(應用)的提供人員需要對此負責。」
如何負責?這或許需要我們正視人工智慧對整個社會關系的挑戰。
4、人工智慧作惡之後
2018年3月 19 日,一輛自動駕駛的優步(Uber)在美國亞利桑那州惹上了麻煩。面對路中出現的一個推著自行車的女性,這輛車速 38 mph(約61km/h)的沃爾沃在昏暗的光線條件下並沒有減速,徑直撞了上去,受害者被送往醫院之後不治身亡。這是自動駕駛第一例行人致死的事故。
電視台對自動駕駛優步車禍的報道。
事故發生之後,有不少人將矛頭指向了自動駕駛的人工智慧是否足夠安全上,或者呼籲優步禁止自動駕駛。然而更關鍵的問題在於,亞利桑那有著全美國幾乎最開放的自動駕駛政策,事故發生地坦佩市(Tempe)是實行自動駕駛最火的「試驗田」之一;事故所在的街區早已做過路線測試,並被自動駕駛的智能採納。但是在事故發生之後,對於責任的認定依然遇到了困難。
因為人的疏忽造成的車禍數不勝數,人們早已習慣了如何處理、怎樣追責;然而機器出錯了之後,人們忽然手足無措。 人工智慧會出錯嗎?當然會。只是我們在這個問題上一直缺乏認知。 就如同上文提到的「隱性歧視」,深度學習的「黑箱」,現有的法律法規很難對這些錯誤進行追究,因為不要說普通人,就連技術人員也很難找出出錯的源頭。
當人工智慧的決策在人類社會中越來越重要時,我們也不得不考慮,智能為什麼會犯錯,犯錯了怎麼辦;若要讓智能擺脫被商業或者政治目的支使的工具,真正成為人類的「夥伴」, 需要怎麼監管、如何教育,才能讓人工智慧「不作惡」。
人工智慧的監管問題亟待解決。
對此,現有的法律框架內很難有清晰的、可操作的實施方案。歐盟率先在數據和演算法安全領域做出了立法的嘗試,2018年5月即將生效的新法規規定,商業公司有責任公開「影響個人的重大決策」是否由機器自動做出,且做出的決策必須要「可以解釋」(explainable)。但法條並沒有規定怎麼解釋,以及細到什麼程度的解釋是可以接受的。
另外一個重要的問題是, 讓機器求真求善,需要人類自己直面決策中的黑暗角落。 在 Atari 游戲智能的測試中,游戲中的人工智慧 bot 可以用最快的速度找到漏洞開始作弊,而游戲玩家又何嘗不是呢?不管是帶有歧視的語義分析,針對少數族裔進行的「智能監視」和跟蹤,或者把已婚未育女性的簡歷扔掉的智能簡歷篩選,都長期以各種形式存在於人類社會中。
人工智慧不是一個可預測的、完美的理性機器,它會擁有人類可能擁有的道德缺陷,受制於人們使用的目標和評估體系。 至少目前,機器依然是人類實然世界的反應,而不是「應然世界」的指導和先驅。 對機器的訓練同樣少不了對人性和社會本身的審視——誰在使用,為了什麼而使用,在我們的世界中扮演著怎樣的角色?數據是誰給的,訓練的目標是誰定的?我們期望中的機器,會繼承我們自己的善惡嗎?
谷歌中國人工智慧和機器學習首席科學家李飛飛認為, 要讓機器「不作惡」,人工智慧的開發需要有人本關懷 。「AI 需要反映我們人類智能中更深層的部分,」李飛飛在《紐約時報》的專欄中寫道,「要讓機器能全面地感知人類思維……知道人類需要什麼。」她認為,這已經超越了單純計算機科學的領域,而需要心理學、認知科學乃至社會學的參與。
未來,人工智慧進入更多的領域、發揮更強的功能,是無可爭辯的事實。然而,我們的生產關系能否適應人工智慧帶來的生產力,這句馬克思政治經濟學的基本原則值得我們認真思考一番。 我們並不想看到未來的「機器暴政」將我們的社會綁在既有的偏見、秩序和資本操縱中。
一個AI
人工智慧之所以會作惡,可能就是因為太像人類了吧。
Ⅱ 預警系統應該使用什麼演算法比較合適
架構以及我理解中架構的本質
在開始談我對架構本質的理解之前,先談談對今天技術沙龍主題的個人見解,千萬級規模的網站感覺數量級是非常大的,對這個數量級我們戰略上 要重 視 它 , 戰術上又 要 藐 視 它。先舉個例子感受一下千萬級到底是什麼數量級?現在很流行的優步(Uber),從媒體公布的信息看,它每天接單量平均在百萬左右, 假如每天有10個小時的服務時間,平均QPS只有30左右。對於一個後台伺服器,單機的平均QPS可以到達800-1000,單獨看寫的業務量很簡單 。為什麼我們又不能說輕視它?第一,我們看它的數據存儲,每天一百萬的話,一年數據量的規模是多少?其次,剛才說的訂單量,每一個訂單要推送給附近的司機、司機要並
發搶單,後面業務場景的訪問量往往是前者的上百倍,輕松就超過上億級別了。
今天我想從架構的本質談起之後,希望大家理解在做一些建構設計的時候,它的出發點以及它解決的問題是什麼。
架構,剛開始的解釋是我從知乎上看到的。什麼是架構?有人講, 說架構並不是一 個很 懸 乎的 東西 , 實際 上就是一個架子 , 放一些 業務 和演算法,跟我們的生活中的晾衣架很像。更抽象一點,說架構其 實 是 對 我 們 重復性業務 的抽象和我 們 未來 業務 拓展的前瞻,強調過去的經驗和你對整個行業的預見。
我們要想做一個架構的話需要哪些能力?我覺得最兆灶敬重要的是架構師一個最重要的能力就是你要有 戰 略分解能力。這個怎麼來看呢:
第一,你必須要有抽象的能力,抽象的能力最基本就是去重,去重在整個架構中體現在方方面面,從定義一個函數,到定義一個類,到提供的一個服務,以及模板,背後都是要去重提高可復用率。
第二, 分類能力。做軟體需要做對象的解耦,要定義對象的屬性和方法,做分布式系統的時候要做服務的拆分和模塊化,要定義服務的介面和規范。
第三, 演算法(性能),它的價值體現在提升系統的性能,所有性能的提升,最終都會落到CPU,內存,IO和網路這4大塊上。
這一頁PPT舉了一些例子來更深入的理解常見技術背後的架構理念。
第一個例子,在分布式系統我們會做 MySQL分 庫 分表,我們要從不同的庫和表中讀取數據,這樣的抽象最直觀就是使用模板,因為絕大多數SQL語義是相同的,除了路由到哪個庫哪個表,如果不使用Proxy中間件,模板就是性價比最高的方法。
第二看一下加速網路的CDN,它是做速度方面的性能提升,剛才我們也提到從CPU、內存、IO、網路四個方面來考慮,CDN本質上一個是做網路智能調度優化,另一個是多級緩存優化。
第三個看一下服務化,剛才已經提到了,各個大網站轉型過程中一定會做服務化,其實它就是做抽象和做服務的拆分。第四個看一下消息隊列,本質上還是做分類,只不過不是兩個邊際清晰的類,而是把兩個邊際不清晰的子系統通過隊列解構並且非同步化。
新浪微博整體架構是什麼樣的
接下我們看一下微博整體架構,到一定量級的系統整個架構都會變成三層,客戶端包括WEB、安卓和IOS,這里就不說了。
接著還都會有一個介面層, 有三個主要作用:
第一個作用,要做 安全隔離,因為前端節點都是直接和用戶交互,需要防範各種惡意攻擊;
第二個還充當著一個 流量控制的作用,大家知道,在2014年春節的時候,微信紅包,每分鍾8億多次的請求,其實真正到它後台的請求量,只有十萬左右的數量級(這里的數據可能不準),剩餘的流量在介面層就被擋住了;
第族慎三,我們看對 PC 端和移 動 端的需求不一樣的,所以我們可以進行拆分。介面層之後是後台,可以看到微博後台有三大塊:
一個是 平台服 務,
第二, 搜索,
第三, 大數據。
到了後台的各種服務其實都是處理的數據。 像平台的業務部門,做的就是 數據辯廳存儲和讀 取,對搜索來說做的是 數據的 檢 索,對大數據來說是做的數據的 挖掘。微博其實和淘寶是很類似
微博其實和淘寶是很類似的。一般來說,第一代架構,基本上能支撐到用戶到 百萬 級別,到第二代架構基本能支撐到 千萬 級別都沒什麼問題,當業務規模到 億級別時,需要第三代的架構。
從 LAMP 的架構到面向服 務 的架構,有幾個地方是非常難的,首先不可能在第一代基礎上通過簡單的修修補補滿足用戶量快速增長的,同時線上業務又不能停, 這是我們常說的 在 飛 機上 換 引擎的 問題。前兩天我有一個朋友問我,說他在內部推行服務化的時候,把一個模塊服務化做完了,其他部門就是不接。我建議在做服務化的時候,首先更多是偏向業務的梳理,同時要找准一個很好的切入點,既有架構和服務化上的提升,業務方也要有收益,比如提升性能或者降低維護成本同時升級過程要平滑,建議開始從原子化服務切入,比如基礎的用戶服務, 基礎的短消息服務,基礎的推送服務。 第二,就是可 以做無狀 態 服 務,後面會詳細講,還有數據量大了後需要做數據Sharding,後面會將。 第三代 架構 要解決的 問題,就是用戶量和業務趨於穩步增加(相對爆發期的指數級增長),更多考慮技術框架的穩定性, 提升系統整體的性能,降低成本,還有對整個系統監控的完善和升級。
大型網站的系統架構是如何演變的
我們通過通過數據看一下它的挑戰,PV是在10億級別,QPS在百萬,數據量在千億級別。我們可用性,就是SLA要求4個9,介面響應最多不能超過150毫秒,線上所有的故障必須得在5分鍾內解決完。如果說5分鍾沒處理呢?那會影響你年終的績效考核。2015年微博DAU已經過億。我們系統有上百個微服務,每周會有兩次的常規上線和不限次數的緊急上線。我們的挑戰都一樣,就是數據量,bigger and bigger,用戶體驗是faster and faster,業務是more and more。互聯網業務更多是產品體驗驅動, 技 術 在 產 品 體驗上最有效的貢獻 , 就是你的性能 越來越好 。 每次降低載入一個頁面的時間,都可以間接的降低這個頁面上用戶的流失率。
微博的技術挑戰和正交分解法解析架構
下面看一下 第三代的 架構 圖 以及 我 們 怎麼用正交分解法 闡 述。 我們可以看到我們從兩個維度,橫軸和縱軸可以看到。 一個 維 度 是 水平的 分層 拆分,第二從垂直的維度會做拆分。水平的維度從介面層、到服務層到數據存儲層。垂直怎麼拆分,會用業務架構、技術架構、監控平台、服務治理等等來處理。我相信到第二代的時候很多架構已
經有了業務架構和技術架構的拆分。我們看一下, 介面層有feed、用戶關系、通訊介面;服務層,SOA里有基層服務、原子服務和組合服務,在微博我們只有原子服務和組合服務。原子服務不依賴於任何其他服務,組合服務由幾個原子服務和自己的業務邏輯構建而成 ,資源層負責海量數據的存儲(後面例子會詳細講)。技 術框架解決 獨立於 業務 的海量高並發場景下的技術難題,由眾多的技術組件共同構建而成 。在介面層,微博使用JERSY框架,幫助你做參數的解析,參數的驗證,序列化和反序列化;資源層,主要是緩存、DB相關的各類組件,比如Cache組件和對象庫組件。監 控平台和服 務 治理 , 完成系統服務的像素級監控,對分布式系統做提前診斷、預警以及治理。包含了SLA規則的制定、服務監控、服務調用鏈監控、流量監控、錯誤異常監控、線上灰度發布上線系統、線上擴容縮容調度系統等。
Ⅲ 《優步:演算法重新定義工作》pdf下載在線閱讀全文,求百度網盤雲資源
《優步:演算法重新定義工作》網路網盤pdf最新全集下載:
鏈接:https://pan..com/s/1MUSD3m4rm42jlFRB5PiIKg
簡介:在這本書里,作者帶我們認識到了新興數字科技的本質。優步崛起的背景是美國的金融危機和階層固化。對司機,它推卸責任,強化管理;對乘客,它監控數據,調整費率,而對媒體,它以演算法為理由掩蓋自己的商業手段。通過演算法,優步在潛移默化中實現了操控大眾的目的。同時本書探討了以優步為代表的互聯網科技是如何重新定義工作、社會和文化的。對商家,它讓數據成為最重要的資源之一;對民眾,它讓更多人用網路創業代替了固定上班;對社會,它重新定義了僱傭關系,更需要日趨完善的監管體系來制約。