国模二区,在线无码一区二区三区四区,成人理论视频三区,久久人色,阿∨在线播放,天天操天天干天天摸,亚洲成人高清,亚洲色图欧美色图成人电影

? ? ?作者：鼠

? ? ?來源：智能演示

應用場景：工作中經常遇到大量的數(shù)據(jù)需要整合、去重、按照特定格式導出等情況。如果用 Excel 操作，不僅費時費力，還不準確，有么有更高效的解決方案呢？

本文以17個 txt 文本，3萬多條數(shù)據(jù)為例，使用 Python 連接 MySQL 數(shù)據(jù)庫，實現(xiàn)快速操作。

別人加班干的活，我的 Python 小助手幾秒鐘就搞定了！

本文主要包括以下三方面內容：

數(shù)據(jù)寫入
數(shù)據(jù)去重
數(shù)據(jù)導出

將數(shù)據(jù)寫入 MySQL 數(shù)據(jù)庫

下圖所示文件是本文的數(shù)據(jù)源：

我們的設想是：編寫一個小程序，扔在這個文件夾里，雙擊后就可以自動讀取每個 txt 文檔中的數(shù)據(jù)，并寫入數(shù)據(jù)庫。

代碼如下：

import pymysql
import os
conn = pymysql.connect(host='localhost', user='root', password='123456', db='qq', charset='utf8')
cur = conn.cursor()
cur.execute("CREATE TABLE qq ( id int(5) NOT NULL auto_increment, qq varchar(20)NOT NULL, PRIMARY KEY  (id));")
conn.commit()
path = os.getcwd()
files = os.listdir(path)
i = 0
for file in files:
    f = open(file,'r',encoding = 'UTF-8')
    next(f)
for line in f:
        i += 1
#print(line)
        sql = "insert into qq(qq) values(%s);"
        cur.execute(sql,line)
        print("插入第", i, "條數(shù)據(jù)！")
        conn.commit()
    f.close()
cur.close()
conn.close()

運行效果：

重點代碼解釋：

這段代碼用到了 pymysql 和 os 兩個庫。

pymysql：用來操作 MySQL 數(shù)據(jù)庫；
os：用來遍歷所在文件夾下的所有文件。

現(xiàn)將主要代碼解釋如下：

1、遍歷任意文件夾下所有文件名稱

程序寫好后，使用 pyinstaller 打包成 exe 程序，并放在要操作的文件夾下面。

通過 path = os.getcwd()命令，獲取該 exe 文件所在目錄。

通過 files = os.listdir(path)命令，獲取 exe 文件所在目錄下的所有文件名稱，并存入 files 列表中。

這樣我們就獲得了所有的 txt 文件名稱，你可以任意命名你的 txt 文件名，程序都能讀出來。

2、將數(shù)據(jù)寫入數(shù)據(jù)庫

（1）連接數(shù)據(jù)庫，并在數(shù)據(jù)庫中創(chuàng)建新表

A. 連接到我的 qq 數(shù)據(jù)庫

conn = pymysql.connect(host='localhost', user='root', password='123456', db='qq', charset='utf8')

B. 創(chuàng)建新表 qq

在 qq 數(shù)據(jù)庫中創(chuàng)建新表，表名稱為 qq ，包含 2 個字段：id 字段為主鍵、自動遞增；qq 字段為字符型，用于存儲數(shù)據(jù)。

cur.execute("CREATE TABLE qq ( id int(5) NOT NULL auto_increment, qq varchar(20)NOT NULL, PRIMARY KEY (id))")

（2）將數(shù)據(jù)寫入數(shù)據(jù)庫

這里使用了兩層循環(huán)：

for file in files:
    f = open(file,'r',encoding = 'UTF-8')
    next(f)
for line in f:
        i += 1
#print(line)
        sql = "insert into qq(qq) values(%s);"
        cur.execute(sql,line)
        print("插入第", i, "條數(shù)據(jù)！")
        conn.commit()
    f.close()

第一層循環(huán)是用來依次打開上述 17 個 txt 文件。

第二層循環(huán)是依次讀取每個 txt 文件的每一行，并將改行數(shù)據(jù)插入數(shù)據(jù)庫表 qq 的 qq字段。

至此就完成了數(shù)據(jù)的導入，總共32073條數(shù)據(jù)。

數(shù)據(jù)清洗

這里以去除重復值為例，簡單介紹一下數(shù)據(jù)清洗。

1、創(chuàng)建一個新表，用來存儲清洗后的數(shù)據(jù)

可以在 cmd 窗口下登陸 MySQL，打開 qq 數(shù)據(jù)庫，執(zhí)行下列操作：

CREATE TABLE qq_dist ( id int(5) NOT NULL auto_increment, qq varchar(20)NOT NULL, PRIMARY KEY (id));

這樣就創(chuàng)建了新表 qq_dist ,用來存儲清洗后的數(shù)據(jù)，便于后期調用。

2、清洗數(shù)據(jù)

登陸 MySQL 后，執(zhí)行下列操作：

insert into qq_dis(qq) select distinct qq from qq;

將從 qq 表中查找出的不重復的 qq 字段內容，插入到 qq_dist 表中的 qq 字段。

將數(shù)據(jù)按照特定格式導出

案例：將清洗后的數(shù)據(jù)的第101-200行導出到新的 txt 文本中。

代碼如下：

import pymysql
conn = pymysql.connect(host='localhost', user='root', password='123456', db='wxid', charset='utf8')
print("寫入中，請等待……")
cur = conn.cursor()
sql = "select wxid from wd_dis limit 100,100;"
cur.execute(sql)
conn.commit()
alldata = cur.fetchall()
f = open('data101-200.txt','a')
i = 0
for data in alldata:
    i += 1
    f.write(data[0])
    f.flush()
f.close
cur.close()
conn.close()
print("寫入完成,共寫入{}條數(shù)據(jù)！".format(i))

重點代碼解釋：

1、 limit

MySQL 中 limit m,n 函數(shù)的含義是：從第 m+1 行開始讀取 n 行。

所以，本案例中讀取第101-200行，就是 limit 100,100

2、flush()

flush()函數(shù)一定要加上，它可以將緩沖區(qū)的數(shù)據(jù)寫入文件中。否則就會出現(xiàn)生成的 txt 文檔為空白的錯誤。

其他代碼都很簡單，本文不再贅述。
歡迎大家在下方留言板留言交流！
原創(chuàng)不易，方便的話就轉發(fā)、在看唄……

◆?◆?◆ ?◆?◆

長按二維碼關注我們

數(shù)據(jù)森麟公眾號的交流群已經建立，許多小伙伴已經加入其中，感謝大家的支持。大家可以在群里交流關于數(shù)據(jù)分析&數(shù)據(jù)挖掘的相關內容，還沒有加入的小伙伴可以掃描下方管理員二維碼，進群前一定要關注公眾號奧，關注后讓管理員幫忙拉進群，期待大家的加入。

管理員二維碼：

我用 Python 處理3萬多條數(shù)據(jù),只要幾秒鐘……

將數(shù)據(jù)寫入 MySQL 數(shù)據(jù)庫

代碼如下：

運行效果：

重點代碼解釋：

數(shù)據(jù)清洗

將數(shù)據(jù)按照特定格式導出

代碼如下：

重點代碼解釋：