Python
 Computer >> コンピューター >  >> プログラミング >> Python

Pythonでメディアファイルをスクレイプする方法は?


はじめに

実際の企業のビジネス環境では、ほとんどのデータはテキストまたはExcelファイルに保存されない場合があります。 Oracle、SQL Server、PostgreSQL、MySQLなどのSQLベースのリレーショナルデータベースが広く使用されており、多くの代替データベースが非常に人気があります。

データベースの選択は通常、アプリケーションのパフォーマンス、データの整合性、およびスケーラビリティのニーズに依存します。

その方法..

この例では、sqlite3データベースを作成する方法を説明します。 sqlliteはデフォルトでpythonインストールでインストールされ、それ以上のインストールは必要ありません。よくわからない場合は、以下をお試しください。パンダもインポートします。

SQLからDataFrameへのデータのロードはかなり簡単で、pandasにはプロセスを簡素化するためのいくつかの関数があります。

 import sqlite3import pandas as pdprint(f "Output \ n {sqlite3.version}")

出力

 2.6.0 

出力

#connection objectconn =sqlite3.connect( "example.db")#customers datacustomers =pd.DataFrame({"customerID":["a1"、 "b1"、 "c1"、 "d1"]、 "firstName ":[" Person1 "、" Person2 "、" Person3 "、" Person4 "]、" state ":[" VIC "、" NSW "、" QLD "、" WA "]})print(f"出力\n ***顧客情報-\n{customers} ")

出力

***顧客情報-customerIDfirstNamestate0 a1 Person1 VIC1 b1 Person2 NSW2 c1 Person3 QLD3 d1 Person4 WA 
#orders dataorders =pd.DataFrame({"customerID":["a1"、 "a1"、 "a1"、 "d1"、 "c1"、 "c1"]、 "productName":["ロードバイク"、"マウンテンバイク "、"ヘルメット "、"グローブ "、"ロードバイク "、"グラス "]})print(f"出力\n***注文情報-\n{注文}")

出力

***注文情報-customerIDproductName0a1ロードバイク1a1マウンテンバイク2a1ヘルメット3d1グローブ4c1ロードバイク5c1メガネ
#dbcustomers.to_sql( "customers"、con =conn、if_exists ="replace"、index =False)orders.to_sql( "orders"、conn、if_exists ="replace"、index =False)<に書き込みます/ pre> 

出力

#frame a sql to fetch the data.q ="" "selectorders.customerID、customers.firstName、count(*)as productQuantityfromordersleft join Customersonorders.customerID =Customers.customerIDgroup by Customers.firstName;" "" 

出力

#sql.pd.read_sql_query(q、con =conn)を実行します

7.すべてをまとめます。

 import sqlite3import pandas as pdprint(f "Output \ n {sqlite3.version}")#connection objectconn =sqlite3.connect( "example.db")#customers datacustomers =pd.DataFrame({"customerID":[" a1 "、" b1 "、" c1 "、" d1 "]、" firstName ":[" Person1 "、" Person2 "、" Person3 "、" Person4 "]、" state ":[" VIC "、" NSW " 、"QLD"、 "WA"]})print(f "*** Customers info-\ n {customers}")#orders dataorders =pd.DataFrame({"customerID":["a1"、 "a1"、 "a1"、 "d1"、 "c1"、 "c1"]、 "productName":["ロードバイク"、 "マウンテンバイク"、 "ヘルメット"、 "グローブ"、 "ロードバイク"、"メガネ"]} )print(f"***注文情報-\n {orders}")#dbcustomers.to_sql( "customers"、con =conn、if_exists ="replace"、index =False)orders.to_sql("ordersに書き込みます"、conn、if_exists =" replace "、index =False)#SQLをフレーム化してデータをフェッチします。q=" "" selectorders.customerID、customers.firstName、count(*)as productQuantityfromordersleft join Customersonorders.customerID =Customers.firstName; "" "#を実行するcustomers.customerIDgroup sql.pd.read_sql_query(q、con =conn)

出力

2.6.0***顧客情報-customerIDfirstNamestate0 a1 Person1 VIC1 b1 Person2 NSW2 c1 Person3 QLD3 d1 Person4WA***注文情報-customerIDproductName0a1ロードバイク1a1マウンテンバイク2a1ヘルメット3d1手袋4c1ロードバイク5c1眼鏡customerID firstName productQuantity ____________________________________0 a1 Person1 31 c1 Person3 22 d1 Person4 1 

  1. PythonでPDFファイルをクラックする方法は?

    Pythonには、アプリケーションの作成と開発、Web開発、科学計算、ソフトウェアテスト、機械学習など、さまざまな目的で使用されるライブラリの豊富なコレクションがあります。 Pythonは、情報セキュリティの観点からシステムアプリケーションのテストと開発にも使用されます。ハッシュの作成、情報収集、情報検索、暗号化と復号化、Webクロール、なりすましなどに使用される特定のスクリプトを含む、利用可能な他のライブラリとツールがいくつかあります。 この記事では、パスワードで保護されたPDFドキュメントを復号化するプログラムを作成します。復号化には、いくつかの一般的なパスワードを含む単語リストを使用し

  2. Pythonを使用してパワーポイントファイルを作成する方法

    はじめに 私たちは皆、人生のある時点でPowerPointプレゼンテーションを作成する必要がありました。ほとんどの場合、MicrosoftのPowerPointまたはGoogleスライドを使用しました。 しかし、メンバーシップやインターネットへのアクセスがない場合はどうなりますか?または、「プログラマー」のやり方でやりたいと思ったらどうしますか? ええと、Pythonが戻ってきても心配しないでください! この記事では、Pythonを使用してPowerPointファイルを作成し、それにコンテンツを追加する方法を学習します。それでは始めましょう! はじめに このウォークスルーでは、 py