最新文章Linux基础
Linux基础命令ls命令的讲解ls -a 的选项
-a选项,表示:all的意思,即列出全部文件夹(包含隐藏的文件/文件夹)
表示是Linux系统的隐藏文件/文件夹(只要以.开头的,就能自动隐藏)
只有通过-a选项,才能看到这些隐藏文件/文件夹
ls -l选项
-l表示:以列表(竖向排列)的形式展示内容并展示更多内容
ls命令选项的组合使用
ls -l -a
ls -la
ls -al
上述三种写法,都是一样的,表示同时应用-l和-a的功能
ls命令的 -h选项
ls [-a -l -h] [Linux路径]
-h表示以阅读的形式,列出文件大小,如K、M、G
-h选项必须搭配-l一起使用
cd和pws命令cd的切换命令使用语法: cd [Linux路径]
cd命令无需选项,只有参数,表示要切到哪个目录下
cd命令直接执行,不写参数,表示回到用户的HOME目录
pwd查看当前工作目录语法: pwd
pwd命令,无选项,无参数,直接输入pwd即可
相对路径、绝对路径和特殊路径符绝对路径
绝对路径:以根目录起点。描述路径的一种写法 ...
国赛题-第十套题
第十套题一、python部分1、数据处理 1 、删除 hotel.csv 中 商 圈 为 空 的 数 据 并 且 存 入 hotel2_c1_N.csv,N 为删除的数据条数;
import pandas as pd# 读取数据df = pd.read_csv('./data/hotel.csv')# print(df.info())# 删除 hotel.csv 中 商 圈 为 空 的 数 据 并 且 存 入 hotel2_c1_N.csv,N 为删除的数据条数;df_1 = df.dropna(subset='shopping')df_2 = len(df)-len(df_1)print(df_2)df_1.to_csv(f'hotel2_c1_{df_2}.csv')
2、删除 hotel.csv 中缺失值大于 3 个的数据列并且存 入 hotel2_c2_N.csv,N 为删除的数据列变量名,多列时用下 划线“_”间隔无顺序要求;
import pandas as pd# 读取数据df = pd. ...
国赛题-第八套题
第八套题:一、Python部分1.数据处理打印data.csv数据
# 导入库import pandas as pd# 导入数据big_data = pd.read_csv('./csv文档/data.csv')# 打印数据print(big_data)# 打印字段print(big_dta.info())
2.子任务二:数据处理
现已从相关网站及平台获取到原始数据集,为保障用户 隐私和行业敏感信息,已进行数据脱敏。数据脱敏是指对某 些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数 据的可靠保护。在涉及客户安全数据或者一些商业性敏感数 据的情况、不违反系统规则条件下,对真实数据进行改造并 提供测试使用,如身份证号、手机号等个人信息都需要进行 数据脱敏。
打开 ZZ052-8-M2-T1-SUBT1 文件夹,文件夹中包含 data.csv 文件。你的小组需要通过编写代码或脚本完成对 相关数据文件中数据的清洗和整理。请分析相关数据集, 根据题目规定要求实现数据处理,具体要求如下:
1.NAN值代表用户未浏览该页面,查看数据,将NAN 替换为0,然后存入 ...
hadoop-hdfs命令基本操作
hadoop-hdfs命令基本操作python打印数据# 1.首先导入库import pandas as pd# 2.读取数据 (../data/hotel_comment.csv这个是你数据文件的路径) (encoding="gbk"这个是编码)df = pd.read_csv("../data/hotel_comment.csv", encoding="gbk")# 3.打印数据 print是打印的意思 df是你读取到的数据赋值给dfprint(df)# 4.打印有多少个字段print(df.info())
常用的HDFS命令选项1.上传 -puthdfs -dfs -put /根目录文件路径 /上传到hdfs路径
2.下载 -gethdfs dfs -get /hdfs文件路径 /下载到根目录什么哪个链接
3.查看文件和目录 -ls (/是直接查全部或者后面可以指定文件路径)hdfs dfs -ls /
4.新建 -mkdir 表示如果当前路径下不存在该目录(文件夹),则新建该目录(文件夹)hdf ...
国赛题-第七套题
第七套题:一、Python部分1、数据处理(1)查看 train.csv 中数据总数、标准差、均值、最 小值、四分之一分位数、二分之一分位数、四分之三分位 数和最大值; 将上述代码截图复制粘贴至客户端桌面 【M2-T1-SUBT2-提交结果 1.docx】中对应的任务序号下。
import pandas as pddata = pd.read_csv('./文本/train.csv', encoding='gbk')# print('打印导入的数据:', data)# 选择数值型的列numeric_data = data.select_dtypes(include=['int64', 'float64'])# 总数data_1 = len(numeric_data)print('总数:',data_1)# 标准差data_2 = numeric_data.std()print('标准差:',data_2)# 均值data_3 = numeric_d ...
国赛题-第六套题
第六套题:一、Python部分1、数据处理1.根据 distribution.csv 文件统计单条数据缺失字段计 数的最大值,将结果输出到控制台,输出格式如下: ===单条数据缺失字段计数的最大值为***===
import pandas as pddf = pd.read_csv('../data/distribution.csv')missing_counts = df.isnull().sum()max_missing_count = missing_counts.max()print("===单条数据缺失字段计数的最大值为{}===".format(max_missing_count))
2、数据标注 在末尾新增一列数据为“当日是否解冻”,若当日 最高温大于 0,并且风力小于等于 2 级,打标签为‘是’;否 则打标签为‘否’。标记完成后保存到当前目录,文件命名 为“annotation.xlsx”,并将数据截图粘贴到答题报告对应位置。
# 导入库import ...
国赛题-第五套题
第五套题:一、Python部分1.数据处理1.读取已经爬取到的 distribution.csv 数据文件,根据 表头字段名统计每一列缺失值个数
# 导入库import pandas as pd# 读取数据df = pd.read_csv("../data/distribution.csv") # 读取已经爬取到的 distribution.csv 数据文件,根据 表头字段名统计每一列缺失值个数df = df.isnull().sum()print(f"===统计每一列缺失值个数为\n{df}===")
2.数据标注使用 Pandas 读取数据后,将数据按日期列升序排列, 在末尾新增一列数据为“是否适合出行游玩”,若当日为周 六周日,气温大于等于 18 度小于等于 30 度,并且不下雨, 打标签为‘是’;否则打标签为‘否’。标记完成后将标记数 据集保存到项目下的“taged_data.xlsx”的文件中
import pandas as pd# 读取数据df = pd.read_excel("../data/鞍山. ...
国赛题-第四套题
第四套题:一、Python部分1、数据处理1.删除shopping.csv中库存小于 10 或库存大于 10000 的数据,并存入shop1.csv;
# 导入库import pandas as pd# 读取数据df = pd.read_csv("../data/shopping.csv")print(df.info())# 删除shopping.csv中库存小于 10 或库存大于10000 的数据,并存入shop1.csvdf_1 = df.drop(df[(df['库存'] < 10) | (df['库存'] > 10000)].index)print(df_1['库存'])df_1.to_csv("shop1.csv")
2.将涉及“刷单”、“捡漏”等字段的数据删除, 并存入shop2.csv;
# 导入库import pandas as pd# 读取数据df = pd.read_csv("../data/shopping.csv")print ...
国赛题-第三套题
第三套题一、python部分( 1 ) 删 除 hotel.csv 中 商 圈 为 空 的 数 据 并 且 存 入 hotel2_c1_N.csv,N 为删除的数据条数;
shopping:这个是商圈的英文名称
dropna:删除是否为空
subset:判断哪一个字段
len:用于返回一个对象的长度或元素的数量。它可以用于字符串、列表、元组、字典、集合等可迭代对象。
to_csv:保存的csv文件
# 导入库import pandas as pd# 读取数据df = pd.read_csv("文件路径")# 删除商圈为空的数据df_1 = df.dropna(subset=['shopping'])# 用len判断元素数量,然后用原数据减去删除的数据df_2 = len(df) - len(df_1)# 保存数据 encoding='utf-8':字符格式df.to_csv(f'hotel2_c1_{df_2}.csv', encoding='u ...
Python-Request数据爬取
需要引入的库源码
import Requests
from lxml import etree
import time
import os
import csv
代码部分源码import requestsfrom lxml import etreeimport timeimport base64import osimport csvclass TqSpider: def __init__(self): # 请求的ip地址 self.index_url = 'http://127.0.0.1:5000/' # 请求头 self.headers = { "Cookie": 'salt="\302\210D\303\2609\302\221\007\302\230\302\211f9\303\254J:U\027\303\205V\302\276\302\213\303\257\303\227\303\230\303\223\303\2 ...