MENGLAN

发表于2024-09-07 Linux基础

Linux基础命令ls命令的讲解ls -a 的选项 -a选项，表示：all的意思，即列出全部文件夹（包含隐藏的文件/文件夹）表示是Linux系统的隐藏文件/文件夹（只要以.开头的，就能自动隐藏）只有通过-a选项，才能看到这些隐藏文件/文件夹 ls -l选项 -l表示：以列表（竖向排列）的形式展示内容并展示更多内容 ls命令选项的组合使用 ls -l -a ls -la ls -al 上述三种写法，都是一样的，表示同时应用-l和-a的功能 ls命令的 -h选项 ls [-a -l -h] [Linux路径] -h表示以阅读的形式，列出文件大小，如K、M、G -h选项必须搭配-l一起使用 cd和pws命令cd的切换命令使用语法: cd [Linux路径] cd命令无需选项，只有参数，表示要切到哪个目录下 cd命令直接执行，不写参数，表示回到用户的HOME目录 pwd查看当前工作目录语法: pwd pwd命令，无选项，无参数，直接输入pwd即可相对路径、绝对路径和特殊路径符绝对路径绝对路径：以根目录起点。描述路径的一种写法 ...

国赛题-第三套题

国赛题-第十套题

发表于2024-01-25 国赛题-第十套题

第十套题一、python部分1、数据处理 1 、删除 hotel.csv 中商圈为空的数据并且存入 hotel2_c1_N.csv,N 为删除的数据条数； import pandas as pd# 读取数据df = pd.read_csv('./data/hotel.csv')# print(df.info())# 删除 hotel.csv 中商圈为空的数据并且存入 hotel2_c1_N.csv,N 为删除的数据条数；df_1 = df.dropna(subset='shopping')df_2 = len(df)-len(df_1)print(df_2)df_1.to_csv(f'hotel2_c1_{df_2}.csv') 2、删除 hotel.csv 中缺失值大于 3 个的数据列并且存入 hotel2_c2_N.csv,N 为删除的数据列变量名，多列时用下划线“_”间隔无顺序要求； import pandas as pd# 读取数据df = pd. ...

国赛题-第八套题

发表于2024-01-24 国赛题-第八套题

第八套题:一、Python部分1.数据处理打印data.csv数据 # 导入库import pandas as pd# 导入数据big_data = pd.read_csv('./csv文档/data.csv')# 打印数据print(big_data)# 打印字段print(big_dta.info()) 2.子任务二：数据处理现已从相关网站及平台获取到原始数据集，为保障用户隐私和行业敏感信息，已进行数据脱敏。数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况、不违反系统规则条件下，对真实数据进行改造并提供测试使用，如身份证号、手机号等个人信息都需要进行数据脱敏。打开 ZZ052-8-M2-T1-SUBT1 文件夹，文件夹中包含 data.csv 文件。你的小组需要通过编写代码或脚本完成对相关数据文件中数据的清洗和整理。请分析相关数据集，根据题目规定要求实现数据处理，具体要求如下： 1.NAN值代表用户未浏览该页面，查看数据，将NAN 替换为0，然后存入 ...

hadoop-hdfs命令基本操作

发表于2024-01-23 hadoop-hdfs命令基本操作

hadoop-hdfs命令基本操作python打印数据# 1.首先导入库import pandas as pd# 2.读取数据 (../data/hotel_comment.csv这个是你数据文件的路径) (encoding="gbk"这个是编码)df = pd.read_csv("../data/hotel_comment.csv", encoding="gbk")# 3.打印数据 print是打印的意思 df是你读取到的数据赋值给dfprint(df)# 4.打印有多少个字段print(df.info()) 常用的HDFS命令选项1.上传 -puthdfs -dfs -put /根目录文件路径 /上传到hdfs路径 2.下载 -gethdfs dfs -get /hdfs文件路径 /下载到根目录什么哪个链接 3.查看文件和目录 -ls （/是直接查全部或者后面可以指定文件路径）hdfs dfs -ls / 4.新建 -mkdir 表示如果当前路径下不存在该目录(文件夹)，则新建该目录(文件夹)hdf ...

国赛题-第七套题

发表于2024-01-23 国赛题-第七套题

第七套题:一、Python部分1、数据处理（1）查看 train.csv 中数据总数、标准差、均值、最小值、四分之一分位数、二分之一分位数、四分之三分位数和最大值；将上述代码截图复制粘贴至客户端桌面【M2-T1-SUBT2-提交结果 1.docx】中对应的任务序号下。 import pandas as pddata = pd.read_csv('./文本/train.csv', encoding='gbk')# print('打印导入的数据:', data)# 选择数值型的列numeric_data = data.select_dtypes(include=['int64', 'float64'])# 总数data_1 = len(numeric_data)print('总数:',data_1)# 标准差data_2 = numeric_data.std()print('标准差:',data_2)# 均值data_3 = numeric_d ...

国赛题-第六套题

发表于2024-01-22 国赛题-第六套题

第六套题:一、Python部分1、数据处理1.根据 distribution.csv 文件统计单条数据缺失字段计数的最大值，将结果输出到控制台，输出格式如下： ===单条数据缺失字段计数的最大值为***=== import pandas as pddf = pd.read_csv('../data/distribution.csv')missing_counts = df.isnull().sum()max_missing_count = missing_counts.max()print("===单条数据缺失字段计数的最大值为{}===".format(max_missing_count)) 2、数据标注在末尾新增一列数据为“当日是否解冻”，若当日最高温大于 0，并且风力小于等于 2 级，打标签为‘是’；否则打标签为‘否’。标记完成后保存到当前目录，文件命名为“annotation.xlsx”,并将数据截图粘贴到答题报告对应位置。 # 导入库import ...

国赛题-第五套题

发表于2024-01-21 国赛题-第五套题

第五套题:一、Python部分1.数据处理1.读取已经爬取到的 distribution.csv 数据文件，根据表头字段名统计每一列缺失值个数 # 导入库import pandas as pd# 读取数据df = pd.read_csv("../data/distribution.csv") # 读取已经爬取到的 distribution.csv 数据文件，根据表头字段名统计每一列缺失值个数df = df.isnull().sum()print(f"===统计每一列缺失值个数为\n{df}===") 2.数据标注使用 Pandas 读取数据后，将数据按日期列升序排列，在末尾新增一列数据为“是否适合出行游玩”，若当日为周六周日，气温大于等于 18 度小于等于 30 度，并且不下雨，打标签为‘是’；否则打标签为‘否’。标记完成后将标记数据集保存到项目下的“taged_data.xlsx”的文件中 import pandas as pd# 读取数据df = pd.read_excel("../data/鞍山. ...

国赛题-第四套题

发表于2024-01-20 国赛题-第四套题

第四套题:一、Python部分1、数据处理1.删除shopping.csv中库存小于 10 或库存大于 10000 的数据，并存入shop1.csv； # 导入库import pandas as pd# 读取数据df = pd.read_csv("../data/shopping.csv")print(df.info())# 删除shopping.csv中库存小于 10 或库存大于10000 的数据，并存入shop1.csvdf_1 = df.drop(df[(df['库存'] < 10) | (df['库存'] > 10000)].index)print(df_1['库存'])df_1.to_csv("shop1.csv") 2.将涉及“刷单”、“捡漏”等字段的数据删除，并存入shop2.csv； # 导入库import pandas as pd# 读取数据df = pd.read_csv("../data/shopping.csv")print ...

国赛题-第三套题

发表于2024-01-19 国赛题-第三套题

第三套题一、python部分（ 1 ）删除 hotel.csv 中商圈为空的数据并且存入 hotel2_c1_N.csv,N 为删除的数据条数； shopping：这个是商圈的英文名称 dropna：删除是否为空 subset:判断哪一个字段 len：用于返回一个对象的长度或元素的数量。它可以用于字符串、列表、元组、字典、集合等可迭代对象。 to_csv:保存的csv文件 # 导入库import pandas as pd# 读取数据df = pd.read_csv("文件路径")# 删除商圈为空的数据df_1 = df.dropna(subset=['shopping'])# 用len判断元素数量，然后用原数据减去删除的数据df_2 = len(df) - len(df_1)# 保存数据 encoding='utf-8':字符格式df.to_csv(f'hotel2_c1_{df_2}.csv', encoding='u ...

Python-Request数据爬取

发表于2023-12-07 Python-Request数据爬取

需要引入的库源码 import Requests from lxml import etree import time import os import csv 代码部分源码import requestsfrom lxml import etreeimport timeimport base64import osimport csvclass TqSpider: def __init__(self): # 请求的ip地址 self.index_url = 'http://127.0.0.1:5000/' # 请求头 self.headers = { "Cookie": 'salt="\302\210D\303\2609\302\221\007\302\230\302\211f9\303\254J:U\027\303\205V\302\276\302\213\303\257\303\227\303\230\303\223\303\2 ...