]> Untitled Git - lemmy.git/blob - crates/utils/src/utils.rs
1c33b4c5959af63331b3c207ea666c0073ea5a3a
[lemmy.git] / crates / utils / src / utils.rs
1 use crate::{ApiError, IpAddr};
2 use actix_web::dev::ConnectionInfo;
3 use chrono::{DateTime, FixedOffset, NaiveDateTime};
4 use itertools::Itertools;
5 use once_cell::sync::Lazy;
6 use rand::{distributions::Alphanumeric, thread_rng, Rng};
7 use regex::Regex;
8 use url::Url;
9
10 static MENTIONS_REGEX: Lazy<Regex> = Lazy::new(|| {
11   Regex::new(r"@(?P<name>[\w.]+)@(?P<domain>[a-zA-Z0-9._:-]+)").expect("compile regex")
12 });
13 static VALID_ACTOR_NAME_REGEX: Lazy<Regex> =
14   Lazy::new(|| Regex::new(r"^[a-zA-Z0-9_]{3,}$").expect("compile regex"));
15 static VALID_POST_TITLE_REGEX: Lazy<Regex> =
16   Lazy::new(|| Regex::new(r".*\S{3,}.*").expect("compile regex"));
17 static VALID_MATRIX_ID_REGEX: Lazy<Regex> = Lazy::new(|| {
18   Regex::new(r"^@[A-Za-z0-9._=-]+:[A-Za-z0-9.-]+\.[A-Za-z]{2,}$").expect("compile regex")
19 });
20 // taken from https://en.wikipedia.org/wiki/UTM_parameters
21 static CLEAN_URL_PARAMS_REGEX: Lazy<Regex> = Lazy::new(|| {
22   Regex::new(r"^utm_source|utm_medium|utm_campaign|utm_term|utm_content|gclid|gclsrc|dclid|fbclid$")
23     .expect("compile regex")
24 });
25
26 pub fn naive_from_unix(time: i64) -> NaiveDateTime {
27   NaiveDateTime::from_timestamp(time, 0)
28 }
29
30 pub fn convert_datetime(datetime: NaiveDateTime) -> DateTime<FixedOffset> {
31   DateTime::<FixedOffset>::from_utc(datetime, FixedOffset::east(0))
32 }
33
34 pub fn remove_slurs(test: &str, slur_regex: &Option<Regex>) -> String {
35   if let Some(slur_regex) = slur_regex {
36     slur_regex.replace_all(test, "*removed*").to_string()
37   } else {
38     test.to_string()
39   }
40 }
41
42 pub(crate) fn slur_check<'a>(
43   test: &'a str,
44   slur_regex: &'a Option<Regex>,
45 ) -> Result<(), Vec<&'a str>> {
46   if let Some(slur_regex) = slur_regex {
47     let mut matches: Vec<&str> = slur_regex.find_iter(test).map(|mat| mat.as_str()).collect();
48
49     // Unique
50     matches.sort_unstable();
51     matches.dedup();
52
53     if matches.is_empty() {
54       Ok(())
55     } else {
56       Err(matches)
57     }
58   } else {
59     Ok(())
60   }
61 }
62
63 pub fn check_slurs(text: &str, slur_regex: &Option<Regex>) -> Result<(), ApiError> {
64   if let Err(slurs) = slur_check(text, slur_regex) {
65     Err(ApiError::err_plain(&slurs_vec_to_str(slurs)))
66   } else {
67     Ok(())
68   }
69 }
70
71 pub fn check_slurs_opt(text: &Option<String>, slur_regex: &Option<Regex>) -> Result<(), ApiError> {
72   match text {
73     Some(t) => check_slurs(t, slur_regex),
74     None => Ok(()),
75   }
76 }
77
78 pub(crate) fn slurs_vec_to_str(slurs: Vec<&str>) -> String {
79   let start = "No slurs - ";
80   let combined = &slurs.join(", ");
81   [start, combined].concat()
82 }
83
84 pub fn generate_random_string() -> String {
85   thread_rng()
86     .sample_iter(&Alphanumeric)
87     .map(char::from)
88     .take(30)
89     .collect()
90 }
91
92 pub fn markdown_to_html(text: &str) -> String {
93   comrak::markdown_to_html(text, &comrak::ComrakOptions::default())
94 }
95
96 // TODO nothing is done with community / group webfingers yet, so just ignore those for now
97 #[derive(Clone, PartialEq, Eq, Hash)]
98 pub struct MentionData {
99   pub name: String,
100   pub domain: String,
101 }
102
103 impl MentionData {
104   pub fn is_local(&self, hostname: &str) -> bool {
105     hostname.eq(&self.domain)
106   }
107   pub fn full_name(&self) -> String {
108     format!("@{}@{}", &self.name, &self.domain)
109   }
110 }
111
112 pub fn scrape_text_for_mentions(text: &str) -> Vec<MentionData> {
113   let mut out: Vec<MentionData> = Vec::new();
114   for caps in MENTIONS_REGEX.captures_iter(text) {
115     out.push(MentionData {
116       name: caps["name"].to_string(),
117       domain: caps["domain"].to_string(),
118     });
119   }
120   out.into_iter().unique().collect()
121 }
122
123 fn has_newline(name: &str) -> bool {
124   name.contains('\n')
125 }
126
127 pub fn is_valid_actor_name(name: &str, actor_name_max_length: usize) -> bool {
128   name.chars().count() <= actor_name_max_length
129     && VALID_ACTOR_NAME_REGEX.is_match(name)
130     && !has_newline(name)
131 }
132
133 // Can't do a regex here, reverse lookarounds not supported
134 pub fn is_valid_display_name(name: &str, actor_name_max_length: usize) -> bool {
135   !name.starts_with('@')
136     && !name.starts_with('\u{200b}')
137     && name.chars().count() >= 3
138     && name.chars().count() <= actor_name_max_length
139     && !has_newline(name)
140 }
141
142 pub fn is_valid_matrix_id(matrix_id: &str) -> bool {
143   VALID_MATRIX_ID_REGEX.is_match(matrix_id) && !has_newline(matrix_id)
144 }
145
146 pub fn is_valid_post_title(title: &str) -> bool {
147   VALID_POST_TITLE_REGEX.is_match(title) && !has_newline(title)
148 }
149
150 pub fn get_ip(conn_info: &ConnectionInfo) -> IpAddr {
151   IpAddr(
152     conn_info
153       .realip_remote_addr()
154       .unwrap_or("127.0.0.1:12345")
155       .split(':')
156       .next()
157       .unwrap_or("127.0.0.1")
158       .to_string(),
159   )
160 }
161
162 pub fn clean_url_params(mut url: Url) -> Url {
163   if url.query().is_some() {
164     let new_query = url
165       .query_pairs()
166       .filter(|q| !CLEAN_URL_PARAMS_REGEX.is_match(&q.0))
167       .map(|q| format!("{}={}", q.0, q.1))
168       .join("&");
169     url.set_query(Some(&new_query));
170   }
171   url
172 }
173
174 #[cfg(test)]
175 mod tests {
176   use crate::utils::{clean_url_params, is_valid_post_title};
177   use url::Url;
178
179   #[test]
180   fn test_clean_url_params() {
181     let url = Url::parse("https://example.com/path/123?utm_content=buffercf3b2&utm_medium=social&username=randomuser&id=123").unwrap();
182     let cleaned = clean_url_params(url);
183     let expected = Url::parse("https://example.com/path/123?username=randomuser&id=123").unwrap();
184     assert_eq!(expected.to_string(), cleaned.to_string());
185
186     let url = Url::parse("https://example.com/path/123").unwrap();
187     let cleaned = clean_url_params(url.clone());
188     assert_eq!(url.to_string(), cleaned.to_string());
189   }
190
191   #[test]
192   fn regex_checks() {
193     assert!(!is_valid_post_title("hi"));
194     assert!(is_valid_post_title("him"));
195     assert!(!is_valid_post_title("n\n\n\n\nanother"));
196     assert!(!is_valid_post_title("hello there!\n this is a test."));
197     assert!(is_valid_post_title("hello there! this is a test."));
198   }
199 }