zola/components/utils/src/slugs.rs

use serde_derive::{Deserialize, Serialize};

#[derive(Copy, Clone, Debug, PartialEq, Eq, Serialize, Deserialize)]
#[serde(rename_all = "lowercase")]
pub enum SlugifyStrategy {
    /// Classic slugification, the default
    On,
    /// No slugification, only remove unsafe characters for filepaths/urls
    Safe,
    /// Nothing is changed, hope for the best!
    Off,
}

fn strip_chars(s: &str, chars: &str) -> String {
    let mut sanitized_string = s.to_string();
    sanitized_string.retain(|c| !chars.contains(c));
    sanitized_string
}

fn strip_invalid_paths_chars(s: &str) -> String {
    // NTFS forbidden characters : https://gist.github.com/doctaphred/d01d05291546186941e1b7ddc02034d3
    // Also we need to trim whitespaces and `.` from the end of filename
    let trimmed = s.trim_end_matches(|c| c == ' ' || c == '.');
    strip_chars(&trimmed, r#"<>:"/\|?*"#)
}

pub fn slugify_paths(s: &str, strategy: SlugifyStrategy) -> String {
    match strategy {
        SlugifyStrategy::On => slug::slugify(s),
        SlugifyStrategy::Safe => strip_invalid_paths_chars(s),
        SlugifyStrategy::Off => s.to_string(),
    }
}

pub fn slugify_anchors(s: &str, strategy: SlugifyStrategy) -> String {
    match strategy {
        SlugifyStrategy::On => slug::slugify(s),
        SlugifyStrategy::Safe | SlugifyStrategy::Off => s.replace(|c: char| c.is_ascii_whitespace(), "_"),
    }
}

#[cfg(test)]
mod tests {
    use super::*;

    #[test]
    fn can_slugify_paths() {
        let tests = vec![
            // input, (on, safe, off)
            ("input", ("input", "input", "input")),
            ("test ", ("test", "test", "test ")),
            ("tes t", ("tes-t", "tes t", "tes t")),
            // Invalid NTFS
            ("dot. ", ("dot", "dot", "dot. ")),
            ("日本", ("ri-ben", "日本", "日本")),
            ("héhé", ("hehe", "héhé", "héhé")),
            ("test (hey)", ("test-hey", "test (hey)", "test (hey)")),
        ];

        for (input, (on, safe, off)) in tests {
            assert_eq!(on, slugify_paths(input, SlugifyStrategy::On));
            assert_eq!(safe, slugify_paths(input, SlugifyStrategy::Safe));
            assert_eq!(off, slugify_paths(input, SlugifyStrategy::Off));
        }
    }

    #[test]
    fn can_slugify_anchors() {
        let tests = vec![
            // input, (on, safe, off)
            ("input", ("input", "input", "input")),
            ("test ", ("test", "test_", "test_")),
            ("tes t", ("tes-t", "tes_t", "tes_t")),
            // Invalid NTFS
            ("dot. ", ("dot", "dot._", "dot._")),
            ("日本", ("ri-ben", "日本", "日本")),
            ("héhé", ("hehe", "héhé", "héhé")),
            ("test (hey)", ("test-hey", "test_(hey)", "test_(hey)")),
        ];

        for (input, (on, safe, off)) in tests {
            assert_eq!(on, slugify_anchors(input, SlugifyStrategy::On));
            assert_eq!(safe, slugify_anchors(input, SlugifyStrategy::Safe));
            assert_eq!(off, slugify_anchors(input, SlugifyStrategy::Off));
        }
    }
}
Multiple slugification strategies (#929) 2020-02-05 08:13:14 +00:00			`use serde_derive::{Deserialize, Serialize};`

			`#[derive(Copy, Clone, Debug, PartialEq, Eq, Serialize, Deserialize)]`
			`#[serde(rename_all = "lowercase")]`
			`pub enum SlugifyStrategy {`
			`/// Classic slugification, the default`
			`On,`
			`/// No slugification, only remove unsafe characters for filepaths/urls`
			`Safe,`
			`/// Nothing is changed, hope for the best!`
			`Off,`
			`}`

Optionally do not slugify paths (#875) * maybe_slugify() only does simple sanitation if config.slugify is false * slugify is disabled by default, turn on for backwards-compatibility * First docs changes for optional slugification * Remove # from slugs but not & * Add/fix tests for utf8 slugs * Fix test sites for i18n slugs * fix templates tests for i18n slugs * Rename slugify setting to slugify_paths * Default slugify_paths * Update documentation for slugify_paths * quasi_slugify removes ?, /, # and newlines * Remove forbidden NTFS chars in quasi_slugify() * Slugification forbidden chars can be configured * Remove trailing dot/space in quasi_slugify * Fix NTFS path sanitation * Revert configurable slugification charset * Remove \r for windows newlines and \t tabulations in quasi_slugify() * Update docs for output paths * Replace slugify with slugify_paths * Fix test * Default to not slugifying * Move slugs utils to utils crate * Use slugify_paths for anchors as well 2019-12-21 09:44:13 +00:00			`fn strip_chars(s: &str, chars: &str) -> String {`
			`let mut sanitized_string = s.to_string();`
Format code using cargo fmt (#896) 2019-12-23 08:21:51 +00:00			`sanitized_string.retain(\|c\| !chars.contains(c));`
Optionally do not slugify paths (#875) * maybe_slugify() only does simple sanitation if config.slugify is false * slugify is disabled by default, turn on for backwards-compatibility * First docs changes for optional slugification * Remove # from slugs but not & * Add/fix tests for utf8 slugs * Fix test sites for i18n slugs * fix templates tests for i18n slugs * Rename slugify setting to slugify_paths * Default slugify_paths * Update documentation for slugify_paths * quasi_slugify removes ?, /, # and newlines * Remove forbidden NTFS chars in quasi_slugify() * Slugification forbidden chars can be configured * Remove trailing dot/space in quasi_slugify * Fix NTFS path sanitation * Revert configurable slugification charset * Remove \r for windows newlines and \t tabulations in quasi_slugify() * Update docs for output paths * Replace slugify with slugify_paths * Fix test * Default to not slugifying * Move slugs utils to utils crate * Use slugify_paths for anchors as well 2019-12-21 09:44:13 +00:00			`sanitized_string`
			`}`

			`fn strip_invalid_paths_chars(s: &str) -> String {`
			`// NTFS forbidden characters : https://gist.github.com/doctaphred/d01d05291546186941e1b7ddc02034d3`
Multiple slugification strategies (#929) 2020-02-05 08:13:14 +00:00			// Also we need to trim whitespaces and `.` from the end of filename
Optionally do not slugify paths (#875) * maybe_slugify() only does simple sanitation if config.slugify is false * slugify is disabled by default, turn on for backwards-compatibility * First docs changes for optional slugification * Remove # from slugs but not & * Add/fix tests for utf8 slugs * Fix test sites for i18n slugs * fix templates tests for i18n slugs * Rename slugify setting to slugify_paths * Default slugify_paths * Update documentation for slugify_paths * quasi_slugify removes ?, /, # and newlines * Remove forbidden NTFS chars in quasi_slugify() * Slugification forbidden chars can be configured * Remove trailing dot/space in quasi_slugify * Fix NTFS path sanitation * Revert configurable slugification charset * Remove \r for windows newlines and \t tabulations in quasi_slugify() * Update docs for output paths * Replace slugify with slugify_paths * Fix test * Default to not slugifying * Move slugs utils to utils crate * Use slugify_paths for anchors as well 2019-12-21 09:44:13 +00:00			`let trimmed = s.trim_end_matches(\|c\| c == ' ' \|\| c == '.');`
Multiple slugification strategies (#929) 2020-02-05 08:13:14 +00:00			`strip_chars(&trimmed, r#"<>:"/\\|?*"#)`
Optionally do not slugify paths (#875) * maybe_slugify() only does simple sanitation if config.slugify is false * slugify is disabled by default, turn on for backwards-compatibility * First docs changes for optional slugification * Remove # from slugs but not & * Add/fix tests for utf8 slugs * Fix test sites for i18n slugs * fix templates tests for i18n slugs * Rename slugify setting to slugify_paths * Default slugify_paths * Update documentation for slugify_paths * quasi_slugify removes ?, /, # and newlines * Remove forbidden NTFS chars in quasi_slugify() * Slugification forbidden chars can be configured * Remove trailing dot/space in quasi_slugify * Fix NTFS path sanitation * Revert configurable slugification charset * Remove \r for windows newlines and \t tabulations in quasi_slugify() * Update docs for output paths * Replace slugify with slugify_paths * Fix test * Default to not slugifying * Move slugs utils to utils crate * Use slugify_paths for anchors as well 2019-12-21 09:44:13 +00:00			`}`

Multiple slugification strategies (#929) 2020-02-05 08:13:14 +00:00			`pub fn slugify_paths(s: &str, strategy: SlugifyStrategy) -> String {`
			`match strategy {`
			`SlugifyStrategy::On => slug::slugify(s),`
			`SlugifyStrategy::Safe => strip_invalid_paths_chars(s),`
			`SlugifyStrategy::Off => s.to_string(),`
Optionally do not slugify paths (#875) * maybe_slugify() only does simple sanitation if config.slugify is false * slugify is disabled by default, turn on for backwards-compatibility * First docs changes for optional slugification * Remove # from slugs but not & * Add/fix tests for utf8 slugs * Fix test sites for i18n slugs * fix templates tests for i18n slugs * Rename slugify setting to slugify_paths * Default slugify_paths * Update documentation for slugify_paths * quasi_slugify removes ?, /, # and newlines * Remove forbidden NTFS chars in quasi_slugify() * Slugification forbidden chars can be configured * Remove trailing dot/space in quasi_slugify * Fix NTFS path sanitation * Revert configurable slugification charset * Remove \r for windows newlines and \t tabulations in quasi_slugify() * Update docs for output paths * Replace slugify with slugify_paths * Fix test * Default to not slugifying * Move slugs utils to utils crate * Use slugify_paths for anchors as well 2019-12-21 09:44:13 +00:00			`}`
			`}`

Multiple slugification strategies (#929) 2020-02-05 08:13:14 +00:00			`pub fn slugify_anchors(s: &str, strategy: SlugifyStrategy) -> String {`
			`match strategy {`
			`SlugifyStrategy::On => slug::slugify(s),`
			`SlugifyStrategy::Safe \| SlugifyStrategy::Off => s.replace(\|c: char\| c.is_ascii_whitespace(), "_"),`
Optionally do not slugify paths (#875) * maybe_slugify() only does simple sanitation if config.slugify is false * slugify is disabled by default, turn on for backwards-compatibility * First docs changes for optional slugification * Remove # from slugs but not & * Add/fix tests for utf8 slugs * Fix test sites for i18n slugs * fix templates tests for i18n slugs * Rename slugify setting to slugify_paths * Default slugify_paths * Update documentation for slugify_paths * quasi_slugify removes ?, /, # and newlines * Remove forbidden NTFS chars in quasi_slugify() * Slugification forbidden chars can be configured * Remove trailing dot/space in quasi_slugify * Fix NTFS path sanitation * Revert configurable slugification charset * Remove \r for windows newlines and \t tabulations in quasi_slugify() * Update docs for output paths * Replace slugify with slugify_paths * Fix test * Default to not slugifying * Move slugs utils to utils crate * Use slugify_paths for anchors as well 2019-12-21 09:44:13 +00:00			`}`
			`}`

			`#[cfg(test)]`
			`mod tests {`
			`use super::*;`

			`#[test]`
Multiple slugification strategies (#929) 2020-02-05 08:13:14 +00:00			`fn can_slugify_paths() {`
Optionally do not slugify paths (#875) * maybe_slugify() only does simple sanitation if config.slugify is false * slugify is disabled by default, turn on for backwards-compatibility * First docs changes for optional slugification * Remove # from slugs but not & * Add/fix tests for utf8 slugs * Fix test sites for i18n slugs * fix templates tests for i18n slugs * Rename slugify setting to slugify_paths * Default slugify_paths * Update documentation for slugify_paths * quasi_slugify removes ?, /, # and newlines * Remove forbidden NTFS chars in quasi_slugify() * Slugification forbidden chars can be configured * Remove trailing dot/space in quasi_slugify * Fix NTFS path sanitation * Revert configurable slugification charset * Remove \r for windows newlines and \t tabulations in quasi_slugify() * Update docs for output paths * Replace slugify with slugify_paths * Fix test * Default to not slugifying * Move slugs utils to utils crate * Use slugify_paths for anchors as well 2019-12-21 09:44:13 +00:00			`let tests = vec![`
Multiple slugification strategies (#929) 2020-02-05 08:13:14 +00:00			`// input, (on, safe, off)`
			`("input", ("input", "input", "input")),`
			`("test ", ("test", "test", "test ")),`
			`("tes t", ("tes-t", "tes t", "tes t")),`
			`// Invalid NTFS`
			`("dot. ", ("dot", "dot", "dot. ")),`
			`("日本", ("ri-ben", "日本", "日本")),`
			`("héhé", ("hehe", "héhé", "héhé")),`
			`("test (hey)", ("test-hey", "test (hey)", "test (hey)")),`
Optionally do not slugify paths (#875) * maybe_slugify() only does simple sanitation if config.slugify is false * slugify is disabled by default, turn on for backwards-compatibility * First docs changes for optional slugification * Remove # from slugs but not & * Add/fix tests for utf8 slugs * Fix test sites for i18n slugs * fix templates tests for i18n slugs * Rename slugify setting to slugify_paths * Default slugify_paths * Update documentation for slugify_paths * quasi_slugify removes ?, /, # and newlines * Remove forbidden NTFS chars in quasi_slugify() * Slugification forbidden chars can be configured * Remove trailing dot/space in quasi_slugify * Fix NTFS path sanitation * Revert configurable slugification charset * Remove \r for windows newlines and \t tabulations in quasi_slugify() * Update docs for output paths * Replace slugify with slugify_paths * Fix test * Default to not slugifying * Move slugs utils to utils crate * Use slugify_paths for anchors as well 2019-12-21 09:44:13 +00:00			`];`

Multiple slugification strategies (#929) 2020-02-05 08:13:14 +00:00			`for (input, (on, safe, off)) in tests {`
			`assert_eq!(on, slugify_paths(input, SlugifyStrategy::On));`
			`assert_eq!(safe, slugify_paths(input, SlugifyStrategy::Safe));`
			`assert_eq!(off, slugify_paths(input, SlugifyStrategy::Off));`
Optionally do not slugify paths (#875) * maybe_slugify() only does simple sanitation if config.slugify is false * slugify is disabled by default, turn on for backwards-compatibility * First docs changes for optional slugification * Remove # from slugs but not & * Add/fix tests for utf8 slugs * Fix test sites for i18n slugs * fix templates tests for i18n slugs * Rename slugify setting to slugify_paths * Default slugify_paths * Update documentation for slugify_paths * quasi_slugify removes ?, /, # and newlines * Remove forbidden NTFS chars in quasi_slugify() * Slugification forbidden chars can be configured * Remove trailing dot/space in quasi_slugify * Fix NTFS path sanitation * Revert configurable slugification charset * Remove \r for windows newlines and \t tabulations in quasi_slugify() * Update docs for output paths * Replace slugify with slugify_paths * Fix test * Default to not slugifying * Move slugs utils to utils crate * Use slugify_paths for anchors as well 2019-12-21 09:44:13 +00:00			`}`
			`}`

			`#[test]`
Multiple slugification strategies (#929) 2020-02-05 08:13:14 +00:00			`fn can_slugify_anchors() {`
Optionally do not slugify paths (#875) * maybe_slugify() only does simple sanitation if config.slugify is false * slugify is disabled by default, turn on for backwards-compatibility * First docs changes for optional slugification * Remove # from slugs but not & * Add/fix tests for utf8 slugs * Fix test sites for i18n slugs * fix templates tests for i18n slugs * Rename slugify setting to slugify_paths * Default slugify_paths * Update documentation for slugify_paths * quasi_slugify removes ?, /, # and newlines * Remove forbidden NTFS chars in quasi_slugify() * Slugification forbidden chars can be configured * Remove trailing dot/space in quasi_slugify * Fix NTFS path sanitation * Revert configurable slugification charset * Remove \r for windows newlines and \t tabulations in quasi_slugify() * Update docs for output paths * Replace slugify with slugify_paths * Fix test * Default to not slugifying * Move slugs utils to utils crate * Use slugify_paths for anchors as well 2019-12-21 09:44:13 +00:00			`let tests = vec![`
Multiple slugification strategies (#929) 2020-02-05 08:13:14 +00:00			`// input, (on, safe, off)`
			`("input", ("input", "input", "input")),`
			`("test ", ("test", "test_", "test_")),`
			`("tes t", ("tes-t", "tes_t", "tes_t")),`
			`// Invalid NTFS`
			`("dot. ", ("dot", "dot._", "dot._")),`
			`("日本", ("ri-ben", "日本", "日本")),`
			`("héhé", ("hehe", "héhé", "héhé")),`
			`("test (hey)", ("test-hey", "test_(hey)", "test_(hey)")),`
Optionally do not slugify paths (#875) * maybe_slugify() only does simple sanitation if config.slugify is false * slugify is disabled by default, turn on for backwards-compatibility * First docs changes for optional slugification * Remove # from slugs but not & * Add/fix tests for utf8 slugs * Fix test sites for i18n slugs * fix templates tests for i18n slugs * Rename slugify setting to slugify_paths * Default slugify_paths * Update documentation for slugify_paths * quasi_slugify removes ?, /, # and newlines * Remove forbidden NTFS chars in quasi_slugify() * Slugification forbidden chars can be configured * Remove trailing dot/space in quasi_slugify * Fix NTFS path sanitation * Revert configurable slugification charset * Remove \r for windows newlines and \t tabulations in quasi_slugify() * Update docs for output paths * Replace slugify with slugify_paths * Fix test * Default to not slugifying * Move slugs utils to utils crate * Use slugify_paths for anchors as well 2019-12-21 09:44:13 +00:00			`];`

Multiple slugification strategies (#929) 2020-02-05 08:13:14 +00:00			`for (input, (on, safe, off)) in tests {`
			`assert_eq!(on, slugify_anchors(input, SlugifyStrategy::On));`
			`assert_eq!(safe, slugify_anchors(input, SlugifyStrategy::Safe));`
			`assert_eq!(off, slugify_anchors(input, SlugifyStrategy::Off));`
Optionally do not slugify paths (#875) * maybe_slugify() only does simple sanitation if config.slugify is false * slugify is disabled by default, turn on for backwards-compatibility * First docs changes for optional slugification * Remove # from slugs but not & * Add/fix tests for utf8 slugs * Fix test sites for i18n slugs * fix templates tests for i18n slugs * Rename slugify setting to slugify_paths * Default slugify_paths * Update documentation for slugify_paths * quasi_slugify removes ?, /, # and newlines * Remove forbidden NTFS chars in quasi_slugify() * Slugification forbidden chars can be configured * Remove trailing dot/space in quasi_slugify * Fix NTFS path sanitation * Revert configurable slugification charset * Remove \r for windows newlines and \t tabulations in quasi_slugify() * Update docs for output paths * Replace slugify with slugify_paths * Fix test * Default to not slugifying * Move slugs utils to utils crate * Use slugify_paths for anchors as well 2019-12-21 09:44:13 +00:00			`}`
			`}`
			`}`